搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

基于隐马尔可夫模型的有监督词性标注

代码下载：基于隐马尔可夫模型的有监督词性标注词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。词性标注本质上是...

分类：其他好文时间：2014-06-24 20:05:51 阅读次数：233

关于中文分词

目前全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0)，吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高，比较下使用的KAnalyzer,mmseg4j1.9.2-snapshot,standardanalyzer,性能分别在1.7M/s,10M/s,20M/s这样量级。所以...

分类：其他好文时间：2014-06-22 08:37:18 阅读次数：201

python scikit-learn计算tf-idf词语权重

python的scikit-learn包下有计算tf-idf的api，研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词，安装jieba分词包 sudo pip install jieba 3 关于jieba分词的使用非常简单，参考这里，关键的语句就是(这里简单试水，不追求效...

分类：编程语言时间：2014-06-16 14:40:05 阅读次数：437

PHPAnalysis中文分词类实用教程

PHPAnalysis是目前广泛使用的中文分词类，使用反向匹配模式分词，因此兼容编码更广泛，现将其变量与常用函数详解如下：一、比较重要的成员变量$resultType = 1 生成的分词结果数据类型(1 为全部， 2为词典词汇及单个中日韩简繁字符及英文， 3 为词典词汇及英文) ...

分类：Web程序时间：2014-06-15 09:39:46 阅读次数：196

Hadoop的改进实验（中文分词词频统计及英文词频统计）博文目录结构

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。下面是五个部分....

分类：其他好文时间：2014-06-07 02:55:09 阅读次数：178

Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:26:48 阅读次数：538

Hadoop的改进实验（中文分词词频统计及英文词频统计）（3/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:25:19 阅读次数：400

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:12:51 阅读次数：394

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 12:45:25 阅读次数：563

隐马尔科夫模型

HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...

分类：其他好文时间：2014-05-30 05:24:57 阅读次数：212