码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
基于隐马尔可夫模型的有监督词性标注
代码下载:基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。        词性标注本质上是...
分类:其他好文   时间:2014-06-24 20:05:51    阅读次数:233
关于中文分词
目前全量索引17G,不到1300万document花费大约25分钟的时间(Lucene 4.0),吞吐量远远低于lucene nightly build宣称的170G/h的量。换用StandardAnalyzer,有34%的提高,比较下使用的KAnalyzer,mmseg4j1.9.2-snapshot,standardanalyzer,性能分别在1.7M/s,10M/s,20M/s这样量级。所以...
分类:其他好文   时间:2014-06-22 08:37:18    阅读次数:201
python scikit-learn计算tf-idf词语权重
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词,安装jieba分词包 sudo pip install jieba 3  关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:编程语言   时间:2014-06-16 14:40:05    阅读次数:437
PHPAnalysis中文分词类实用教程
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下:一、比较重要的成员变量$resultType = 1 生成的分词结果数据类型(1 为全部, 2为 词典词汇及单个中日韩简繁字符及英文, 3 为词典词汇及英文) ...
分类:Web程序   时间:2014-06-15 09:39:46    阅读次数:196
Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:其他好文   时间:2014-06-07 02:55:09    阅读次数:178
Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:26:48    阅读次数:538
Hadoop的改进实验(中文分词词频统计及英文词频统计)(3/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:25:19    阅读次数:400
Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 13:12:51    阅读次数:394
Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。其相邻相关的博....
分类:其他好文   时间:2014-05-30 12:45:25    阅读次数:563
隐马尔科夫模型
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包 括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音 输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:其他好文   时间:2014-05-30 05:24:57    阅读次数:212
704条   上一页 1 ... 67 68 69 70 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!