码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
使用NLPIR-ICTCLAS2014分词系统
使用NLPIR-ICTCLAS2014分词系统...
分类:其他好文   时间:2014-08-04 14:18:57    阅读次数:258
Windows下面安装和配置Solr 4.9(三)支持中文分词器
首先将下载解压后的solr-4.9.0的目录里面找到lucene-analyzers-smartcn-4.9.0.jar文件,将它复制到solr的应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,备注:网上很多文章使用IK中文分词器(IK_...
分类:Windows程序   时间:2014-08-03 12:39:15    阅读次数:386
java读取中文分词工具(三)
import java.io.EOFException; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.RandomAccessFile; import java.util.ArrayLis...
分类:编程语言   时间:2014-08-01 23:14:42    阅读次数:309
java读取中文分词工具(四)
import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serial...
分类:编程语言   时间:2014-08-01 23:14:32    阅读次数:271
二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。        对于第二个假设,我们不去讨论它。现在来看第一...
分类:其他好文   时间:2014-08-01 20:02:22    阅读次数:372
中文分词技术(中文分词原理)
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(...
分类:其他好文   时间:2014-07-23 12:20:06    阅读次数:263
java读取中文分词工具(2)
/* * 文件格式:已分词的中文文本,每个词语空格分割,每行一个段落。 * 这个类适合读取每行数量较少的文本,比如分好段落的文本,一个段落一行存储。 * 读取一行,步长为1,返回词组。不会跨段落生成词组。 * 两种模式: * 1 读到文件末尾,结束 * 2 读到文件末尾,从头再来 */...
分类:编程语言   时间:2014-07-19 08:07:56    阅读次数:324
java读取中文分词工具
/* * 文本格式:已分词的中文文本,空格分割。有若干行,每行为一个段落。 * 功能:遍历文档,逐个返回词语。 * 两种模式: * 1 到文档末尾后,结束 * 2 到文档末尾后,从头再读。 /...
分类:编程语言   时间:2014-07-19 02:16:37    阅读次数:238
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:编程语言   时间:2014-07-15 23:14:45    阅读次数:679
solr中文分词
IK是solr常用的中文分词,其配置比较难搞,试了好多次才搞定:将jar放入tomcat下WEB-INF/libconfig.xml,ext.dic,stopword.dic放入WEB-INF/classes下另外,solr4+需要使用IK_2012_ff,不要使用IK_2012_u6IK实际的效果...
分类:其他好文   时间:2014-07-15 09:52:49    阅读次数:231
704条   上一页 1 ... 65 66 67 68 69 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!