码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
最大匹配分词算法
全文检索有两个重要的过程:1分词                                               2倒排索引 我们先看分词算法 目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:编程语言   时间:2015-05-06 17:49:08    阅读次数:130
中文分词之9271组反义词
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同 一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶 一举两得?事倍功半?顾此失彼 一了百...
分类:其他好文   时间:2015-05-06 15:29:58    阅读次数:111
编译Ansj之Solr插件
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:其他好文   时间:2015-05-05 16:24:03    阅读次数:162
基于互联网内容的中文分词小实验
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:其他好文   时间:2015-05-03 13:13:17    阅读次数:237
中文分词之9577组同义词
这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一一?逐一 一下子?一会儿 一丝不动?纹丝不动 一举成名?一鸣惊人 一乾二净?六根清净 一人得道?鸡犬升天 ...
分类:其他好文   时间:2015-04-30 22:02:23    阅读次数:151
让盘古分词支持最新的Lucene.Net 3.0.3
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:Web程序   时间:2015-04-30 06:23:53    阅读次数:156
python下结巴中文分词
jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...
分类:编程语言   时间:2015-04-27 16:58:00    阅读次数:301
elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段;我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件,测试的话建议...
分类:移动开发   时间:2015-04-14 09:52:46    阅读次数:135
solr4.10.4 单机安装(并添加dataimport和中文分词器)
安装环境的准备: (这里直接给相关软件的版本号了)   centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。 具体步骤: 1.下载solr-4.10.4,然后解压开我这里解压到  /usr/local/zi...
分类:其他好文   时间:2015-04-09 19:55:04    阅读次数:221
Lucene实现自定义中文同义词分词器
---------------------------------------------------------- lucene的分词_中文分词介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包(有两个包:1.带dic的,2...
分类:Web程序   时间:2015-04-08 10:59:40    阅读次数:191
704条   上一页 1 ... 55 56 57 58 59 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!