全文检索有两个重要的过程:1分词
2倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,...
分类:
编程语言 时间:
2015-05-06 17:49:08
阅读次数:
130
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。 一丘之貉?比众不同
一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶
一举两得?事倍功半?顾此失彼
一了百...
分类:
其他好文 时间:
2015-05-06 15:29:58
阅读次数:
111
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了。ansj作者在其官方代码中,提供了对lucene接口的支持。如果用在Solr下,还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml,具体如下所示: 4.0.0 ...
分类:
其他好文 时间:
2015-05-05 16:24:03
阅读次数:
162
分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可...
分类:
其他好文 时间:
2015-05-03 13:13:17
阅读次数:
237
这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一一?逐一
一下子?一会儿
一丝不动?纹丝不动
一举成名?一鸣惊人
一乾二净?六根清净
一人得道?鸡犬升天
...
分类:
其他好文 时间:
2015-04-30 22:02:23
阅读次数:
151
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:
Web程序 时间:
2015-04-30 06:23:53
阅读次数:
156
jieba中文分词的使用
import jieba
sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service']
# jieba.suggest_freq('雾霾', True)
# jieba.suggest_freq('百搭', True)
words = [list(jieba.cut(doc)) for...
分类:
编程语言 时间:
2015-04-27 16:58:00
阅读次数:
301
elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段;我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件,测试的话建议...
分类:
移动开发 时间:
2015-04-14 09:52:46
阅读次数:
135
安装环境的准备:
(这里直接给相关软件的版本号了)
centos 6.4
apache-tomcat-7.0.57
solr-4.10.4
jdk1.7.0_75
jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。
具体步骤:
1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zi...
分类:
其他好文 时间:
2015-04-09 19:55:04
阅读次数:
221
----------------------------------------------------------
lucene的分词_中文分词介绍
----------------------------------------------------------
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库
1.导入包(有两个包:1.带dic的,2...
分类:
Web程序 时间:
2015-04-08 10:59:40
阅读次数:
191