搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

最大匹配分词算法

全文检索有两个重要的过程：1分词 2倒排索引我们先看分词算法目前对中文分词有两个方向，其中一个是利用概率的思想对文章分词。也就是如果两个字，一起出现的频率很高的话，我们可以假设这两个字是一个词。这里可以用一个公式衡量：M(A,B)=P(AB)/P(A)P(B)，其中 A表示一个字，B表示一个字，...

分类：编程语言时间：2015-05-06 17:49:08 阅读次数：130

中文分词之9271组反义词

这9271组反义词出自Java分布式中文分词组件 - word分词，这里列出50组反义词，更多同义词请看这里。一丘之貉?比众不同一丝不苟?草草了事?粗心大意?敷衍了事?粗枝大叶一举两得?事倍功半?顾此失彼一了百...

分类：其他好文时间：2015-05-06 15:29:58 阅读次数：111

编译Ansj之Solr插件

Ansj是一个比较优秀的中文分词组件，具体情况就不在本文介绍了。ansj作者在其官方代码中，提供了对lucene接口的支持。如果用在Solr下，还需要简单的扩展一下。1、基于maven管理 ansj是基于maven进行开发管理的。我们首先修改一下其pom.xml，具体如下所示： 4.0.0 ...

分类：其他好文时间：2015-05-05 16:24:03 阅读次数：162

基于互联网内容的中文分词小实验

分词对于搜索引擎，输入法输入提示，语音识别等其它人机交互系统等都很有用。互联网的海量信息为分词研究提供了大量的，动态更新的原始资料库。很多互联网公司都有基于互联网内容的分词系统。并且采用HADOOP等分析大量数据。这些听上去很高大上，但是仔细想想基本原理应该是比较容易理解的，我们每个程序员也很容易可...

分类：其他好文时间：2015-05-03 13:13:17 阅读次数：237

中文分词之9577组同义词

这9577组同义词出自Java分布式中文分词组件 - word分词，这里列出50组同义词，更多同义词请看这里。一一?逐一一下子?一会儿一丝不动?纹丝不动一举成名?一鸣惊人一乾二净?六根清净一人得道?鸡犬升天 ...

分类：其他好文时间：2015-04-30 22:02:23 阅读次数：151

让盘古分词支持最新的Lucene.Net 3.0.3

好多年没升级过的Lucene.Net最近居然升级了，到了3.0.3后接口发生了很大变化，原来好多分词库都不能用了，所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3（参考《基于MMSeg算法的中文分词类库》）。然后我知道了.Net下还有一个盘古分词（http://panguse...

分类：Web程序时间：2015-04-30 06:23:53 阅读次数：156

python下结巴中文分词

jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...

分类：编程语言时间：2015-04-27 16:58:00 阅读次数：301

elasticsearch中的mapping映射配置与查询典型案例

elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎，新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段；我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件，测试的话建议...

分类：移动开发时间：2015-04-14 09:52:46 阅读次数：135

solr4.10.4 单机安装（并添加dataimport和中文分词器）

安装环境的准备：（这里直接给相关软件的版本号了） centos 6.4 apache-tomcat-7.0.57 solr-4.10.4 jdk1.7.0_75 jdk和tomcat这里就不给安装方式了，要是不会直接百度各种有。具体步骤： 1.下载solr-4.10.4，然后解压开我这里解压到 /usr/local/zi...

分类：其他好文时间：2015-04-09 19:55:04 阅读次数：221

Lucene实现自定义中文同义词分词器

---------------------------------------------------------- lucene的分词_中文分词介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包（有两个包：1.带dic的，2...

分类：Web程序时间：2015-04-08 10:59:40 阅读次数：191

共704条上一页 1 ... 55 56 57 58 59 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)