提示:必须保证之前的ES中不存在index, 否则ES集群无法启动, 会提示red!1.下载IK字典配置文件http://download.csdn.net/detail/xxx0624/8464751然后解压该文件(可以得到一个ik文件夹)并把它放到ES的config文件夹下.2.下载 ik.ja...
分类:
其他好文 时间:
2015-03-01 17:01:53
阅读次数:
155
package com.fxr.test2;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.Input...
分类:
Web程序 时间:
2015-02-27 14:58:55
阅读次数:
157
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具
1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。...
分类:
其他好文 时间:
2015-02-23 13:11:29
阅读次数:
156
自然语言处理 基于规则 基于统计统计语言模型中文分词 梁南元--查字典 郭进--统计语言模型 Basis Technology 通用分词器 葛显平、朱安隐含马尔科夫模型信息熵贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特统计语音识别和自然语言处理雅让斯基、布莱尔阿米特.辛格搜索引擎:...
分类:
其他好文 时间:
2015-02-19 20:43:20
阅读次数:
310
简介“结巴”中文分词的R语言版本,支持最大概率法(Maximum Probability), 隐式马尔科夫模型(Hidden Markov Model), 索引模型(QuerySegment), 混合模型(MixSegment), 共四种分词模式, 同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。特性支持 Windows , Linux操...
分类:
编程语言 时间:
2015-02-17 11:42:32
阅读次数:
376
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。
项目地址:http://www.oschina.net/p/ikanalyzer/
下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF
示例代码:
{CSDN:CODE:602681}
该代码的工程结构:下图...
分类:
其他好文 时间:
2015-02-11 18:44:37
阅读次数:
193
不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行:复制代码代码如下:/*** DZ在线中文分词* @param $title str...
分类:
Web程序 时间:
2015-02-09 12:45:54
阅读次数:
132
1:非基于词典的分词(人工智能领域)
相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中,
推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。
2:基于词典的分词(最为常见)
这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多
种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:
编程语言 时间:
2015-02-08 09:12:11
阅读次数:
327
Elasticsearch的中文分词很烂,所以我们需要安装ik。首先从github上下载项目,解压:cd /tmpwget https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zipunzip master.zipcd ...
分类:
其他好文 时间:
2015-02-05 20:22:04
阅读次数:
204
配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤:
1、下载IK Analyzer。
下载地址为:http://code.googl...
分类:
其他好文 时间:
2015-02-03 19:28:06
阅读次数:
223