码迷,mamicode.com
首页 >  
搜索关键字:中文分词 最少单词数    ( 704个结果
(转)Sphinx中文分词安装配置及API调用
这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂时不要选择原版Sphinx(对中文的支持不是很好).又因为服务器所用 MySQL在当时编译时并没有编...
分类:Windows程序   时间:2015-03-12 00:56:00    阅读次数:2412
java实现NLPIR(ICTCLAS)分词
1、NLPIR简介         NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。     下载地址:http://ictclas.nlpir.org/downloads   2、目录介绍    ...
分类:编程语言   时间:2015-03-10 15:35:18    阅读次数:676
Bag标签
功能: · 把字符串按关键字放进书包 · 把书包保存到会话中 · 把字符串分割成数组,返回一个存放数组数据的书包(Bag) · 删除书包中的一条数据(如Esql返回的数据记录或xml的一个节点) · 保存xml类型的书包(bag)到给定名称的文件 · 中文分词 · 检验 · 修改书包名...
分类:其他好文   时间:2015-03-09 12:56:19    阅读次数:129
ElasticSearch使用IK中文分词---安装步骤记录
提示:必须保证之前的ES中不存在index, 否则ES集群无法启动, 会提示red!1.下载IK字典配置文件http://download.csdn.net/detail/xxx0624/8464751然后解压该文件(可以得到一个ik文件夹)并把它放到ES的config文件夹下.2.下载 ik.ja...
分类:其他好文   时间:2015-03-01 17:01:53    阅读次数:155
Lucene中文分词
package com.fxr.test2;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.Input...
分类:Web程序   时间:2015-02-27 14:58:55    阅读次数:157
中文分词器的总结
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具 1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。...
分类:其他好文   时间:2015-02-23 13:11:29    阅读次数:156
搜索技术(2)
自然语言处理 基于规则 基于统计统计语言模型中文分词 梁南元--查字典 郭进--统计语言模型 Basis Technology 通用分词器 葛显平、朱安隐含马尔科夫模型信息熵贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特统计语音识别和自然语言处理雅让斯基、布莱尔阿米特.辛格搜索引擎:...
分类:其他好文   时间:2015-02-19 20:43:20    阅读次数:310
R语言中文分词jiebaR
简介“结巴”中文分词的R语言版本,支持最大概率法(Maximum Probability), 隐式马尔科夫模型(Hidden Markov Model), 索引模型(QuerySegment), 混合模型(MixSegment), 共四种分词模式, 同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。特性支持 Windows , Linux操...
分类:编程语言   时间:2015-02-17 11:42:32    阅读次数:376
IKAnalyzer 中文分词器
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。 项目地址:http://www.oschina.net/p/ikanalyzer/ 下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码: {CSDN:CODE:602681} 该代码的工程结构:下图...
分类:其他好文   时间:2015-02-11 18:44:37    阅读次数:193
使用Discuz关键词服务器实现PHP中文分词
不同于使用自己的服务器进行分词,Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行:复制代码代码如下:/*** DZ在线中文分词* @param $title str...
分类:Web程序   时间:2015-02-09 12:45:54    阅读次数:132
704条   上一页 1 ... 57 58 59 60 61 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!