码迷,mamicode.com
首页 >  
搜索关键字:中文分词 最少单词数    ( 704个结果
lucene 分词的一些杂谈
找遍了网上所有的中文的分词工具,没有一个可以拿来用的,所以决定还是自己做一个分词的工具把,分词的核心功能: 1.分词基础算法(常见的有正向最大,逆向最大,最多分词,基于统计,基于理解即无词库分词等,当然一个好的搜索引擎必然是基于多种分词方式的) 2.是否支持强制一元分词:这个是商业的搜索引擎必备的。 3.同义词识别,简体中文和繁体中文的识别对应转换,中文和拼音的互转 4.支持中文分词的时候是否考虑...
分类:Web程序   时间:2016-05-12 12:01:51    阅读次数:360
关于NLPIR应用在KETTLE中的探索
一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:其他好文   时间:2016-05-09 15:50:35    阅读次数:170
猪猪的机器学习笔记(十八)条件随机场
条件随机场 <!--more--> 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十八次课在线笔记。条件随机场是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 引言: “条件随机场”被用于中文分词和词性标注等词法分析工作,一 ...
分类:其他好文   时间:2016-05-06 20:14:35    阅读次数:408
中文分词工具Jieba
源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式:     a,精确模式,试图将句子最精确地切开,适合文本分析;      b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;      c,搜索引擎模式,在...
分类:其他好文   时间:2016-05-06 12:56:47    阅读次数:204
PHP中文分词
最常见的词语二分法: $str = '这是我的网站www.7di.net!'; //$str = iconv('GB2312','UTF-8',$str); $result = spStr($str); print_r($result); /** * UTF-8版 中文二元分词 */ functio ...
分类:Web程序   时间:2016-05-05 09:39:28    阅读次数:159
solr5.5+中文分词
首先,solr5.5自带的中文分词实在是太low了。 无奈。 采用ik来试试。 首先,下载ik。地址https://github.com/EugenePig/ik-analyzer-solr5 下载完成后解压 在解压目录打开命令行窗口:mvn clean install 等着完成就可以了。 至此,打 ...
分类:其他好文   时间:2016-05-03 23:28:24    阅读次数:541
ElasticSearch安装ik分词插件
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化 ...
分类:其他好文   时间:2016-05-01 16:04:12    阅读次数:228
中文分词技术
//正向最大匹配分词算法,耗时长,这并不是一个很好的算法,我的这个输出是逆向输入的 usingSystem; usingSystem.Collections.Generic; usingSystem.Linq; usingSystem.Text; namespaceClusterCharater { publicclassSplitChineseCharacter { privateString[]dictionary={"今..
分类:其他好文   时间:2016-05-01 01:21:18    阅读次数:254
Solr的中英文分词实现
对于Solr应该不需要过多介绍了,强大的功能也是都体验过了,但是solr一个较大的问题就是分词问题,特别是中英文的混合分词,处理起来非常棘手。 虽然solr自带了支持中文分词的cjk,但是其效果实在不好,所以solr要解决的一个问题就是中文分词问题,这里推荐的方案是利用ik进行分词。 ik是较早作中 ...
分类:其他好文   时间:2016-04-27 18:50:09    阅读次数:151
Solr系列二:Solr与mmseg4j的整合
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mm ...
分类:其他好文   时间:2016-04-25 22:32:36    阅读次数:267
704条   上一页 1 ... 44 45 46 47 48 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!