码迷,mamicode.com
首页 >  
搜索关键字:elasticsearch ik 中文分词    ( 5835个结果
网络挖掘技术——text mining
一、中文分词:分词就是利用计算机识别出文本中词汇的过程。 1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控 ;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:其他好文   时间:2014-06-07 06:04:35    阅读次数:511
Hadoop的改进实验(中文分词词频统计及英文词频统计) 博文目录结构
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好)。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3)本文由于过长,无法一次性上传。下面是五个部分....
分类:其他好文   时间:2014-06-07 02:55:09    阅读次数:178
Solr调研总结(转)
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:其他好文   时间:2014-05-26 22:22:05    阅读次数:886
ElasticSearch Remote Code Execution (CVE-2014-3120)
Elasticsearch is a powerful open source search and analytics engine. The vulnerability allows attackers read from or append to files on the system hos...
分类:其他好文   时间:2014-05-25 16:40:56    阅读次数:349
最长公共子序列问题LCS
最长公共子序列问题LCS   问题描述: 一个给定序列的子序列是在该序列中删去若干元素后得到的序列。确切地说,若给定序列X= { x1, x2,…, xm},则另一序列Z= {z1, z2,…, zk}是X的子序列是指存在一个严格递增的下标序列 {i1, i2,…, ik},使得对于所有j=1,2,…,k有 Xij=Zj。例如,序列Z={B,C,D,B}是序列X={A,B,C,B,D,...
分类:其他好文   时间:2014-05-25 06:26:52    阅读次数:229
ElasticSearch远程任意代码执行漏洞(CVE-2014-3120)分析
原理 这个漏洞实际上非常简单,ElasticSearch有脚本执行(scripting)的功能,可以很方便地对查询出来的数据再加工处理。 ElasticSearch用的脚本引擎是MVEL,这个引擎没有做任何的防护,或者沙盒包装,所以直接可以执行任意代码。 而在ElasticSearch里,默认配置是打开动态脚本功能的,因此用户可以直接通过http请求,执行任意代码。 其实官方是清楚这个漏洞...
分类:其他好文   时间:2014-05-24 18:04:15    阅读次数:223
当前几个主要的Lucene中文分词器的比较
1.基本介绍:paoding:Lucene中文分词“庖丁解牛” PaodingAnalysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j: 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理...
分类:其他好文   时间:2014-05-24 11:47:16    阅读次数:358
中文分词器性能比较
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:其他好文   时间:2014-05-24 09:33:03    阅读次数:371
Java实现使用IK Analyzer实现中文分词
需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK Analyzer):[java] view plaincopypackage com.haha.test; ...
分类:编程语言   时间:2014-05-22 05:58:40    阅读次数:392
文本分析与检索
主要内容: 1、文本表示与特征提取; 2、隐语义分析LSA和Latent Dirichlet Allocation(LDA) 3、检索模型:Boolean模型、向量模型、概率模型 1、文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息; 利用分词工具:极易中文分词:je-analysis...
分类:其他好文   时间:2014-05-21 18:03:26    阅读次数:486
5835条   上一页 1 ... 580 581 582 583 584 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!