码迷,mamicode.com
首页 >  
搜索关键字:分词器    ( 431个结果
中文分词器的总结
0 —— Lucene & Nutch是一种神奇的东西,包含了语义分析,自然语言处理,中文分析,网络爬取,索引建立,html解析等,下面介绍几种常用的中文分词工具 1 —— StandardAnalyzer标准分析器,能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息,还可以支持过滤词表,用来替代StopAnalyzer能够完成的过滤功能。...
分类:其他好文   时间:2015-02-23 13:11:29    阅读次数:156
搜索技术(2)
自然语言处理 基于规则 基于统计统计语言模型中文分词 梁南元--查字典 郭进--统计语言模型 Basis Technology 通用分词器 葛显平、朱安隐含马尔科夫模型信息熵贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特统计语音识别和自然语言处理雅让斯基、布莱尔阿米特.辛格搜索引擎:...
分类:其他好文   时间:2015-02-19 20:43:20    阅读次数:310
IKAnalyzer 中文分词器
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。可与lucene配合使用。 项目地址:http://www.oschina.net/p/ikanalyzer/ 下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码: {CSDN:CODE:602681} 该代码的工程结构:下图...
分类:其他好文   时间:2015-02-11 18:44:37    阅读次数:193
在Solr4.10配置IKAnalyzer 同义词、扩展词库、停顿词详解
在配置IKAnalyzer 同义词时,遇到一些麻烦,配置了半天终于成功,在此做个记录,方便以后参考 其实配置也简单,主要是jar包,IKAnalyzer貌似已经没人更新了……本人也是从别人那下载的才可用,我也将jar包上传至本人资源, 路径为:http://download.csdn.net/download/tjcyjd/8430613 在solr的配置文件schema.xml中添加:...
分类:其他好文   时间:2015-02-10 11:16:03    阅读次数:373
深度解析中文分词器算法(最大正向/逆向匹配)
1:非基于词典的分词(人工智能领域) 相当于人工智能领域计算。一般用于机器学习,特定领域等方法,这种在特定领域的分词可以让计算机在现有的规则模型中, 推理如何分词。在某个领域(垂直领域)分词精度较高。例:比较流行的语义网:基于本体的语义检索。 2:基于词典的分词(最为常见) 这类分词算法比较常见,比如正向/逆向匹配。例如: mmseg分词器 就是一种基于词典的分词算法。以最大正向匹配为主,多 种 消除歧义算法为辅。但是不管怎么分。该类分词方法,分词精度不高。由于中文比较复杂,不推荐采用正向...
分类:编程语言   时间:2015-02-08 09:12:11    阅读次数:327
compass和paoding分词器的基本使用
1.实现搜索的技术:数据库查询:like查询;lucene全文检索技术;1)在数据量比较大,查询字段比较多的情况下,如果采用数据库like sql查询,性能比较差;采用lucene来查询,性能相对于数据库like sql查询要好些;2)如果采用lucene进行搜索,搜索到的结果相关度比较高,而且会把...
分类:其他好文   时间:2015-02-03 21:13:09    阅读次数:267
Solr配置中文分词器IK Analyzer详解
配置的过程中出现了一些小问题,一下将详细讲下IK Analyzer的配置过程,配置非常的简单,但是首先主要你的Solr版本是哪个,如果是3.x版本的用IKAnalyzer2012_u6.zip如果是4.x版本的用IK Analyzer 2012FF_hf1.zip,一定要对应上,要不然会配置失败。以下是详细步骤: 1、下载IK Analyzer。 下载地址为:http://code.googl...
分类:其他好文   时间:2015-02-03 19:28:06    阅读次数:223
lucene分词流程
这一个星期花时间好好学习了一下lucene/solr,今天好好总结一下,写点文章记录点重要的东西,以便日后不至于丈二和尚摸不着头脑, 这一篇文章主要是简单的介绍一下lucene分词过程中的分词流程,和一些简单原理的讲解,希望不妥这处读者能够指正,不胜感激!! (一)主要分词器 WhitespaceAnalyzer、StopAnalyzer、SimpleAnalyzer、Key...
分类:Web程序   时间:2015-02-03 17:15:53    阅读次数:181
lucene如何写自己的同义词分词器
前一篇文章 lucene分词流程讲解了分词的一些流程,我们也对分词流程有了一个初步的了解,知道一个分词器由多个Tokenizer和TokenFilter组成,这篇文章讲解的就是我们利用这两个特性实现自己的一个简单的同义词分词器,不妥之处请大家指出 (一)分析 如何实现同义词呢?比如重庆可以叫做山城,我们搜索山城的时候也应该要搜索要包含重庆这个单词的文章。那么我们就必须要了解lucene只怎么处...
分类:Web程序   时间:2015-02-03 17:10:14    阅读次数:226
solr配置中文分词器
可能需要连接上篇《Solr与tomcat整合》 1.从http://code.google.com/p/mmseg4j/    下载mmseg4j 2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home  下的dic...
分类:其他好文   时间:2015-01-29 09:39:49    阅读次数:153
431条   上一页 1 ... 35 36 37 38 39 ... 44 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!