码迷,mamicode.com
首页 >  
搜索关键字:分词器    ( 431个结果
spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:其他好文   时间:2015-05-14 16:43:27    阅读次数:350
lucene 各种查询方式
各种查询 方式一:使用QueryParser与查询语法。(会使用分词器) MultiFieldQueryParser 查询字符串 ------------------------> Query对象 例如: 上海 AND 天气 上海 OR 天气 上海新闻 AND site:news.163.com .....
分类:Web程序   时间:2015-05-13 20:06:27    阅读次数:159
如何利用多核提升分词速度
在进行中文分词的时候,我们如何利用多核提升分词速度呢? 计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。 在对一段文本进行分词的时候,word分词器的处理步骤如下: 1、把要分...
分类:其他好文   时间:2015-05-13 01:01:41    阅读次数:177
cws_evaluation v1.1 发布,中文分词器分词效果评估对比
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:其他好文   时间:2015-05-12 11:48:11    阅读次数:295
Lucene分词器
Lucene分析器的基类为Analyzer,Analyzer包含两个核心组件:Tokenizer和 TokenFilter。自定义分析器必须实现Analyzer类的抽象方法createComponents(String)来定义TokenStreamComponents。在调用方法tokenStrea...
分类:Web程序   时间:2015-05-10 22:12:14    阅读次数:475
9大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1、学会使用9大Java开源中文分词器 2、对比分析9大Java开源中文分词器的分词效果 9大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口: /** ?...
分类:编程语言   时间:2015-05-10 06:26:32    阅读次数:227
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr?提供了层面搜索、命中醒目显示并且支持多种输出格式(包括?XML/XSLT?和?JSON?格式)。它易于安装和配置,而且附带了一个基于HTTP?的管理界面。Solr已经在众...
分类:其他好文   时间:2015-05-08 13:14:00    阅读次数:161
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以Solr的..
分类:其他好文   时间:2015-05-08 13:10:49    阅读次数:183
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与...
分类:其他好文   时间:2015-05-08 13:07:59    阅读次数:137
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr包装并扩展了Lucene,所以S...
分类:其他好文   时间:2015-05-08 12:56:56    阅读次数:138
431条   上一页 1 ... 33 34 35 36 37 ... 44 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!