码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
在Solr中配置中文分词IKAnalyzer
李克华云计算高级群: 292870151 交流:Hadoop、NoSQL、分布式、lucene、solr、nutch 在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: ...
分类:其他好文   时间:2014-12-05 17:02:09    阅读次数:148
shpinx / coreseek 安装配置教程
sphinx是一个专业的开源搜索引擎,但不支持中文。coreseek相当于sphinx的中文版,使用了mmseg3来支持中文分词。虽然coreseek里面的shpinx版本很低,目前稳定版的coreseek 3.2.14自带的shpinx只有0.9.9,但还用就行。很多教程中,先安装shpinx的最新版,再安装coreseek,这个,不知道是怎么传的,反正这么安装是完全没必要的。...
分类:其他好文   时间:2014-12-04 12:16:17    阅读次数:181
ubunutu 源码lamp mysql5.5 PHP5.4 +swsc中文分词
1.准备环境sudoapt-getinstallgccg++cpplibncurses5-devmakelibssl-devsysv-rc-confbisonlibbz2-devlibcurl3-openssl-devlibjpeg62-devlibpng12-devlibxpm-devlibt1-devlibfreetype6-devlibgmp3-devlibmcrypt-devlibmhash-devlibpspell-devlibsnmp9-devlibmm-devlibtidy-devlib..
分类:数据库   时间:2014-12-03 19:32:30    阅读次数:492
使用Lucene实现多个文档关键词检索demo(二)
上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器,而这个分词器在对中文进行分词时只是机械的按字进行划分,因此使用它lucene就不能很好的对中文索引,也就不能实现对中文关键词的检索了,因此其实上次的实践只能对英文进行。 为了解决这个问题,可以使用IKAnalyzer,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...
分类:Web程序   时间:2014-12-03 19:18:59    阅读次数:299
Lucence.net索引技术 二
一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象:1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...
分类:Web程序   时间:2014-12-03 18:38:58    阅读次数:245
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代...
分类:编程语言   时间:2014-11-26 14:24:16    阅读次数:329
【编译打包】sphinx-for-chinese-2.2.1-r4311.el6.src.rpm
sphinx由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese就是其中一个。本包集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。环境CentOS6X64安装步骤yuminstallyum-utils-y rpm-ivhsphinx-for-chinese-2.2.1-r4311.el6.src...
分类:其他好文   时间:2014-11-22 23:20:00    阅读次数:271
Sphinx 安装
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。由于开发要求Sphinx中文分词,安装环境,就做下笔记[root@localhostmmseg-3.2.14]#yum-yinstallmakegccg++gcc-c++libtoolautoconfautomakeimake [..
分类:其他好文   时间:2014-11-20 15:34:22    阅读次数:138
lucene构建同义词分词器
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。 lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。 以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词): 先自定义...
分类:Web程序   时间:2014-11-19 18:47:09    阅读次数:265
中科院中文分词系统ICTCLAS如何在安卓平台上使用
============问题描述============ 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该如何引用,如果有别的分词系统使用...
分类:移动开发   时间:2014-11-11 16:10:08    阅读次数:206
713条   上一页 1 ... 62 63 64 65 66 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!