码迷,mamicode.com
首页 >  
搜索关键字:r语言 中文分词 rwordseg    ( 713个结果
Solr的中英文分词实现
对于Solr应该不需要过多介绍了,强大的功能也是都体验过了,但是solr一个较大的问题就是分词问题,特别是中英文的混合分词,处理起来非常棘手。 虽然solr自带了支持中文分词的cjk,但是其效果实在不好,所以solr要解决的一个问题就是中文分词问题,这里推荐的方案是利用ik进行分词。 ik是较早作中 ...
分类:其他好文   时间:2016-04-27 18:50:09    阅读次数:151
Solr系列二:Solr与mmseg4j的整合
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mm ...
分类:其他好文   时间:2016-04-25 22:32:36    阅读次数:267
中科院分词ICTCLAS5.0_JNI 使用方法
1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 ...
分类:其他好文   时间:2016-04-18 20:50:03    阅读次数:241
ICTCLAS中文分词库的使用
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:其他好文   时间:2016-04-18 19:00:04    阅读次数:309
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 ?Mahout主页:http://mahout.apache.o ...
分类:编程语言   时间:2016-04-12 07:04:40    阅读次数:419
Discuz!在线中文分词服务
Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: 代码代码如下: 分词示例,通过url访问: 代码代码如下: http://keyword.discuz.com/ ...
分类:Web程序   时间:2016-04-11 11:41:26    阅读次数:1280
全文搜索引擎coreseek安装配置(sphinx)
一、以下安装配置均经过实践检验,下文所有查询语句均为实际生成过程中的数据字段 1、特别说明安装次shpinx需要mysql环境 ,请先安装mysql5.6及以上版本 安装开始:  cd /data/softwore  wget  http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz(只安装中文分词mmseg3)...
分类:其他好文   时间:2016-04-05 17:57:43    阅读次数:158
向Lucene增加中文分词功能
一、分词功能介绍 分词模块对于搜索的重要性不言而喻。例如,没有分词时,搜索“和服”会出现“产品和服务”,搜索“海尔”会出现“海尔德”,搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。 猎兔全球首家推出支持Lucene的准确可用的中文分词模块。 二、执行方法 可以在命 ...
分类:Web程序   时间:2016-04-04 16:13:49    阅读次数:255
漫话中文分词
出处:http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近 ...
分类:其他好文   时间:2016-03-29 12:50:17    阅读次数:415
搜索引擎技术揭密:中文分词技术
http://www.williamlong.info/archives/333.html 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。   搜索引擎技术的研究,...
分类:其他好文   时间:2016-03-26 07:12:01    阅读次数:138
713条   上一页 1 ... 45 46 47 48 49 ... 72 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!