对于Solr应该不需要过多介绍了,强大的功能也是都体验过了,但是solr一个较大的问题就是分词问题,特别是中英文的混合分词,处理起来非常棘手。 虽然solr自带了支持中文分词的cjk,但是其效果实在不好,所以solr要解决的一个问题就是中文分词问题,这里推荐的方案是利用ik进行分词。 ik是较早作中 ...
分类:
其他好文 时间:
2016-04-27 18:50:09
阅读次数:
151
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mm ...
分类:
其他好文 时间:
2016-04-25 22:32:36
阅读次数:
267
1.简介 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词 ...
分类:
其他好文 时间:
2016-04-18 20:50:03
阅读次数:
241
ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码 ...
分类:
其他好文 时间:
2016-04-18 19:00:04
阅读次数:
309
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 ?Mahout主页:http://mahout.apache.o ...
分类:
编程语言 时间:
2016-04-12 07:04:40
阅读次数:
419
Discuz!在线中文分词服务是基于API返回分词结果的。在项目中,我们只需要一个函数即可方便地进行分词、关键词提取。以下是根据Discuz!在线分词服务API写的函数,测试可正常运行: 代码代码如下: 分词示例,通过url访问: 代码代码如下: http://keyword.discuz.com/ ...
分类:
Web程序 时间:
2016-04-11 11:41:26
阅读次数:
1280
一、以下安装配置均经过实践检验,下文所有查询语句均为实际生成过程中的数据字段
1、特别说明安装次shpinx需要mysql环境 ,请先安装mysql5.6及以上版本
安装开始:
cd /data/softwore
wget http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz(只安装中文分词mmseg3)...
分类:
其他好文 时间:
2016-04-05 17:57:43
阅读次数:
158
一、分词功能介绍 分词模块对于搜索的重要性不言而喻。例如,没有分词时,搜索“和服”会出现“产品和服务”,搜索“海尔”会出现“海尔德”,搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。 猎兔全球首家推出支持Lucene的准确可用的中文分词模块。 二、执行方法 可以在命 ...
分类:
Web程序 时间:
2016-04-04 16:13:49
阅读次数:
255
出处:http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近 ...
分类:
其他好文 时间:
2016-03-29 12:50:17
阅读次数:
415
http://www.williamlong.info/archives/333.html
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,...
分类:
其他好文 时间:
2016-03-26 07:12:01
阅读次数:
138