中文分词应用非常广泛,网上也有非常多开源项目。我在这里主要讲一下中文分词里面算法的简单实现,废话不多说了,如今先上代码package com;import java.util.ArrayList;import java.util.List;public class Segmentation1 { p...
分类:
其他好文 时间:
2016-01-03 12:49:01
阅读次数:
185
什么是SphinxSphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速、低空间占用、高结果相关度的全文搜索功能。Sphinx能够很easy的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持。也支持从标准输入...
分类:
数据库 时间:
2016-01-01 16:59:14
阅读次数:
304
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。当然,我们在进行数据挖掘、精准推荐和自然语言处理工作中也会经常用到中文分词技术。一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉...
分类:
其他好文 时间:
2015-12-24 02:07:07
阅读次数:
327
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/在Hadoop上运行基于RMM中文分词算法的MapReduce程序23条回复我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者...
分类:
编程语言 时间:
2015-12-19 23:04:58
阅读次数:
426
这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:
编程语言 时间:
2015-12-18 06:49:30
阅读次数:
8948
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:13:24
阅读次数:
1565
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:09:18
阅读次数:
322
由于solr5.3.1本身不支持中文分词,而msseg4j的分词效果不明显。因而采用IK进行分词,然而参考http://www.superwu.cn/2015/05/08/2134/在google上下载的jar包放到solr目录下直接报如下异常。严重: Servlet.service() for.....
分类:
其他好文 时间:
2015-12-15 20:55:46
阅读次数:
2494
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考http://www.cnblogs.com/luxh/p/5016894.html 配置和solr和tomcat的1、从http://iamyida.iteye.com/...
分类:
其他好文 时间:
2015-12-03 21:14:38
阅读次数:
286