这9577组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。 一一?逐一
一下子?一会儿
一丝不动?纹丝不动
一举成名?一鸣惊人
一乾二净?六根清净
一人得道?鸡犬升天
...
分类:
其他好文 时间:
2015-04-30 22:02:23
阅读次数:
151
好多年没升级过的Lucene.Net最近居然升级了,到了3.0.3后接口发生了很大变化,原来好多分词库都不能用了,所以上次我把MMSeg给修改了一下支持了Lucene.Net 3.0.3(参考《基于MMSeg算法的中文分词类库》)。然后我知道了.Net下还有一个盘古分词(http://panguse...
分类:
Web程序 时间:
2015-04-30 06:23:53
阅读次数:
156
jieba中文分词的使用
import jieba
sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service']
# jieba.suggest_freq('雾霾', True)
# jieba.suggest_freq('百搭', True)
words = [list(jieba.cut(doc)) for...
分类:
编程语言 时间:
2015-04-27 16:58:00
阅读次数:
301
elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题"、"内容"、"作者"、"类型"、"发布时间"这五个字段;我们要提供"标题和内容的检索"、"排序"、"高亮"、"统计"、"过滤"等一些基本功能。ES提供了smartcn的中文分词插件,测试的话建议...
分类:
移动开发 时间:
2015-04-14 09:52:46
阅读次数:
135
安装环境的准备:
(这里直接给相关软件的版本号了)
centos 6.4
apache-tomcat-7.0.57
solr-4.10.4
jdk1.7.0_75
jdk和tomcat这里就不给安装方式了,要是不会直接百度各种有。
具体步骤:
1.下载solr-4.10.4,然后解压开我这里解压到 /usr/local/zi...
分类:
其他好文 时间:
2015-04-09 19:55:04
阅读次数:
221
----------------------------------------------------------
lucene的分词_中文分词介绍
----------------------------------------------------------
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库
1.导入包(有两个包:1.带dic的,2...
分类:
Web程序 时间:
2015-04-08 10:59:40
阅读次数:
191
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、?将解压后的 Java中文分词...
分类:
其他好文 时间:
2015-04-07 21:54:58
阅读次数:
157
using System;
using System.Windows.Forms;
using System.IO;
using System.Text.RegularExpressions;
using System.Collections;
using System.Collections.Generic;
using System.ComponentModel;
namespace HMM...
Sphinx中文入门指南wuhuiming,转载请注明来源和作者 最后修改:2010年1月23日1、简介1.1.Sphinx是什么1.2.Sphinx的特性1.3.Sphinx中文分词2、安装配置实例2.1 在GNU/Linux/unix系统上安装2.1.1 sphinx安装2.1.2.sfc安装(...
分类:
其他好文 时间:
2015-04-07 11:15:20
阅读次数:
292
本文记录Lucene+Paoding的使用方法图解:一、下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar L...
分类:
Web程序 时间:
2015-04-04 12:01:19
阅读次数:
147