http://blog.csdn.net/zang141588761/article/details/48780733 概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数 ...
分类:
其他好文 时间:
2017-02-09 20:20:04
阅读次数:
321
去年3月份,写了一个平衡的三叉树算法包,还写了一个基于逆向最大匹配算法的中文分词算法包。现在,将平衡的三叉树算法包上传。首先看一下包结构: 1.chinese.utility.cfg代码: package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词 ...
分类:
其他好文 时间:
2017-02-04 22:09:42
阅读次数:
328
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji ...
分类:
编程语言 时间:
2017-01-19 04:10:29
阅读次数:
349
原文 http://www.gowhich.com/blog/147 主题 中文分词 Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试 ...
分类:
编程语言 时间:
2017-01-12 12:58:34
阅读次数:
248
原文链接:https://my.oschina.net/jhao104/blog/644909 摘要: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apa ...
分类:
其他好文 时间:
2017-01-09 12:29:54
阅读次数:
281
一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:
数据库 时间:
2017-01-03 22:37:21
阅读次数:
508
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:
系统相关 时间:
2016-12-16 16:52:39
阅读次数:
249
Sphinx + Coreseek 实现中文分词搜索
Sphinx Coreseek 实现中文分词搜索
全文检索
1 全文检索 vs 数据库
2 中文检索 vs 汉化检索
3 自建全文搜索与使...
分类:
其他好文 时间:
2016-12-15 12:15:09
阅读次数:
490
http://keenwon.com/1404.html Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english(英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是 ...
分类:
其他好文 时间:
2016-12-08 03:09:40
阅读次数:
326
抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 ...
分类:
编程语言 时间:
2016-12-04 07:51:59
阅读次数:
817