>>> from nltk.tokenize.stanford_segmenter import StanfordSegmenter >>> segmenter = StanfordSegmenter(path_to_jar='stanford-segmenter-3.8.0.jar', path_... ...
分类:
其他好文 时间:
2017-07-30 13:58:09
阅读次数:
315
上一篇文章中介绍了正向最大匹配。能够看到有时候效果不是非常好。这里在介绍一种逆向最大匹配的算法。词典和匹配的字符串都和上一篇文章同样 仅仅是本算法是从后到前搜索字符串。然后找到最长的匹配结果输出。上代码 package com; import java.util.ArrayList; import ...
分类:
其他好文 时间:
2017-07-27 12:48:36
阅读次数:
174
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法, 当我们创建一个index(库db_news)时,easticsearch默认提供的分 ...
分类:
其他好文 时间:
2017-07-25 13:39:48
阅读次数:
170
今天介绍CRFs在中文分词中的应用 工具:CRF++,可以去 https://taku910.github.io/crfpp/ 下载,训练数据和测试数据可以考虑使用bakeoff2005,这是链接 http://sighan.cs.uchicago.edu/bakeoff2005/ 首先需要了解一些 ...
分类:
其他好文 时间:
2017-07-23 22:39:40
阅读次数:
286
本节内容: Elasticsearch介绍 Elasticsearch集群安装部署 Elasticsearch优化 安装插件:中文分词器ik 一、Elasticsearch介绍 Elasticsearch是一个分布式搜索服务,提供Restful API,底层基于Lucene,采用多shard的方式保 ...
分类:
其他好文 时间:
2017-07-23 16:48:52
阅读次数:
176
1.下载安装elasticsearch和kibana 2.安装中文分词插件 3.启动服务器 4.在kibana的Dev Tools中测试,地址为http://localhost:5601 大体上可以将Elasticsearch理解为一个RDBMS(关系型数据库,比如MySQL),那么index 就相 ...
分类:
Web程序 时间:
2017-07-13 12:37:16
阅读次数:
322
简介: 使用搜索引擎,我们常规的数据查询会快很多,还可以对关键词进行中文分词查询,返回一些高亮,就和我们每天使用的搜索服务一样。我们这里要使用Solr来进行我们的搜索服务搭建。如果你使用php,很可能你会在网上查到Sphinx这个搜索引擎,说是对php支持的很好,不要迟疑,远离它,这个尼玛官网都没了 ...
分类:
Web程序 时间:
2017-07-12 19:57:58
阅读次数:
562
网址:http://thulac.thunlp.org/ THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前 ...
分类:
其他好文 时间:
2017-07-10 14:23:38
阅读次数:
408
http://blog.csdn.net/a_step_further/article/details/51176959 LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取, ...
分类:
编程语言 时间:
2017-07-07 13:13:39
阅读次数:
642
号称“做最好的Python中文分词组件”的jieba分词是python语言的一个中文分词包。它的特点有: 支持三种分词模式: ? 精确模式,试图将句子最精确地切开,适合文本分析; ? 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; ? 搜索引擎模式,在精确模式的基础 ...
分类:
其他好文 时间:
2017-07-05 22:04:56
阅读次数:
2998