将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 ...
分类:
编程语言 时间:
2018-10-01 22:12:43
阅读次数:
239
solr的域要先定义后使用, 哪些数据需要导入? 分词器 1 分词器jar包复制 , cp IK\ Analyzer\ 2012FF_hf1/IKAnalyzer2012FF_u1.jar 中文分词器配置文件和字典 cp ext_stopword.dic IKAnalyzer.cfg.xml myd ...
分类:
其他好文 时间:
2018-09-30 14:42:43
阅读次数:
169
一、IK简介 ElasticSearch(以下简称ES)默认的分词器是标准分词器Standard,如果直接使用在处理中文内容的搜索时,中文词语被分成了一个一个的汉字,因此引入中文分词器IK就能解决这个问题,同时用户可以配置自己的扩展字典、远程扩展字典等。 二、IK安装 1、首先前往GitHub下载安 ...
分类:
其他好文 时间:
2018-09-28 12:50:25
阅读次数:
181
修改配置文件:vim/etc/my.cnf[mysqld]ngram_token_size=2创建表:createtabletest(idint(11)notnullprimarykeyauto_increment,namevarchar(100)notnullcomment‘工商名‘,brandvarchar(100)defaultnullcomment‘品牌名‘,envarchar(100)d
分类:
数据库 时间:
2018-09-26 01:11:04
阅读次数:
771
画词云首先需要安装wordcloud(生成词云)和jieba(中文分词)。 先来说说wordcloud的安装吧,真是一波三折。首先用pip install wordcloud出现错误,说需要安装Visual C++ 14.0。折腾半天安装好Visual C++后,还是不行,按网上指点,下载第三方包安 ...
分类:
其他好文 时间:
2018-09-21 13:35:41
阅读次数:
354
1 package com.gxy.ESChap01; 2 3 import java.net.InetAddress; 4 5 import org.elasticsearch.action.search.SearchRequestBuilder; 6 import org.elasticsear... ...
分类:
编程语言 时间:
2018-09-13 16:31:19
阅读次数:
836
? 全文搜索 ? solr安装 ? solr中文分词 ? solr数据库导入 ? solr数据查询 ? solrj接口调用 0 1:安装solr:官网下载解压;http://lucene.apache.org/solr/ 启动方法:bin目录下打开cmd; solr -e cloud -noprom ...
分类:
其他好文 时间:
2018-09-12 01:20:06
阅读次数:
205
原理 中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。 中文分词与英文分词有很大的不同,对英文而言,一个单词 ...
分类:
其他好文 时间:
2018-09-11 19:43:25
阅读次数:
174
参考博客:linux下ElasticSearch.6.2.2集群安装与head、Kibana、X-Pack..插件的配置安装 参考博客:ELK5.5.1 插件安装实践纪要(head/bigdesk/kopf/cerebo/中文分词插件) 参考博客:ELK构建MySQL慢日志收集平台详解 参考博客:针 ...
分类:
其他好文 时间:
2018-09-08 11:45:39
阅读次数:
220
因最近写的一段代码,需要用到中文分词,在网上找了一下,发现了scws这个不错的插件,故根据文档安装使用,下面记录下安装的全过程 系统:centos 安装scws wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 tar xvjf s ...
分类:
Web程序 时间:
2018-09-07 21:33:58
阅读次数:
272