主要问题 一定要保证ElasticSearch和ElasticSearch插件的版本一致 我是用的是ElasticSearch是5.6.11版本 对应elasticsearch-analysis-ik-5.6.11 安装插件 在线安装 进入容器 docker exec -it elasticsear ...
分类:
其他好文 时间:
2019-12-16 17:34:31
阅读次数:
88
课程介绍:以人工智能为方向,从自然语言理解、计算机视觉、数据分析等角度,介绍大量有趣的Python案例和应用,探索实现原理、完整动手实践,极大提升人工智能相关的理论基础和技术能力。内容包括图片分类、人脸识别、物体检测等计算机视觉应用,中文分词、词向量、古诗生成等自然语言处理项目,DCGAN、CGAN ...
分类:
其他好文 时间:
2019-12-14 23:11:15
阅读次数:
271
solr 基本介绍Apache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,... ...
分类:
其他好文 时间:
2019-12-14 10:05:08
阅读次数:
149
2019-12-12中文文本分词和词云图具体功能介绍与学习代码: import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数,用于精准模式,即将字符串分割为等量的中文词组,返回结果是列表类型print(jieba.lcut( ...
分类:
编程语言 时间:
2019-12-13 00:13:05
阅读次数:
134
前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P ...
分类:
其他好文 时间:
2019-12-02 16:51:41
阅读次数:
77
1.简述互联网信息抓取的方式。 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。 用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类? (1)基于字符串匹配的分词方法,它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规 ...
分类:
其他好文 时间:
2019-12-01 16:51:40
阅读次数:
265
一丶Solr简介 Apache Solr是一个流行的开源搜索服务器,它通过使用类似REST的HTTP API,这就确保你能从几乎任何编程语言来使用solr。Solr是一个开源搜索平台,用于构建搜索应用程序。 它建立在Lucene(全文搜索引擎)之上。 Solr是企业级的,快速的和高度可扩展的。 使用 ...
分类:
其他好文 时间:
2019-11-29 19:49:11
阅读次数:
95
jieba是优秀的中文分词第三方库 jieba有3种模式 1.精确模式,返回一个列表类型的分词结果 >>>jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] 2.全模式,返回一个列表类型的分词结果,存在冗余 >>>jieba.lcu ...
分类:
其他好文 时间:
2019-11-29 15:55:19
阅读次数:
166
此文摘自https://www.cnblogs.com/hengzhi/p/9290667.html ES默认对英文文本的分词器支持较好,但和lucene一样,如果需要对中文进行全文检索,那么需要使用中文分词器,同lucene一样,在使用中文全文检索前,需要集成IK分词器。 可以从GitHub上获取 ...
分类:
其他好文 时间:
2019-11-21 16:45:12
阅读次数:
69
IK分词器的使用 首先我们通过 发送 请求查询分词效果 得到如下结果,可以发现es的默认分词器无法识别中文中 、`银行`这样的词汇,而是简单的将每个字拆完分为一个词,这显然不符合我们的使用要求。 首先我们访问 https://github.com/medcl/elasticsearch analys ...
分类:
其他好文 时间:
2019-11-07 11:24:57
阅读次数:
77