搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

Docker 安装ElasticSearch的中文分词器IK

主要问题一定要保证ElasticSearch和ElasticSearch插件的版本一致我是用的是ElasticSearch是5.6.11版本对应elasticsearch-analysis-ik-5.6.11 安装插件在线安装进入容器 docker exec -it elasticsear ...

分类：其他好文时间：2019-12-16 17:34:31 阅读次数：88

深度有趣 - 人工智能实战合集

课程介绍:以人工智能为方向，从自然语言理解、计算机视觉、数据分析等角度，介绍大量有趣的Python案例和应用，探索实现原理、完整动手实践，极大提升人工智能相关的理论基础和技术能力。内容包括图片分类、人脸识别、物体检测等计算机视觉应用，中文分词、词向量、古诗生成等自然语言处理项目，DCGAN、CGAN ...

分类：其他好文时间：2019-12-14 23:11:15 阅读次数：271

Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器

solr 基本介绍Apache Solr (读音: SOLer) 是一个开源的搜索服务器。Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，... ...

分类：其他好文时间：2019-12-14 10:05:08 阅读次数：149

python词云图与中文分词

2019-12-12中文文本分词和词云图具体功能介绍与学习代码： import jiebaa="由于中文文本的单词不是通过空格或者标点符号来进行分割"#jieba.lcut()s是最常用的中文分词函数，用于精准模式，即将字符串分割为等量的中文词组，返回结果是列表类型print(jieba.lcut( ...

分类：编程语言时间：2019-12-13 00:13:05 阅读次数：134

2 中文分词工具 jieba 和 HanLP

前言中文分词有很多种，常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装（1）P ...

分类：其他好文时间：2019-12-02 16:51:41 阅读次数：77

大数据基础--互联网大数据处理（刘鹏《大数据》课后习题答案）

1.简述互联网信息抓取的方式。互联网信息自动抓取，最常见且有效的方式是使用网络爬虫。 2.简述舆情系统的组成架构。用户终端->采集层->分析层->呈现层->用户 3.中文分词算法可以分为哪几类？（1）基于字符串匹配的分词方法，它是待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规 ...

分类：其他好文时间：2019-12-01 16:51:40 阅读次数：265

Solr的安装以及中文分析器的配置

一丶Solr简介 Apache Solr是一个流行的开源搜索服务器，它通过使用类似REST的HTTP API，这就确保你能从几乎任何编程语言来使用solr。Solr是一个开源搜索平台，用于构建搜索应用程序。它建立在Lucene(全文搜索引擎)之上。 Solr是企业级的，快速的和高度可扩展的。使用 ...

分类：其他好文时间：2019-11-29 19:49:11 阅读次数：95

jieba库的使用

jieba是优秀的中文分词第三方库 jieba有3种模式 1.精确模式，返回一个列表类型的分词结果 >>>jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] 2.全模式，返回一个列表类型的分词结果，存在冗余 >>>jieba.lcu ...

分类：其他好文时间：2019-11-29 15:55:19 阅读次数：166

elasticsearch插件之ik分词器

此文摘自https://www.cnblogs.com/hengzhi/p/9290667.html ES默认对英文文本的分词器支持较好，但和lucene一样，如果需要对中文进行全文检索，那么需要使用中文分词器，同lucene一样，在使用中文全文检索前，需要集成IK分词器。可以从GitHub上获取 ...

分类：其他好文时间：2019-11-21 16:45:12 阅读次数：69

ElasticSearch中文分词器-IK分词器的使用

IK分词器的使用首先我们通过发送请求查询分词效果得到如下结果，可以发现es的默认分词器无法识别中文中、`银行`这样的词汇，而是简单的将每个字拆完分为一个词，这显然不符合我们的使用要求。首先我们访问 https://github.com/medcl/elasticsearch analys ...

分类：其他好文时间：2019-11-07 11:24:57 阅读次数：77

共704条上一页 1 ... 5 6 7 8 9 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)