搜索关键字：中文分词，搜索到704个结果！码迷,mamicode.com！

ElasticSearch简介（三）——中文分词

很多时候，我们需要在ElasticSearch中启用中文分词，本文这里简单的介绍一下方法。首先安装中文分词插件。这里使用的是 ik，也可以考虑其他插件（比如 smartcn）。 $ ./bin/elasticsearch-plugin install https://github.com/medcl ...

分类：其他好文时间：2019-08-10 09:54:13 阅读次数：75

Solr4.10.4 加中文分词

ik分词插件下载地址: https://download.csdn.net/download/u014453536/9587721 接上一教程,这个教程如何配置中文ik分词检查schema的管理模式配置成经典模式解压分词工具包,把IKAnalyzer2012FF_u1.jar文件复制到lib目 ...

分类：其他好文时间：2019-08-08 23:27:56 阅读次数：130

NLP（十三）中文分词工具的使用尝试

本文将对三种中文分词工具进行使用尝试，这三种工具分别为哈工大的LTP，结巴分词以及北大的pkuseg。首先我们先准备好环境，即需要安装三个模块：pyltp, jieba, pkuseg以及LTP的分型模型。在用户字典中添加以下5个词语：经少安 ...

分类：其他好文时间：2019-08-03 17:33:11 阅读次数：141

NLP杂点

1.停用词 stop words: 在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词。停用词都是人工输入、或者由一个停用词表导入。 2.jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：支持 3 种分词模式：精确模式，试图将句子最精确地切开，适合文本分析 ...

分类：其他好文时间：2019-07-09 22:34:17 阅读次数：160

中文自然语言处理(NLP)(一)python jieba模块

1.jieba分词的安装直接在cmd窗口当中pip install即可 2.jieba分词的介绍 jieba分词是目前比较好的中文分词组件之一，jieba分词支持三种模式的分词(精确模式、全模式、搜索引擎模式)，并且支持自定义词典(这一点在特定的领域很重要，有时候需要根据领域的需要来添加特定的词典 ...

分类：编程语言时间：2019-07-04 00:50:31 阅读次数：168

HMM（隐马尔科夫）用于中文分词

隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。本文阅读了2篇blog，理解其中的意思，附上自己的代码，共同学习。一、理解隐马尔科夫 1.1 举例理解来源：< http://www.cnblogs.com/skyme/p/46513 ...

分类：其他好文时间：2019-06-28 17:59:55 阅读次数：122

1.3 jieba中文处理+安装

第一次接触这个工具，是在研一上学期的一门课里。由于要做课程设计论文，我当时选择做中文分词处理，自然而然就接触到这个工具了。但是呢，由于研究生研究方向与NLP无关，也就没有深入的研究过。现在由于工作需要，特地重新来学习一番。首先介绍我的电脑环境：win10+anaconda3 (python3. ...

分类：其他好文时间：2019-06-24 00:32:41 阅读次数：95

中文词频统计

中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵' ...

分类：其他好文时间：2019-06-19 19:58:28 阅读次数：129

相似文档查找算法之 simHash及其 java 实现

传统的 hash 算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来 ...

分类：编程语言时间：2019-06-18 12:02:55 阅读次数：179

文本数据处理(自然语言处理基础)

文本数据的特征提取,中文分词及词袋模型 1.使用CountVectorizer对文本进行特征提取 2.使用分词工具对中文文本进行分词 3.使用词袋模型将文本数据转为数组对文本数据进一步优化处理 1.使用n-Gram改善词袋模型在调整了CountVectorizer的ngram_range参数之后 ...

分类：编程语言时间：2019-06-04 13:25:42 阅读次数：98

共704条上一页 1 ... 8 9 10 11 12 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)