码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
jieba分词
1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:其他好文   时间:2020-06-25 23:03:03    阅读次数:59
中文分词(概况)
中文词法分析 中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示 中文词法分析难点 重叠词,离合词,词缀 中文词语的切分歧义 中文未定义词 词性标注 解决方法: 基于词典的机械切分算法 基于规则的切分算法 基于统计的切分算法 对于未登录词的处理。未登 ...
分类:其他好文   时间:2020-06-25 19:54:40    阅读次数:51
Elasticsearch系列---使用中文分词器
本篇对中文分词器IK作了简单的讲解,市面上流行的中文分词器很多,如果我们遇到有中文分词的需求,货比三家是永远不过时的道理,调研可能要花费一些时间,但能挑到适合自己项目的分词器,还是划算的
分类:其他好文   时间:2020-06-11 12:05:12    阅读次数:61
正则表达式:去除Unicode
背景:最近在做中文分词的时候,发现分词后的数据中出现很多特殊字符,即使进行了去停用词操作,但是特殊字符太多,也不可能都加到停用词里,所以就准备用正则去掉,正则很简单,直接上代码: /** * 正则去掉unicode等特殊字符 * */ private static String regularFil ...
分类:其他好文   时间:2020-06-04 16:52:49    阅读次数:84
jieba库的使用
jieba是python的第三方库,使用jieba库需要先安装。jieba是一个中文分词库,可以根据所给的中文句子,提取出可能的词组 jieba库分词依靠词库。利用中文词库,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。除了分词,用户还可以添加自定义的词组 jieba提供了三种分词模式,精 ...
分类:其他好文   时间:2020-05-31 18:11:27    阅读次数:429
python词云和数据可视化
import jieba import matplotlib.pyplot as plt from wordcloud import WordCloud #读取指定文件 f = open(r'.\data.txt', encoding='utf-8').read() #对数据进行jieba中文分词, ...
分类:编程语言   时间:2020-05-26 15:35:46    阅读次数:94
Windows使用Ik分词器插件
IK分词器插件 什么是Ik分词器? 分词:即把一段中文或者别的划分成一个个关键字,我们在搜索的的时候回把自己的信息进行分词,回把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词。 Ik分词器两种分词模式: ik_max_word: 会将文本做最细粒度的拆分 ...
分类:Windows程序   时间:2020-05-26 01:20:54    阅读次数:88
LexicalAnalysis
1.概述 Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,在单个模型中完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果。主要通过标注来完成这些任务。 2.预测和损失函数 标注问题一般用crf来作为损 ...
分类:其他好文   时间:2020-05-21 00:32:49    阅读次数:74
es中中文分词器的使用
一直到今天,才打算写这篇文章。我使用的es服务器,是使用docker进行安装的,不像传统的那种安装,分词器要添加到docker里,一直有些头疼。 es整体都整理好了,进行补充没有实现的一些es知识点。 1.参考地址 github:https://github.com/medcl/elasticsea ...
分类:其他好文   时间:2020-05-04 00:32:36    阅读次数:96
自然语言处理之HMM模型分词
汉语中句子以字为单位的,但语义理解仍是以词为单位,所以也就存在中文分词问题。主要的技术可以分为:规则分词、统计分词以及混合分词(规则+统计)。 基于规则的分词是一种机械分词,主要依赖于维护词典,在切分时将与剧中的字符串与词典中的词进行匹配。主要包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。 ...
分类:编程语言   时间:2020-04-26 22:32:41    阅读次数:103
704条   上一页 1 2 3 4 5 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!