【火炉炼AI】机器学习042 NLP文本的主题建模 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit learn 0.19, matplotlib 2.2, NLTK 3.3) 文本的主题建模时用NLP来识别文本文档中隐藏的某种模式的过程,可以发现 ...
分类:
其他好文 时间:
2018-10-18 16:54:59
阅读次数:
184
【火炉炼AI】机器学习036-NLP词形还原 - (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3) 词形还原也是将单词转换为原来的相貌,和上一篇文章中介绍的词干提取不一样, ...
分类:
其他好文 时间:
2018-10-09 19:06:52
阅读次数:
250
小白博主最近想参加一个关于NLP的比赛,于是入坑自然语言处理,想借博客一边学习,一边整理 首先安装库nltk,直接pip install nltk即可 这样,证明库已安装,接下来便可以开始我们的学习了: 搜索文本 1.关键词索引:text1.concordance("words") 从文中找到该wo ...
分类:
编程语言 时间:
2018-09-20 11:08:32
阅读次数:
175
1.词性标注器 parts-of-speech 或 POS tagger nltk自带英文标注器 import nltk text = nltk.word_tokenize("And now for something completely different")#list print(nltk.p ...
分类:
其他好文 时间:
2018-08-24 14:56:34
阅读次数:
236
文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本(3)布朗语料库(4)路透社语料库(5)就职演讲语料库(6)标注文本语料库 词汇列表语料库 (1)词汇列表:nltk.corpus.words.words()词汇语料库是Unix 中的/usr/ ...
分类:
其他好文 时间:
2018-08-16 14:57:09
阅读次数:
1375
双语评估替换分数(简称BLEU)是一种对生成语句进行评估的指标。完美匹配的得分为1.0,而完全不匹配则得分为0.0。这种评分标准是为了评估自动机器翻译系统的预测结果而开发的,具备了以下一些优点: BLEU评分是由Kishore Papineni等人在他们2002年的论文BLEU a Method f ...
分类:
编程语言 时间:
2018-08-03 14:22:58
阅读次数:
202
参考https://blog.csdn.net/zxm1306192988/article/details/78896319 以NLTK为基础配合讲解自然语言处理的原理 http://www.nltk.org/ Python上著名的自然语?处理库 自带语料库,词性分类库 自带分类,分词,等功能 强? ...
分类:
其他好文 时间:
2018-07-26 01:10:30
阅读次数:
246
1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either ...
分类:
其他好文 时间:
2018-07-26 00:23:11
阅读次数:
229
NLP的开发环境搭建主要分为以下几步: 1. Python安装 2. NLTK系统安装 Python3.5下载安装 下载链接:https://www.python.org/downloads/release/python 354/ 安装步骤: 1. 双击下载好的python3.5的安装包,如下图; ...
分类:
编程语言 时间:
2018-07-18 21:41:28
阅读次数:
146
NLTK是python环境中的一个非常流行的NLP库,这篇记录主要记录NLTK的一些常见操作 1.去除网页html标记 我们常常通过爬虫获取网页信息,然后需要去除网页的html标签。为此我们可以这么做: 2.统计词频 这里使用的tokens就是上面图中的tokens 3.去除停用词 停用词就是类似t ...
分类:
Web程序 时间:
2018-07-09 11:18:34
阅读次数:
254