T4:使用state_union预料库,访问《国情咨文报告》文本。统计women,men,people随时间推移变化情况 T13。没有下位词的名词在同义词集中所占的百分比是多少?你可以使用wn.all_synsets('n')来得到所有名字的同义词 结果:0.7967119283931072 T15 ...
分类:
编程语言 时间:
2016-09-27 23:10:56
阅读次数:
388
前面我们学习过使用FreqDist(textlist)函数来计算textlist链表中每个项目出现的次数,现在我们推广这一想法。 当语料文本分为几类(文体、主题、作者)时,可以计算每个类别独立的频率分布,这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、 ...
分类:
编程语言 时间:
2016-09-27 13:18:40
阅读次数:
492
Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章 信息提取 2711 1.4. 第7章 自动摘要 3041 1.5. 第8章 文本分类 3191 1.6. 第9章 文本倾向性分析 3641 1.7. 第10 ...
分类:
编程语言 时间:
2016-09-24 00:51:47
阅读次数:
244
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 ...
分类:
编程语言 时间:
2016-09-23 16:45:09
阅读次数:
236
1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 ...
分类:
编程语言 时间:
2016-09-23 14:34:43
阅读次数:
576
摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。(本文原创,转载注明出处:自然语言处理学习中需要了解的几个问... ...
分类:
编程语言 时间:
2016-09-23 01:25:37
阅读次数:
6646
转载:原文链接 深度学习的黄金搭档:GPU正重塑计算方式 OFweek电子工程网讯 随着神经网络和深度学习研究的不断深入——尤其是语音识别和自然语言处理、图像与模式识别、文本和数据分析,以及其他复杂领域——研究者们不断在寻找新的更好的方法来延伸和扩展计算能力。 几十年来,这一领域的黄金标准一直是高性 ...
分类:
其他好文 时间:
2016-09-17 17:59:23
阅读次数:
168
1 什么是pyltp
语言技术平台(LTP) 是由 哈工大社会计算与信息检索研究中心 11
年的持续研发而形成的一个自然语言处理工具库,其提供包括中文分词、词性标注、命名实体识别、依存句法分...
分类:
编程语言 时间:
2016-09-11 00:13:40
阅读次数:
2435
我们的分词技术采用的是“语言云”的平台,语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中 ...
分类:
其他好文 时间:
2016-09-07 20:39:08
阅读次数:
185
了解了“语言云”的相关知识,“语言云” 以哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”为基础,为用户提供高效精准的中文自然语言处理云服务。 使用 “语言云” 非常简单,只需要根据 API 参数构造 HTTP 请求即可在线获得分析结果,而无需下载 SDK 、无需购买高性能的机器,同 ...
分类:
其他好文 时间:
2016-09-06 07:56:25
阅读次数:
222