1.requests 获取 建立pd矩阵处理数据 pd.DataFrame(),pd.read_csv() 2.Webapi获取,如豆瓣API 3.NLTK语料库获取 5.4 数据选择 通过标签或者位置 djidf.code 或者djidf[‘code’] loc 通过标签来选择行或者列 也可以通过... ...
分类:
其他好文 时间:
2018-05-20 21:26:00
阅读次数:
233
环境描述 Python环境:Python 3.6.1 系统版本:windows7 64bit 文件描述 一共有三个文件,分别是:file_01.txt、file_02.txt、file_03.txt file_01.txt文件内容: 我吃过糖之后,发现我的牙齿真的很疼 file_02.txt文件内容... ...
分类:
其他好文 时间:
2018-05-06 00:19:47
阅读次数:
412
简介 查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原理,Java实现,R语言实现,甚至都有一个C++的实现。 正好我写的一些文章,我没能很好的分类,我想 ...
分类:
编程语言 时间:
2018-04-18 23:32:17
阅读次数:
323
TF-IDF算法 TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇 ...
分类:
其他好文 时间:
2018-04-08 22:44:18
阅读次数:
390
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:
其他好文 时间:
2018-04-06 19:33:58
阅读次数:
150
为一个信息流产品作数据抓取,其中数据清洗时必不可少的。其中有一个步骤就是清洗掉其中与内容无关的广告。文本通过语料库积累和NLP相关技术进行过滤,有些文字广告不过滤对产品影响也不大。有点儿麻烦的是其中的有些图片广告如果不过滤掉,在感官上会对产品造成很大的印象,为了解决这个问题,用了一些杂七杂八的方法, ...
分类:
其他好文 时间:
2018-04-06 17:35:02
阅读次数:
159
一、前述 LDA是一种 非监督机器学习 技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考 ...
分类:
其他好文 时间:
2018-04-04 12:42:25
阅读次数:
413
首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文 ...
在前面我们通过from nltk.book import *的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1 古腾堡语料库 古腾堡是一个大型的电子图书在线网站,网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书,因此也是一个大型的预料库。NLTK ...
分类:
编程语言 时间:
2018-04-01 16:07:20
阅读次数:
225
util里提供了create_voc_step0用于批量生成features并保存,create_voc_step1读入features再生成聚类中心,比较适合大量语料库聚类中心的生成。 提取一张图的特征如下: 第一行是文件头,分别用32bit表示特征来自几张图(1)、特征描述子长度(128bit, ...
分类:
数据库 时间:
2018-03-13 14:03:58
阅读次数:
2014