BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:
其他好文 时间:
2016-06-23 12:38:16
阅读次数:
160
Preface 自然语言经过一代又一代的处理,很难依靠明确的规则来表述。简单的NLP:通过比较词频来比较不同的写作风格;复杂的nlp:理解人类语言,并给出相应。 NLP应用:手写字符识别,搜索引擎,机器翻译等; NLP在学术界,又叫做计算语言学; 本书组织 Ch1-3:python处理nlp的简单介 ...
分类:
编程语言 时间:
2016-06-19 12:51:39
阅读次数:
124
以此记录阅读和学习《利用Python进行数据分析》这本书中的觉得重要的点! 第一章:准备工作 1、一组新闻文章可以被处理为一张词频表,这张词频表可以用于情感分析。 2、大多数软件是由两部分代码组成:少量需要占用大部分执行时间的代码,以及大量不经常执行的“粘合剂代码”。 cython已经成为pytho ...
分类:
编程语言 时间:
2016-06-17 23:59:36
阅读次数:
943
1、读入文本内容 2、将手动分完词的文本进行词频统计 3、计算tf值 4、计算IDF 5、计算tfidf 6、将每个文本中tfidf值排名前100的词和相应的tfidf值输出 ...
分类:
编程语言 时间:
2016-06-05 00:57:01
阅读次数:
1107
TF-IDF Algorithm From http://www.ruanyifeng.com/blog/2013/03/tf-idf.html Chapter 1, 知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的 ...
分类:
其他好文 时间:
2016-06-02 11:24:14
阅读次数:
194
Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。 优点 利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。 比如说我们想储存3个单词,sk ...
分类:
其他好文 时间:
2016-05-25 00:15:34
阅读次数:
329
我准备学习用hadoop来实现下面的过程: 词频统计 存储海量的视频数据 倒排索引 数据去重 数据排序 聚类分析 ============= 先写这么多 ...
分类:
其他好文 时间:
2016-05-18 23:38:34
阅读次数:
143
规则 测试数据 Hello World! How do you do? One Oops! AAaooo!!!! abe 目标结果 l o e o a a 解题思路 先删除非字母的字符并将所有字母转化成小写,再统计每个字母的词频,然后根据最大词频找到对应的字母,结果可能有多个,没关系,排下序就好,最 ...
分类:
其他好文 时间:
2016-05-11 16:31:09
阅读次数:
192
利用wc命令统计文件行,单词数,字符数,利用sort排序和去重,再结合uniq可以进行词频统计。 用cat命令查看文件格式与内容。先对文件进行排序,再用uniq -c命令统计不同单词及各个单词出现的次数,得到的结果就是次数后面紧挨的单词,然后使用sort -nr对次数进行排序,并逆序显示,最后hea ...
分类:
系统相关 时间:
2016-05-10 23:32:06
阅读次数:
307