sougou还真地道。中文文本分类器训练集下载 http://www.sogou.com/labs/dl/c.html mini版(tar.gz格式) 136Kmini版(zip格式) 167K精简版(tar.gz格式) 24M精简版(zip格式) 30M完整版 107M(由于文件较大,需要注册后获 ...
分类:
其他好文 时间:
2016-05-09 20:30:26
阅读次数:
359
之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。
LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代...
分类:
其他好文 时间:
2016-05-07 10:16:11
阅读次数:
463
转自:http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据 ...
分类:
编程语言 时间:
2016-04-17 20:34:07
阅读次数:
336
方法一 《用Python 进行自然语言处理》(东南大学出版社) cs181.1伯克利人工智能课程(edX) 斯坦福机器学习课程(Coursera) cs229 斯坦福机器学习讲义 一个文本分类的project 《统计学习方法》(李航,清华大学出版社) Pattern Recognition And ...
分类:
其他好文 时间:
2016-04-14 22:23:36
阅读次数:
172
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢! 嗯,说正文。20newsgroups官网上给出了3个数据集, ...
分类:
其他好文 时间:
2016-04-05 13:58:41
阅读次数:
263
前面文章已经介绍了朴素贝叶斯算法的原理,这里基于NavieBayes算法对newsgroup文本进行分类测试。
文中代码参考:http://blog.csdn.net/jiangliqing1234/article/details/39642757
主要内容如下:
1、newsgroup数据集介绍
数据下载地址:http://download.csdn.net/detail/hjy...
分类:
其他好文 时间:
2016-03-29 10:58:41
阅读次数:
367
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示:
我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。
不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:
其他好文 时间:
2016-03-29 10:52:32
阅读次数:
291
最近在写毕业论文,是做个文本分类相关的题目。想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍。。。 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了 ...
分类:
其他好文 时间:
2016-03-28 01:59:31
阅读次数:
1457
常采用特征选择方法。常见的六种特征选择方法: 1)DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 2)MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。 如果某个特征词的频率很低,
分类:
编程语言 时间:
2016-03-22 00:38:56
阅读次数:
160
我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。...
分类:
编程语言 时间:
2016-02-09 13:33:58
阅读次数:
538