码迷,mamicode.com
首页 >  
搜索关键字:文本分类    ( 340个结果
中文文本分类器训练集
sougou还真地道。中文文本分类器训练集下载 http://www.sogou.com/labs/dl/c.html mini版(tar.gz格式) 136Kmini版(zip格式) 167K精简版(tar.gz格式) 24M精简版(zip格式) 30M完整版 107M(由于文件较大,需要注册后获 ...
分类:其他好文   时间:2016-05-09 20:30:26    阅读次数:359
基于gibbsLDA的文本分类
之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。   LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代...
分类:其他好文   时间:2016-05-07 10:16:11    阅读次数:463
学习OpenCV——KNN算法
转自:http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据 ...
分类:编程语言   时间:2016-04-17 20:34:07    阅读次数:336
人工智能的学习路径
方法一 《用Python 进行自然语言处理》(东南大学出版社) cs181.1伯克利人工智能课程(edX) 斯坦福机器学习课程(Coursera) cs229 斯坦福机器学习讲义 一个文本分类的project 《统计学习方法》(李航,清华大学出版社) Pattern Recognition And ...
分类:其他好文   时间:2016-04-14 22:23:36    阅读次数:172
应用scikit-learn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢! 嗯,说正文。20newsgroups官网上给出了3个数据集, ...
分类:其他好文   时间:2016-04-05 13:58:41    阅读次数:263
文本分类——NaiveBayes
前面文章已经介绍了朴素贝叶斯算法的原理,这里基于NavieBayes算法对newsgroup文本进行分类测试。 文中代码参考:http://blog.csdn.net/jiangliqing1234/article/details/39642757 主要内容如下: 1、newsgroup数据集介绍 数据下载地址:http://download.csdn.net/detail/hjy...
分类:其他好文   时间:2016-03-29 10:58:41    阅读次数:367
(4)文本挖掘(一)——准备文本读写及对Map操作的工具类
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:其他好文   时间:2016-03-29 10:52:32    阅读次数:291
scrapy爬取网易新闻内容
最近在写毕业论文,是做个文本分类相关的题目。想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍。。。 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了 ...
分类:其他好文   时间:2016-03-28 01:59:31    阅读次数:1457
技术积累--常用的文本分类的特征选择算法
常采用特征选择方法。常见的六种特征选择方法: 1)DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性 2)MI(Mutual Information) 互信息法 互信息法用于衡量特征词与文档类别直接的信息量。 如果某个特征词的频率很低,
分类:编程语言   时间:2016-03-22 00:38:56    阅读次数:160
NLP系列(5)_从朴素贝叶斯到N-gram语言模型
我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。...
分类:编程语言   时间:2016-02-09 13:33:58    阅读次数:538
340条   上一页 1 ... 24 25 26 27 28 ... 34 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!