搜索关键字：文本分类，搜索到340个结果！码迷,mamicode.com！

中文文本分类器训练集

sougou还真地道。中文文本分类器训练集下载 http://www.sogou.com/labs/dl/c.html mini版（tar.gz格式） 136Kmini版（zip格式） 167K精简版（tar.gz格式） 24M精简版（zip格式） 30M完整版 107M（由于文件较大，需要注册后获 ...

分类：其他好文时间：2016-05-09 20:30:26 阅读次数：359

基于gibbsLDA的文本分类

之前几篇文章讲到了文档主题模型，但是毕竟我的首要任务还是做分类任务，而涉及主题模型的原因主要是用于text representation，因为考虑到Topic Model能够明显将文档向量降低维度，当然TopicModel可以做比这更多的事情，但是对于分类任务，我觉得这一点就差不多了。 LDA之前已经说到过，是一个比较完善的文档主题模型，这次试用的是JGibbsLDA开源的LDA代...

分类：其他好文时间：2016-05-07 10:16:11 阅读次数：463

学习OpenCV——KNN算法

转自：http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法，该方法的思路非常简单直观：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据 ...

分类：编程语言时间：2016-04-17 20:34:07 阅读次数：336

人工智能的学习路径

方法一《用Python 进行自然语言处理》（东南大学出版社） cs181.1伯克利人工智能课程（edX）斯坦福机器学习课程（Coursera） cs229 斯坦福机器学习讲义一个文本分类的project 《统计学习方法》（李航，清华大学出版社） Pattern Recognition And ...

分类：其他好文时间：2016-04-14 22:23:36 阅读次数：172

应用scikit-learn做文本分类

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsgroups官网上给出了3个数据集， ...

分类：其他好文时间：2016-04-05 13:58:41 阅读次数：263

文本分类——NaiveBayes

前面文章已经介绍了朴素贝叶斯算法的原理，这里基于NavieBayes算法对newsgroup文本进行分类测试。文中代码参考：http://blog.csdn.net/jiangliqing1234/article/details/39642757 主要内容如下： 1、newsgroup数据集介绍数据下载地址：http://download.csdn.net/detail/hjy...

分类：其他好文时间：2016-03-29 10:58:41 阅读次数：367

（4）文本挖掘（一）——准备文本读写及对Map操作的工具类

文本挖掘是一个对具有丰富语义的文本进行分析，从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示：我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的，都是有类别的两层目录文本集。不管你要做什么，你首先都要先读取文本，为了方便后面的操作，我写了几个工具类，这里先将文本读取Reade...

分类：其他好文时间：2016-03-29 10:52:32 阅读次数：291

scrapy爬取网易新闻内容

最近在写毕业论文，是做个文本分类相关的题目。想抓取网易新闻里那些新闻内容作为分析的数据，于是就又照着scrapy的文档照做了一遍。。。感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件，我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了 ...

分类：其他好文时间：2016-03-28 01:59:31 阅读次数：1457

技术积累－－常用的文本分类的特征选择算法

常采用特征选择方法。常见的六种特征选择方法： 1）DF(Document Frequency) 文档频率 DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性 2）MI(Mutual Information) 互信息法互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低，

分类：编程语言时间：2016-03-22 00:38:56 阅读次数：160

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过，朴素贝叶斯的局限性来源于其条件独立假设，它将文本看成是词袋子模型，不考虑词语之间的顺序信息，就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢？有，就是本节要接到的N-gram语言模型。...

分类：编程语言时间：2016-02-09 13:33:58 阅读次数：538

共340条上一页 1 ... 24 25 26 27 28 ... 34 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)