码迷,mamicode.com
首页 >  
搜索关键字:文本分类    ( 340个结果
Latent Dirichlet Allocation 文本分类主题模型
文本提取特征常用的模型有:1.Bag-of-words:最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词,计算互信息熵等等,但不管怎么训练,特征维度都很大,每个特征的信息量太小;2.统计特征:包括Term f ...
分类:其他好文   时间:2016-11-08 13:17:41    阅读次数:5556
关键字提取算法TF-IDF
在文本分类的学习过程中,在“如何衡量一个关键字在文章中的重要性”的问题上,遇到了困难。在网上找了很多资料,大多数都提到了这个算法,就是今天要讲的TF-IDF。 总起 TF-IDF,听起来很高大上啊,其实理解起来相当简单,他实际上就是TF*IDF,两个计算值的乘积,用来衡量一个词库中的词对每一篇文档的 ...
分类:编程语言   时间:2016-11-05 17:32:41    阅读次数:185
Atitit attilax在自然语言处理领域的成果
Atitit attilax在自然语言处理领域的成果 1.1. 完整的自然语言架构方案(词汇,语法,文字的选型与搭配)1 1.2. 中文分词1 1.3. 全文检索1 1.4. 中文 阿拉伯文 英文的简化方案1 1.5. 自动摘要2 1.6. 文本分类 聚类2 1.7. 自然语言 语义解析2 1.8. ...
分类:编程语言   时间:2016-10-31 07:25:19    阅读次数:198
Atitti 文本分类  以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案
Atitti 文本分类 以及 垃圾邮件 判断原理 以及贝叶斯算法的应用解决方案 1.1. 七、什么是贝叶斯过滤器?1 1.2. 八、建立历史资料库2 1.3. 十、联合概率的计算3 1.4. 十一、最终的计算公式3 1.5. 。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0. ...
分类:编程语言   时间:2016-10-23 07:37:15    阅读次数:246
weka 文本分类(1)
一、初始化设置 1 jvm out of memory 解决方案: 在weka SimpleCLI窗口依次输入java -Xmx 1024m 2 修改配置文件,使其支持中文: 配置文件是在Weka安装后的目录下,比如我的是在C:\Program Files\Weka-3-7\RunWeka.ini, ...
分类:其他好文   时间:2016-10-13 01:41:15    阅读次数:574
knn原理与实践
knn法是一种基本分类与回归方法 应用:knn算法不仅可以用于分类,还可以用于回归.. 1、文本分类:文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务. 2、可以使用knn算法做到比较通用的现有用户产品推荐,基于用户的最近邻(长得最像的用户)买了什么产品来推荐是种介于电子商务 ...
分类:其他好文   时间:2016-10-10 19:49:38    阅读次数:208
Atitit 自然语言处理原理与实现 attilax总结
Atitit 自然语言处理原理与实现 attilax总结 1.1. 中文分词原理与实现 111 1.2. 英文分析 1941 1.3. 第6章 信息提取 2711 1.4. 第7章 自动摘要 3041 1.5. 第8章 文本分类 3191 1.6. 第9章 文本倾向性分析 3641 1.7. 第10 ...
分类:编程语言   时间:2016-09-24 00:51:47    阅读次数:244
使用gensim和sklearn搭建一个文本分类器(一):文档向量化
总的来讲,一个完整的文本分类器主要由两个阶段,或者说两个部分组成:一是将文本向量化,将一个字符串转化成向量形式;二是传统的分类器,包括线性分类器,SVM, 神经网络分类器等等。之前看的THUCTC的技...
分类:其他好文   时间:2016-09-06 15:52:30    阅读次数:5718
目标识别:Bag-of-words表示图像
BOW (bag of words) 模型简介 Bag of words模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子(因为里面装的都是词汇,所以称 ...
分类:其他好文   时间:2016-08-18 06:23:37    阅读次数:181
[python] 使用scikit-learn工具计算文本TF-IDF值
在文本聚类、文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn。文章包括:一.Scikit-learn概念 1.概念知识 2.安装软件; 二.TF-IDF基础知识 1.TF-IDF 2.举例介绍; 三.TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.示例 希望文章对你有所帮助~...
分类:编程语言   时间:2016-08-08 17:43:13    阅读次数:2975
340条   上一页 1 ... 22 23 24 25 26 ... 34 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!