机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(ac ...
分类:
编程语言 时间:
2017-06-10 10:48:08
阅读次数:
224
给定源域Ds和目标域Dt,D={X,P(X)},并且给定源任务和目标任务 Ts 和 Tt,其中T={Y,P(Y|X)}.4种分法: χs≠χt。源域和目标域的特征空间不同,例如,文档是用两种不同的语言写的 xs=xt, 但P(Xs)≠P(Xt)。源域和目标域的边缘概率分布不同,例如,两个文档有着不同 ...
分类:
其他好文 时间:
2017-06-09 11:16:03
阅读次数:
309
主题模型(topic modeling)是一种常见的机器学习应用,主要用于对文本进行分类。传统的文本分类器,例如贝叶斯、KNN和SVM分类器,只能将测试对象分到某一个类别中,假设我给出三个分类:“算法”、“网络”和“编译”让其判断,这些分类器往往将对象归到某一类中。 但是如果一个外行完全给不出备选类 ...
分类:
其他好文 时间:
2017-06-03 11:16:43
阅读次数:
362
需求 使用监督学习对历史数据训练生成模型,用于预测文本的类别。 样本清洗 主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于13的数据是无效的遂将之删掉。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 3 4 5 6 7 8 ...
分类:
其他好文 时间:
2017-05-31 10:18:34
阅读次数:
172
一. 贝叶斯公式推导 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素是因为其思想基础的简单性:就文本分类而言,它认为词袋中的两两词之间的关系是相互独立的,即一个对象 的特征向量中每个维度都是相互独立的。例如,黄色是苹果和梨共有的属性,但苹果 和梨是相互独立的。这是朴素贝叶斯理论的思想基础。现在我们 ...
分类:
编程语言 时间:
2017-05-05 18:25:59
阅读次数:
595
转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。 业务问题描述: 淘宝商品 ...
分类:
其他好文 时间:
2017-04-29 20:01:30
阅读次数:
448
前言跳过废话,直接看正文文本分类任务是一个经久不衰的课题,其应用包括垃圾邮件检测、情感分析等。传统机器学习的做法是先进行特征工程,构建出特征向量后,再将特征向量输入各种分类模型(贝叶斯、SVM、神经网...
分类:
其他好文 时间:
2017-04-26 01:26:17
阅读次数:
480
背景&目标: 1、sport.tar 是体育类的文章,一共同拥有10个类别。 用这些原始材料构造一个体育类的文本分类器,并測试对照bayes和cbayes的效果; 记录分类器的构造过程和測试结果。 2、user-sport.tar 是用户浏览的文章,每一个目录相应一个用户。 利用上题构造的文本分类器 ...
分类:
其他好文 时间:
2017-04-25 19:18:40
阅读次数:
299
零、全部项目通用的: http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器) http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据) (适合文本分类问题 ...
分类:
其他好文 时间:
2017-04-24 12:37:09
阅读次数:
240
本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫。 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 ...
分类:
其他好文 时间:
2017-04-24 10:10:06
阅读次数:
193