最近在看机器学习中adaboost(adaptive boostint)算法部分的内容,在csdn上面查找一番发现,好像没有讲的特别的详尽的,当然可能是我人品不佳,所以没有找到,为了防止同样的事情发生在其他人的身上,所以就写了这篇博文,尽量多的解释算法的推演过程更方便的大家去理解这个算法。
介绍adaboost算法之前,首先介绍一下学习算法的强弱,这个是PAC定义的:弱学习算法-...
分类:
编程语言 时间:
2014-12-24 21:38:21
阅读次数:
447
推荐系统植根于不同的研究领域,比如信息检索、信息过滤和文本分类,采用了不同领域的方法,比如机器学习、数据挖掘和基于知识的系统。
《推荐系统》这本书,是一本导读,向读者提供有关这个领域的概述和简介。
在“最新进展”这一部分,介绍了攻击和应对攻击的对策、在线消费决策的理论、新一代互联网技术发展带来的更多可用信息、移动等普适环境的推荐应用等。...
分类:
其他好文 时间:
2014-12-24 16:22:57
阅读次数:
202
学习排序算法(二):Pairwise方法之RankNet
前面一篇博文介绍的Ranking SVM是把LTR问题转化为二值分类问题,而RankNet算法是从另外一个角度来解决,那就是概率的角度。
1. RankNet的基本思想
RankNet方法就是使用交叉熵作为损失函数,学习出一些模型(例如神经网络、决策树等)来计算每个pair的排序得分,学习模型的过程可以使用梯度下降法。...
分类:
编程语言 时间:
2014-12-24 16:21:32
阅读次数:
1832
属于同一类的文档之间无法排序;
完全从单文档的分类角度计算,没有考虑文档之间的相对顺序。...
分类:
编程语言 时间:
2014-12-24 11:54:32
阅读次数:
386
学习排序算法简介
学习排序(Learning to Rank, LTR)是一类基于机器学习方法的排序算法。
传统经典的模型,例如基于TFIDF特征的VSM模型,很难融入多种特征,也就是除了TFIDF特征之外,就无法融入其他种类的特征了。
而机器学习的方法很容易融合多种特征,而且有成熟深厚的理论基础,参数也是通过迭代计算出来的,有一套成熟理论来解决稀疏、过拟合等问题。
LTR方法大致可以分成三类:
1) Pointwise 单文档方法
2) Pairwise 文档对方法...
分类:
编程语言 时间:
2014-12-24 10:01:56
阅读次数:
350
摘要:mlpack是一个可伸缩C++机器学习库,它的目的是让新用户通过简单、一致的API使用机器学习,同时为专业用户提供C++的高性能和最大灵活性。mlpack是一个直观、快速、可伸缩的C++机器学习库,旨在为机器学习研究者提供更广泛的机器学习方法和函数。它的目的是让新用户通过简单、一致的API使用...
分类:
编程语言 时间:
2014-12-24 09:54:40
阅读次数:
152
1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出3、分类与回归: 分...
分类:
其他好文 时间:
2014-12-24 06:24:16
阅读次数:
110
c++:
《c++程序设计》
《c++primer》
《effective c++》
《more effective c++》
《深入探索c++对象模型》
《泛型编程与STL》
《STL源码剖析》
数据结构与算法:
《算法导论》
《introduction of the design and analysis of algorithm》
《数据结构与算法分析:c语言描...
分类:
其他好文 时间:
2014-12-24 00:04:18
阅读次数:
162
回归是统计学中最有力的工具之一。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归的目的就是建立一个回归方程用来预测目标值,回归的求解就是求这个回归方程的回归系数。预测的方法当然十分简单,回归系数乘以输入值再全部相加就得到了预测值。说到回归,常常指的也就是线性回归,因此本文阐述的就是多元线性回归方程的求解和应用,通过Python实现。...
分类:
编程语言 时间:
2014-12-23 14:02:03
阅读次数:
822
提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;
常见关联规则:
关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】
支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,来限定规则的产生;
置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的...
分类:
编程语言 时间:
2014-12-23 12:34:32
阅读次数:
339