一个真实的例子:根据一家公司服务器过去的访问量来预测未来的访问量。具体步骤:1.读取数据:服务器的访问量被记录成一个csv文件web_traffic.csv,格式如下:1 22722 nan3 13864 13655 14886 13377 18838 22839 133510 102511 113...
分类:
其他好文 时间:
2014-09-18 00:38:32
阅读次数:
549
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题。 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别。 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计。结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)...
分类:
其他好文 时间:
2014-09-17 21:57:22
阅读次数:
424
常用的机器学习&数据挖掘知识(点)
声明:想做机器学习&数据挖掘的学弟学妹,可以看看,转载请说明出处...
常用的机器学习知识(点)
Basis(基础):
MSE(Mean Square Error 均方误差),LMS(LeastMean
Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihoo...
分类:
其他好文 时间:
2014-09-15 22:51:09
阅读次数:
340
2.1.1 文档分析及编码转换: 文档处理第一步,是将文件或web服务器上的一系列二进制字节序列转换为字符序列。 在实际中,首先要判断出文档的编码方式(机器学习分类、启发式等方法),确定文档的类型(word?zip?)然后将字节序列转换成字符序列。 2.1.2 文档单位(document unit)...
分类:
其他好文 时间:
2014-09-15 21:04:59
阅读次数:
250
机器学习(5)之牛顿算法1. 牛顿迭代算法简介 设r是的根,选取作为r的初始近似值,过点做曲线的切线L,L的方程为,求出L与x轴交点的横坐标,称x1为r的一次近似值。过点做曲线的切线,并求该切线与x轴交点的横坐标,称为r的二次近似值。重复以上过程,得r的近似值序列,其中,称为r的次近似值,上式称为....
分类:
其他好文 时间:
2014-09-14 23:28:37
阅读次数:
567
Weka算法Classifier-meta-Bagging源码分析...
分类:
其他好文 时间:
2014-09-14 20:49:17
阅读次数:
480
前言
最近几周花了点时间学习了下今年暑假龙星计划的机器学习课程,具体的课程资料参考见附录。本课程选讲了写ML中的基本模型,同时还介绍了最近几年比较热门,比较新的算法,另外也将ML理论和实际问题结合了起来,比如将其应用在视觉上,web上的等。总之,虽然课程内容讲得不是特别细(毕竟只有那么几节课),但是内容还算比较新和比较全的。学完这些课后,收获还算不少的,至少了解到了自己哪方面的知识比较弱...
分类:
其他好文 时间:
2014-09-14 01:25:10
阅读次数:
321
K近邻很简单。简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别。由于采用k投票机制,所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较...
分类:
其他好文 时间:
2014-09-13 20:04:05
阅读次数:
241