2014年初经过深思熟虑,确定方向数据挖掘,作为今后工作生涯的追随领域。 3月份开始看机器学习的课程,到了4月底,参加阿里巴巴的大数据竞赛,便把课程学习给落下了—— 一大遗憾。 比赛的成绩可想而知,由于知识储备不够,况且还是单干,只能说还行,从七千个队伍到前五百名内,再从三百名到一百多名,然后遇到....
分类:
其他好文 时间:
2014-07-10 00:35:54
阅读次数:
183
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而wek...
分类:
其他好文 时间:
2014-07-07 23:55:38
阅读次数:
417
最近不管是在哪,世界杯永远是大家闲聊的话题。而随着互联网的发展,购买足彩越发便利和火爆了,体彩不像福彩,我们可以根据各个球队的情况做一些猜测。但作为一名看世界杯只记的住场边广告的伪球迷,也想凑热闹买一把,怎么才能保证在前面几次比赛的基础上,比较科学靠谱的预测比赛结果呢?做为一名略懂机器学习的伪球迷....
分类:
其他好文 时间:
2014-07-07 22:42:22
阅读次数:
455
## 多特征-------实际上我们真正买过房子的都知道,在选择房子的时候,需要考虑的不仅仅是面积,地段、结构、房龄、邻里关系之类的都应该是考虑对象,所以前面几讲谈论的,单纯用面积来谈房价,不免失之偏颇。### 多考虑些特性我们加入一些特性来考虑房价问题:分类算法,是一个理论上比較成熟的方法,也是最简单的机器学习算法之中的一个。该方法的思路是...
分类:
其他好文 时间:
2014-07-07 15:33:04
阅读次数:
182
百度百科中的描述算法描述:(1)检测数据库中尚未检查过的对象p,如果p为被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N;(2)对候选集N 中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N...
分类:
数据库 时间:
2014-06-30 12:31:47
阅读次数:
344
说到机器学习,很多人推荐的学习资料就是斯坦福Andrew Ng的cs229,有相关的视频和讲义。不过好的资料 != 好入门的资料,Andrew Ng在coursera有另外一个机器学习课程,更适合入门。这篇笔记是对这两个机器学习课程的笔记...
分类:
其他好文 时间:
2014-06-30 06:23:21
阅读次数:
262
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:
其他好文 时间:
2014-06-27 14:21:53
阅读次数:
225
用支持向量机进行文理科生的分类,根据的特征主要是 数学成绩与语文成绩,这两个特征都服从高斯分布程序代码例如以下:分类结果:
分类:
其他好文 时间:
2014-06-27 13:37:52
阅读次数:
265