接触数据挖掘快有一年了,早期在学生团队做过一些D3数据可视化方面的工作,今年上半年开始数据挖掘实践。想把这个爱好发展成事业。有在kaggle混迹,算个数据新手,但一直不承认:你是新人,所以成绩不好看没啥关系。小试牛刀之前偶然的机会看到了datacastle大数据竞赛平台的“..
分类:
其他好文 时间:
2016-07-06 18:47:58
阅读次数:
5622
本文为数盟特约作者投稿,欢迎转载,请注明出处“数盟社区”和作者
博主简介:段石石,1号店精准化推荐算法工程师,主要负责1号店用户画像构建,喜欢钻研点Machine Learning的黑科技,对Deep Learning感兴趣,喜欢玩kaggle、看9神,对数据和Machine Learning有兴趣咱们可以一起聊聊,个人博客: hacker.duanshishi.com
Sp...
分类:
系统相关 时间:
2016-07-05 10:24:44
阅读次数:
428
声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents
博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对...
分类:
编程语言 时间:
2016-07-03 20:06:50
阅读次数:
363
关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作...
分类:
其他好文 时间:
2016-06-24 10:57:22
阅读次数:
838
Kaggle 是目前最大的
Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~ 5%)。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外,还会显示的就是 Prize Winner,10% 或是 25% 这三档。所以刚刚接触...
分类:
其他好文 时间:
2016-05-18 19:17:28
阅读次数:
272
昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数:
numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。
maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具...
分类:
其他好文 时间:
2016-05-13 14:58:40
阅读次数:
296
昨天我在Kaggle上下载了一份用于手写数字识别的数据集,想通过最近学习到的一些方法来训练一个模型进行手写数字识别。这些数据集是从28×28像素大小的手写数字灰度图像中得来,其中训练数据第一个元素是具体的手写数字,剩下的784个元素是手写数字灰度图像每个像素的灰度值,范围为[0,255],测试数据则没有训练数据中的第一个元素,只包含784个灰度值。现在我打算使用Spark MLlib中提供的朴素贝叶...
分类:
其他好文 时间:
2016-05-12 11:27:56
阅读次数:
239
https://en.wikipedia.org/wiki/Kaggle 以下内容,直接摘自维基百科,主要起到一个记录的作用,提醒自己有时间关注关注这个竞赛。 Kaggle is a platform for predictive modelling and analytics competitio ...
分类:
其他好文 时间:
2016-05-04 10:27:24
阅读次数:
221
今天这个比赛结束了,结果可以看:https://www.kaggle.com/c/santander-customer-satisfaction/leaderboard
public结果:
private结果:
首先对比private和public的结果,可以发现:
1)几乎所有的人都overfitting了;或者说private的另一半测试...
分类:
其他好文 时间:
2016-05-03 12:45:19
阅读次数:
1456
本文代码主要是为了练习Kaggle流程,精确度不高。 main.py functions.py analysis.py ...
分类:
其他好文 时间:
2016-04-14 12:09:13
阅读次数:
272