缺失值填充之后,就要对其他格式有问题的属性进行处理了。比如Sex Embarked这些属性的值都是字符串类型的,而scikit learn中的模型都只能处理数值型的数据,需要将这些原始的字符串类型的数据转为数值型数据。所有数据通常可以分成两种类型:定量与定性。定量的属性(数值属性)通常蕴涵着可排序性...
分类:
其他好文 时间:
2015-03-20 23:44:48
阅读次数:
197
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。首先,我们要先看...
分类:
其他好文 时间:
2015-03-20 14:21:49
阅读次数:
220
原文地址: http://www.china-cloud.com/yunhudong/yunzhuanlan/zhuanlanrenwu/chen_/2013/0118/17375.html大数据分析的众包平台—Kaggle时间:2013-01-18 09:51 来源:中云网 作者:陈弢 转发:2....
分类:
其他好文 时间:
2015-03-09 20:38:33
阅读次数:
375
先上一个例子,这段代码是为了评估一个预测模型写的,详细评价说明在https://www.kaggle.com/c/how-much-did-it-rain/details/evaluation,它的核心是要计算在实际计算过程中,n很大(1126694),以至于单进程直接计算时间消耗巨大(14分10秒...
分类:
编程语言 时间:
2015-03-04 12:42:44
阅读次数:
206
原文连接:http://blog.kaggle.com/2014/12/22/convolutional-nets-and-cifar-10-an-interview-with-yan-lecun/摘要:CIFAR-10竞赛之后,卷积网络之父Yann LeCun接受相关采访。他认为:卷积网络需要大数...
分类:
Web程序 时间:
2015-01-22 17:00:39
阅读次数:
322
摘要:CIFAR-10竞赛之后,卷积网络之父Yann LeCun接受相关采访。他认为:卷积网络需要大数据和高性能计算机的支持;深层卷积网络的训练时间不是问题,运行时间才是关键。Yann LeCun还分享了他正在做的一些最新研究。Kaggle近期举办了一场关于CIFAR-10数据集的竞赛,该数据集包含...
分类:
其他好文 时间:
2015-01-21 01:09:49
阅读次数:
298
Classify the sentiment of sentences from the Rotten Tomatoes dataset
题目链接:https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
越来越喜欢iPython notebook了。以下所有工作都可以在一个页面上完成,FireFox支持比Chrome...
分类:
其他好文 时间:
2015-01-18 14:25:37
阅读次数:
172
Classify handwritten digits using the famous MNIST data
This competition is the first in a series of tutorial competitions designed to introduce people to Machine Learning.
The goal in this comp...
分类:
其他好文 时间:
2015-01-16 13:07:42
阅读次数:
499
CriteoLabs kaggle 展示广告ctr比赛...
分类:
其他好文 时间:
2015-01-15 22:11:34
阅读次数:
2045
众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着...
分类:
其他好文 时间:
2015-01-05 21:46:59
阅读次数:
364