[TOC] 机器学习英雄访谈录之 Kaggle Kernels 专家:Aakash Nain "Sanyam Bhutani" 是 Medium 上一位专注 ML 和 CV 的博主,本系列翻译自他进行的系列采访——《机器学习英雄访谈录》。 学习从模仿开始,要模仿就要模仿那些最棒的人 ,这是我开始本系 ...
分类:
其他好文 时间:
2018-12-27 23:42:28
阅读次数:
181
ARIMA模型,参数含义参考:https://www.cnblogs.com/bradleon/p/6827109.html SARIMAX Model,多元季节性时间序列模型,用于预测与异常诊断,参考博客:https://blog.csdn.net/weixin_41512727/article/ ...
分类:
其他好文 时间:
2018-12-27 13:27:21
阅读次数:
292
XGboost,全称Extrem Gradient boost,极度梯度提升,是陈天奇大牛在GBDT等传统Boosting算法的基础上重新优化形成的,是Kaggle竞赛的必杀神器。 XGboost属于集成学习的模型,在集成学习中主要有三个算法,Bagging,Boosting和Stacking,Ba ...
分类:
其他好文 时间:
2018-12-27 13:11:57
阅读次数:
146
前言 上面一节我们介绍了一元线性回归和多元线性回归的原理, 又通过一个案例对多元线性回归模型进一步了解, 其中谈到自变量之间存在高度相关, 容易产生多重共线性问题, 对于多重共线性问题的解决方法有: 删除自变量, 改变数据形式, 添加正则化项, 逐步回归, 主成分分析等. 今天我们来看看其中的添加正 ...
分类:
编程语言 时间:
2018-12-25 11:39:43
阅读次数:
1997
数据集来源:https://www.kaggle.com/psparks/instacart-market-basket-analysis 思路: 实例代码: 运行结果: 从结果中可以看出数据的维数降到了27 ...
分类:
其他好文 时间:
2018-12-25 01:02:19
阅读次数:
380
自然语言处理NLP( natural language process)是这几年越来越火了,kaggle上的比赛有关NLP的也日渐多起来了. NLP的应用场景很多,情感分析,邮件过滤,ai客服,机器翻译等等等等,就像这几年越来越火有成为BAT之后第四极的今日头条,为什么能够为每个人推送不同的感兴趣的 ...
分类:
编程语言 时间:
2018-12-24 17:19:03
阅读次数:
397
玩了很久总算是又静下心来好好看书,经过一段时间的学习,打算稍微检验一下知识的掌握程度,所以去kaggle参加了久闻的泰坦尼克生还预测,以下是正文。 1、观察数据 拿到数据集后,先来了解数据的大致情况。 可以得知数据集有12列,891行,其中'Age'、'Cabin'、'Embarked'列存在缺失值 ...
分类:
其他好文 时间:
2018-12-17 02:13:18
阅读次数:
184
Exploratory data analysis and feature extraction with Python 此图片是学习kaggle中某篇kernel时的思维导图,总结了python进行探索性数据分析和特征提取的基本方法和步骤,有可借鉴内容。 暂时无法找到全篇kernel的链接,若重新 ...
分类:
编程语言 时间:
2018-12-16 19:35:29
阅读次数:
163
本文是对Kaggle比赛Google Analytics Customer Revenue Prediction的EDA(探索性数据分析)。项目数据量相对较大,两个CSV文件总共超过30GB,对于处理的方法和计算机性能都有一定的要求,且无法通过Public Leaderboard 查看有效排名,对L... ...
分类:
其他好文 时间:
2018-12-12 19:07:02
阅读次数:
356