对于想深入了解线性回归的童鞋,这里给出一个完整的例子,详细学完这个例子,对用scikit-learn来运行线性回归,评估模型不会有什么问题了。 1. 获取数据,定义问题 没有数据,当然没法研究机器学习啦。:) 这里我们用UCI大学公开的机器学习数据来跑线性回归。 数据的介绍在这: http://ar ...
分类:
其他好文 时间:
2017-05-03 17:30:00
阅读次数:
225
很多朋友想学习机器学习,却苦于环境的搭建,这里给出windows上scikit-learn研究开发环境的搭建步骤。 Step 1. Python的安装 python有2.x和3.x的版本之分,但是很多好的机器学习python库都不支持3.x,因此,推荐安装2.7版本的python。当前最新的pyth ...
time31 = pd.read_excel('F:/save_file/3问出车表.xlsx', sheetname='Sheet1') # 读取‘3问出车表.xlsx’中的Sheet1表单, time32 = pd.read_excel('F:/save_file/3问出车表.xlsx', sh... ...
分类:
其他好文 时间:
2017-05-01 00:22:48
阅读次数:
219
1.安装tushare前先安装lxml和pandas(我是win32下python3.4.0) 2.安装lxml,下载地址https://pypi.python.org/pypi/lxml/3.4.2 3.pandas,下载地址https://pypi.python.org/pypi/pandas ...
分类:
编程语言 时间:
2017-04-25 20:00:59
阅读次数:
276
十分钟搞定pandas http://www.cnblogs.com/chaosimple/p/4153083.html XGBoost模型调参、 http://www.2cto.com/kf/201607/528771.html 交叉验证及其用于参数选择、模型选择、特征选择的例子 http://b ...
分类:
编程语言 时间:
2017-04-25 17:08:50
阅读次数:
229
问题引出: import pandas import pandas as pd iris = pd.read_csv('iris.csv') by_species = iris.groupby('Species') def f(x): ...: print type(x) ...: print x.... ...
分类:
移动开发 时间:
2017-04-22 12:38:54
阅读次数:
1645
Pandas在处理千万行级别的数据中有非常高的实用价值,通过将文本数据读取加载到内存中,在利用Pandas进行数据处理运算,效率非常高。(Excel表适合处理几十万行级别的数据,Pandas则适用于处理千万级别的数据)。 一般情况下千万级别的数据动辄在几个GB以上,因此建议电脑内存在16GB以上为佳 ...
分类:
其他好文 时间:
2017-04-22 09:30:17
阅读次数:
305
本文主要从以下两个方向对pandas的数据结构进行展开,分别为Series和DataFrame(对应的分别是系列与numpy中的一维数组和二维数组) 1.首先从Series讲起,主要介绍Series的创建。 1) 可以通过一位数组进行创建序列 如:在python3.6中测试 #首先导入两个模块, i ...
分类:
其他好文 时间:
2017-04-21 14:39:17
阅读次数:
189
from openpyxl import load_workbook import pandas as pd data = pd.read_excel('test1.xlsx', sheetname=0) # col_data = list(data.ix[:, 5]) # 获取除表头外开始的第五列 ...
分类:
编程语言 时间:
2017-04-20 16:44:25
阅读次数:
238
《Python 机器学习及实践–从零开始通往kaggle竞赛之路》很基础 主要介绍了Scikit-learn,顺带介绍了pandas、numpy、matplotlib、scipy。 本书代码基于python2.x。不过大部分可以通过修改print()来适应python3.5.x。 提供的代码默认使用 ...
分类:
编程语言 时间:
2017-04-18 10:10:44
阅读次数:
1459