# hanbb # come on!!! import pandas as pd import numpy as np df = pd.DataFrame(np.arange(12).reshape(4,3),index=['a','b','c','d'],columns=['1st','2nd',... ...
分类:
其他好文 时间:
2017-11-19 17:24:03
阅读次数:
123
1:Spark ML与Spark MLLIB区别? Spark MLlib是面向RDD数据抽象的编程工具类库,现在已经逐渐不再被Spark团队支持,逐渐转向Spark ML库,Spark ML是面向DataFrame编程的。 2:Spark ML与Spark MLLIB中矩阵、向量定义区别? 这两个 ...
分类:
其他好文 时间:
2017-11-19 12:35:30
阅读次数:
182
以前使用过DS和DF,最近使用Spark ML跑实验,再次用到简单复习一下。 1:DS与DF关系? 2:加载txt数据 这种直接生成DF,df数据结构为(查询语句:df.select("*").show(5)): 只有一列,属性为value。 3: df.printSchema() 4:case c ...
分类:
其他好文 时间:
2017-11-18 23:43:54
阅读次数:
1535
详细内容见:http://pandas.pydata.org/pandas-docs/stable/timeseries.html 以下是一些可能会用到的代码: 代码1df = pd.DataFrame({'year': [2015, 2016],'month': [2, 3],'day': [4, ...
分类:
其他好文 时间:
2017-11-13 00:20:43
阅读次数:
214
渐渐从R转向python数据处理 Doc 文档路径 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.to_csv.html iloc和loc以及icol http://blog.csdn.net/chenk ...
分类:
编程语言 时间:
2017-11-12 13:29:44
阅读次数:
325
样本示意,为kdd99数据源: 代码: 结果: ...
分类:
其他好文 时间:
2017-11-09 14:39:47
阅读次数:
166
注意:仅仅是数值型字段才可以,如果是字符类型字段则不能直接搞定 需要使用pandas get_dummies搞定 例如: Using the get_dummies will create a new column for every unique string in a certain colum ...
分类:
Web程序 时间:
2017-11-08 20:49:58
阅读次数:
521
DataFrame类具有很多方法,下面做用法的介绍和举例。 pandas.DataFrame学习系列2——函数方法(1) 1.abs(),返回DataFrame每个数值的绝对值,前提是所有元素均为数值型 2.add(other, axis='columns', level=None, fill_va ...
分类:
其他好文 时间:
2017-11-07 18:10:57
阅读次数:
293
更多函数查阅http://pandas.pydata.org/pandas-docs/stable/10min.htmlimport pandas as pd#两种数据结构from pandas import Series,DataFrame#Series由一组数据和一组索引组成# obj=Seri ...
分类:
其他好文 时间:
2017-11-06 11:18:04
阅读次数:
229
处理数据要用到Pandas,但是没有学过,不知道是否有直接对某一列归一化的方法调用。自己倒弄了下。感觉还是比较麻烦。 使用Pandas读取到数组之后想把其中的‘MonthlyIncome’一列进行归一化,网上的栗子都是对整个dataframe进行归一化,因为我的数据有些列是类别,不能使用: ...
分类:
编程语言 时间:
2017-11-02 17:03:27
阅读次数:
807