spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就... ...
分类:
其他好文 时间:
2018-01-16 14:01:53
阅读次数:
1865
目前自己遇到的是 1、print 函数 python 2.7*是 print,pyhon3必须加括号 print() 2、string的split函数 python2.7.*中没有split('',expand=True),没有那个expand,本来将dataframe一列拆分成多列用过split函 ...
分类:
编程语言 时间:
2018-01-15 22:43:35
阅读次数:
334
一:创建链接数据库引擎 二:读取数据库数据,存储为DataFrame格式 部分来自于博客:http://blog.csdn.net/u011301133/article/details/52488690 1:读取自定义数据(通过SQL语句) pandas.read_sql_query(sql, co ...
分类:
数据库 时间:
2018-01-15 20:22:10
阅读次数:
1004
问题1:错误提示:UnicodeDecodeError: 'ascii' codec can't decode byte 0xb8 原因:含有中文字符 问题2:将DataFrame格式的文件保存为csv格式,比如,DF变量为DataFrame格式的数据 ...
分类:
编程语言 时间:
2018-01-15 18:45:33
阅读次数:
185
一、DataFrame简介 一个表型格数的、据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。 二、DataFrame创建 DataFrame可以使用数组,列表和字典等方式进行创建 当DataFr ...
分类:
其他好文 时间:
2018-01-14 22:39:00
阅读次数:
194
最近R读取xlsx格式数据文件为dataframe之后转化成矩阵数据进行处理得到dataframe,之后将dataframe数据转化为矩阵数据时多次错误,原因在与dataframe中数据是factor还是character, 解决问题如下:假设下表为没有表头的 text.xlsx 数据 1:直接用d ...
分类:
其他好文 时间:
2018-01-14 19:32:34
阅读次数:
1257
最近在用python做数据挖掘,在聚类的时候遇到了一个非常恶心的问题。话不多说,直接上代码: 错误如下: 网上找了好久都没找到解决方法,明明之前成功过的。于是我查看了df23数据,发现它是这样的: 与之前成功的dataframe的唯一差别就是索引!!!重要的事情说三遍!!!索引!!!索引!!!于是乎 ...
分类:
其他好文 时间:
2018-01-14 16:47:10
阅读次数:
2176
1.准备工作 安装itchat "参考" itchat内部函数 2.个人微信男女比例分析 哈哈,没想到还是女性朋友多 ...
分类:
微信 时间:
2018-01-14 13:47:03
阅读次数:
790
怎样删除list中空字符? 最简单的方法:new_list = [ x for x in li if x != '' ] 今天是5.1号。 这一部分主要学习pandas中基于前面两种数据结构的基本操作。 设有DataFrame结果的数据a如下所示: a b c one 4 1 1 two 6 2 0 ...
分类:
其他好文 时间:
2018-01-13 20:41:10
阅读次数:
369
df1为dataframe结构的测试数据:df1数据是从test.xlsx文档中读取的,使用示例代码如下:tushare?ts
pandas?pd
df?=?pd.read_excel()
df1?=?df.head()
分类:
编程语言 时间:
2018-01-10 23:51:17
阅读次数:
913