1、创建Spark Session 2、将RDD隐式转换为DataFrame import spark.implicits._ 3、SparkSession 介绍 spark中包含 sparkContext和 sqlContext两个对象 sparkContext 是操作 RDD 的 sqlCont ...
分类:
数据库 时间:
2017-08-26 22:48:53
阅读次数:
271
1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive ...
分类:
数据库 时间:
2017-08-25 13:49:10
阅读次数:
249
前几天无意中看到了一片文章,《一件有趣的事:我用 Python 爬了爬自己的微信朋友》,这篇文章写的是使用python中的itchat爬取微信中朋友的信息,其中信息包括,昵称、性别、地理位置等,然后对这些信息进行统计并且以图像形式显示。文章对itchat的使用写的很详细,但是代码是贴图,画图使用R中 ...
分类:
其他好文 时间:
2017-08-24 20:13:07
阅读次数:
276
pandas常用函数整理,作为个人笔记。 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档。 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者D ...
分类:
其他好文 时间:
2017-08-24 19:57:00
阅读次数:
1213
pandas 安装方法:pip3 install pandas pandas是一个强大的Python数据分析的工具包,它是基于NumPy构建的模块。 pandas的主要功能: 具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作(实质是NumPy提供的) ...
分类:
其他好文 时间:
2017-08-23 10:24:54
阅读次数:
186
Background MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。 ratings.dat UserID::MovieID::Rating::Timestamp users.dat UserID::Gender::Age::Occupation::Zip ...
分类:
编程语言 时间:
2017-08-22 12:29:09
阅读次数:
208
1 重新生成索引 如果某个索引值不存在就引入缺失值 a使用method的ffill可以实现前向值填充,效果如下 b:对于dataframe使用reindex可以同时修改行列索引,如果仅传入一个序列那么如下 c:使用colunms重新索引列 d:同时插入行列,但是插值只能按行应用 reindex的参数 ...
分类:
编程语言 时间:
2017-08-21 12:42:55
阅读次数:
382
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3 ...
分类:
其他好文 时间:
2017-08-20 17:02:59
阅读次数:
300
线性、逻辑回归。input_fn()建立简单两个特征列数据,用特证列API建立特征列。特征列传入LinearClassifier建立逻辑回归分类器,fit()、evaluate()函数,get_variable_names()得到所有模型变量名称。可以使用自定义优化函数,tf.train.FtrlO ...
分类:
其他好文 时间:
2017-08-20 12:28:17
阅读次数:
173
2 DataFrame a:通过传入一个等长的列表构成DataFrame 自动加上索引 b:指定顺序序列(之前是按照默认排序) c:传入数据的时候列不存在 那么就是NAN d:从DataFrame中获取一个series e:赋值方式修改列 f:赋值的时候如果传入一个Series,那么可以进行精确的匹 ...
分类:
编程语言 时间:
2017-08-20 10:00:28
阅读次数:
3420