http://www.iciba.com/ http://www.oxfordlearnersdictionaries.com/ https://en.oxforddictionaries.com/ https://en.wikipedia.org/wiki/Main_Page http://www ...
分类:
其他好文 时间:
2016-11-27 08:01:29
阅读次数:
317
shuffle。。。相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量。相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuffle过程进行了优化。 那么我们从RDD的iterator方法开始: 我们可以看到,它调用了cach ...
分类:
其他好文 时间:
2016-11-25 07:21:09
阅读次数:
263
factor(x = character(), levels, labels = levels, exclude = NA, ordered = is.ordered(x), nmax = NA) levels因子水平,如果不指定,就是x中所有不重复的值 labels水平标识名称 exclude排除 ...
分类:
其他好文 时间:
2016-11-22 01:53:38
阅读次数:
183
大数据计算BUG处理:程序修改前资源情况:Driver:1台Worker:2台程序提交申请内存资源:1G内存内存分配情况:1.20%用于程序运行2.20%用于Shuffle3.60%用于RDD缓存单条TweetBean大小:3k1.内存溢出原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行..
分类:
其他好文 时间:
2016-11-21 23:53:55
阅读次数:
290
DataFrame写入hive API: 将DataFrame数据写入hive指定数据表的分区中 将数据写入分区表的思路是:首先将DataFrame数据写入临时表,之后是由hiveContext.sql语句将数据写入hive分区表中。具体操作如下: 声明本文转自:http://www.aboutyu ...
分类:
其他好文 时间:
2016-11-20 07:16:45
阅读次数:
786
1.rdd的初始化 1.1 读取文件来初始化rdd(通过sparkContext的textFile方法) 1.1.1 读取本地文件 1.1.2 读取hdfs文件 1.2 并行化集合来初始化rdd(通过sparkContext.) 2.rdd的基本操作(分为transformation和action) ...
分类:
其他好文 时间:
2016-11-18 22:09:47
阅读次数:
208
环境极其恶劣情况下: import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SQLContext} import org.ap ...
分类:
其他好文 时间:
2016-11-18 07:20:23
阅读次数:
560
用户管理 用户数据所在位置: mysql中的所有用户,都存储在系统数据库(mysql)中的user 表中——不管哪个数据库的用户,都存储在这里。 表初始内容如下: 创建用户: 形式: create user ‘用户名’@’允许登录的地址/服务器’ identified by ‘密码’; 说明: 1, ...
分类:
数据库 时间:
2016-11-16 14:11:58
阅读次数:
247
1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x) ...
分类:
其他好文 时间:
2016-11-14 07:45:30
阅读次数:
462