mapreduce RDD 流程示意 Yarn ...
分类:
其他好文 时间:
2017-07-28 09:42:23
阅读次数:
123
Overview Apache Impala (incubating) is the open source, native analytic database for apache Hadoop. Features Do BI-style Queries on Hadoop: low latenc ...
分类:
其他好文 时间:
2017-07-25 22:30:23
阅读次数:
210
本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程。 先上sql 可以看到这个sql由1个join,一个去重语句,组成,这两种操作都是很耗费资源的。 1、对链接操作,小表放在链接左边。 这是一个老生常谈的 ...
分类:
数据库 时间:
2017-07-23 11:24:09
阅读次数:
319
最新一期《中国IT产业发展报告》在2016中国(深圳)IT领袖峰会上正式发布,数字中国联合会常务理事李颖称。中国IT产业完毕了从要素驱动向效率驱动的过渡,眼下正在由效率驱动向创新驱动发展。 //定义要序列化的类型 protected int[] splits;//int 数组 protected S ...
分类:
其他好文 时间:
2017-07-19 20:29:45
阅读次数:
192
1. mapreduce.job.reduce.slowstart.completedmaps: 在往hbase表里通过bulkload导数据时,某个mapreduce跑了一个多小时还没跑,看yarn界面,发现map还有一小部分没跑完,没跑完的map全在pending,running中没有,同时re ...
分类:
其他好文 时间:
2017-07-15 15:01:28
阅读次数:
262
最近一直在学MVC,本来今天想开始做项目了,但是一下手才发现还有好多好多都不懂,虽然想照搬别人的模板,但是还是觉得很虚,这也不懂哪也不懂。看来学习一门技术断不是那么简单,只要随便套套模板,看看别人代码就会的。还是得从基础开始,从头开始,所以又重新看了一遍入门的那个关于电影的例子,按着它的讲解一步一步 ...
分类:
Web程序 时间:
2017-07-10 19:20:07
阅读次数:
190
1.RDD 的介绍 RDD 是spark的核心概念,可以将RDD是做数据库中的一张表,RDD可以保存任何类型的数据,可以用API来处理RDD及RDD中的数据,类似于Mapreduce, RDD 也有分区的概念。RDD是不可变的可以变换(Transformation)操作RDD,但是这个变换返回的是一 ...
分类:
其他好文 时间:
2017-07-07 15:26:01
阅读次数:
154
报错信息 17/07/06 17:00:27 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.17/0 ...
分类:
编程语言 时间:
2017-07-06 18:40:28
阅读次数:
252
map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一 ...
分类:
其他好文 时间:
2017-07-03 19:56:04
阅读次数:
263
假如你如今想换工作,你会怎么选择呢?薪水够多。工作够轻松,不加班,目标职位须要的技能你又刚好会,离家近,奖金多?满足这样要求的单位就能够去了。去了就会如你所愿一切都非常美好? 假如你是个程序猿,不想做软件开发了,想转行。有几个选择:IT培训讲师、NLP教练、开咖啡馆、淘宝开店卖家具。你会选择哪个? ...
分类:
其他好文 时间:
2017-06-28 23:01:24
阅读次数:
177