QQpet exploratory park QQpet exploratory park Today, more and more people begin to raise a QQpet. You can get a lot of pleasure from it, although it d ...
分类:
其他好文 时间:
2017-04-22 17:30:41
阅读次数:
231
作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完 成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我 ...
分类:
其他好文 时间:
2017-04-17 09:27:12
阅读次数:
137
1 下载 2 配置,建立.vimrc,写入以下内容 set nocompatible " be iMproved, required filetype off " required " set the runtime path to include Vundle and initialize set ...
分类:
系统相关 时间:
2017-04-16 12:16:05
阅读次数:
237
Scala的Actor类似于Java中的多线程编程。但是不同的是,Scala的Actor提供的模型与多线程有所不同。Scala的Actor尽可能地避免锁和共享状态,从而避免多线程并发时出现资源争用的情况,进而提升多线程编程的性能。此外,Scala Actor的这种模型还可以避免死锁等一系列传统多线程 ...
分类:
其他好文 时间:
2017-04-15 01:02:59
阅读次数:
205
一、 spark 2 版本 相对于以前版本的变化 spark core : Accumulators (累加器):性能更好,页面上也可以看到累加器的信息 spark sql: 1、 2、DataSet(合并了之前的dataFrame) spark 2 里面没有dataframe了,dataframe ...
分类:
其他好文 时间:
2017-04-10 11:06:06
阅读次数:
125
RDD: Resilient Distributed Dataset 1. Spark RDD is immutable Since the RDD is immutable, splitting a big one to smaller ones, distributing them tovari ...
分类:
其他好文 时间:
2017-04-09 12:55:50
阅读次数:
181
目标站:www.chinaparkview.cn 云盾挡着了 查一下历史IP 查出3月9号的IP是103.249.104.114 当然查出来的不一定准确 修改本地host文件 PS:不要加http 然后保存。 win的需要重启。linunx则不用 如果说重启以后ping www.chinaparkv ...
分类:
其他好文 时间:
2017-04-09 09:18:03
阅读次数:
246
transgormation的算子对key-value类型的数据有三种: (1)输入 与 输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作,不对key进行操作 (2)对单个rdd聚集 (2)对单个rdd聚集 combineByKey 相当于将(v ...
分类:
其他好文 时间:
2017-03-23 20:12:07
阅读次数:
146
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/ ...
分类:
其他好文 时间:
2017-03-21 15:35:34
阅读次数:
209
如上,加入存储数据的类,并重写比较方法即可 ...
分类:
编程语言 时间:
2017-03-19 13:18:55
阅读次数:
188