刚开始接触Spark被Hive在Spark中的作用搞得云里雾里,这里简要介绍下,备忘。 参考:https://blog.csdn.net/zuochang_liu/article/details/82292076 SparkSQL:是一个完全不依赖Hive的SQL引擎。 Spark On Hive ...
分类:
数据库 时间:
2019-01-26 18:51:51
阅读次数:
390
前言: CAT是一个实时和接近全量的监控系统,它侧重于对Java应用的监控,除了与点评RPC组件融合的很好之外,他将会能与Spring、MyBatis、Dubbo 等框架以及Log4j 等结合,支持PHP、C++、Go等多语言应用,基本接入了美团点评上海侧所有核心应用。目前在中间件(MVC、RPC、 ...
分类:
编程语言 时间:
2019-01-25 15:17:24
阅读次数:
214
如何学习Python 最近开始整理python的资料,会陆续放到博客中存档。找了几个qq群,其中有一个群 "78486745(点击进群)" 。后面就没怎么加群了,还是需要看官方文档为主 python语言基础:(带你熟悉python语言的特性,学会使用python开发环境,使用python开发一些简单 ...
分类:
编程语言 时间:
2019-01-24 16:33:11
阅读次数:
193
一个StreamingContext定义之后,必须做以下几件事情:1、通过创建输入DStream来创建输入数据源。2、通过对DStream定义transformation和output算子操作,来定义实时计算逻辑。3、调用StreamingContext的start()方法,来开始实时处理数据。4、 ...
分类:
其他好文 时间:
2019-01-19 21:16:25
阅读次数:
168
JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole外, 还有jps、jstack、jmap、jhat、jstat、hprof等小巧的工具,每一种工具都有其自身的特点, 用户可以根据你需要检测的应用或者程序片段的状况,适当的选择相应的工具进行检测, 先通过 ...
分类:
Web程序 时间:
2019-01-15 11:58:50
阅读次数:
324
重点组件:HDFS:Hadoop的分布式文件存储系统MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型Hive:基于Hadoop的类SQL数据仓库工具HBase:基于Hadoop的列式分布式NoSQL数据库ZooKeeper:分布式协调服务组件Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库Oozie/Azkaban:工作流调度
分类:
其他好文 时间:
2019-01-11 14:19:16
阅读次数:
174
之前做了记录了spark的一些配置调优,接下来记录一下本人在开发中用到的一些调优手段。 算子调优 MapPartitons提升Map类操作性能: spark中每个task处理一个RDD的partition,一条一条数据--> task function MapPartitons后所有的数据(一个分区 ...
分类:
其他好文 时间:
2019-01-06 16:32:03
阅读次数:
168
article <article> 标签定义独立的内容 aside <aside> 标签定义 <article> 标签外的内容,aside 的内容应该与附近的内容相关 figure <figure> 标签规定独立的流内容(图像、图表、照片、代码等等),figure 元素的内容应该与主内容相关,但如果 ...
分类:
Web程序 时间:
2019-01-04 20:27:26
阅读次数:
257
spark任务运行的源码分析在整个spark任务的编写、提交、执行分三个部分:①编写程序和提交任务到集群中②sparkContext的初始化③触发action算子中的runJob方法,执行任务(1)编程程序并提交到集群:①编程spark程序的代码②打成jar包到集群中运行③使用spark-submit命令提交任务在提交任务时,需要指定--class程序的入口(有main方法的类),1)spark-
分类:
其他好文 时间:
2019-01-03 22:36:48
阅读次数:
181