前言Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedi
分类:
其他好文 时间:
2019-12-09 18:50:02
阅读次数:
101
大数据由一系列技术组成,那他们之间的关系是怎么组成的ne,请看下图: hadoop主要做了文件存储系统和提供了一个相对比较弱的mr处理数据的方案 hive是在mr和文件存储系统上面做的升级。 sprak+hbase+hadoop主要解决的是hadoop实时处理数据比较弱的问题 ...
分类:
Web程序 时间:
2019-12-08 10:27:19
阅读次数:
116
1.自定义 schema(Rdd[Row] => DataSet[Row]) 2.借助 case class 隐式转换(Rdd[Person] => DataSet[Row]) 3.直接从数据源创建 此外 233 ...
分类:
其他好文 时间:
2019-12-07 16:18:20
阅读次数:
620
其实Rocketmq的给第三方的插件已经全了,如果大家有兴趣的话请移步https://github.com/apache/rocketmq-externals。本文主要是结合笔者已有的rmq在spark中的应用经验对rocketmq做简单介绍以及经验总结,当然免不了会将rocketmq和如今特别火爆 ...
分类:
其他好文 时间:
2019-12-06 18:59:15
阅读次数:
409
好用的python模块 可自动导入模块的pyforest 安装模块后,可以直接按配置文件中设置的需要调用的模块名称使用模块 设置 编辑 默认配置在 中 使用 jupyter 可以自动导入,其他环境需要手动导入 查看已自动导入的模块 ...
分类:
编程语言 时间:
2019-12-06 17:39:16
阅读次数:
121
spark submit 参数及其调优https://blog.csdn.net/guohecang/article/details/52088117 Spark配置参数详解 一.yarn模式下一个示例:./bin/spark-submit \ --master yarn-cluster \ --n ...
分类:
其他好文 时间:
2019-12-06 16:25:50
阅读次数:
103
spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.x 到 现在最新的spark 3.x ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Application 调 ...
分类:
移动开发 时间:
2019-12-04 13:22:15
阅读次数:
118
Spark官网和下载地址 官网 http://spark.apache.org/ spark-2.2.0源码下载链接 http://archive.apache.org/dist/spark/spark-2.2.0/spark-2.2.0.tgz spark-2.2.0安装包下载连接 http://... ...
分类:
其他好文 时间:
2019-12-03 18:09:14
阅读次数:
98
为什么要用SQL 1)事实上的标准 MySQL、Oacle、DB2、SQL Server都是用的SQL操作,DBA、运维人员使用SQL门槛比较低 2)易学易用 SQL对于不懂的人学习较容易 3)受众面广 无论做Java、.Net、Php都需要与数据库交互,都需要编写SQL Hive: 类似于SQL的... ...
分类:
数据库 时间:
2019-12-03 18:00:13
阅读次数:
92
【摘要】 华为云物联网平台提供的规则引擎包括数据转发和设备联动等多种能力,这些能力都要怎么使用?本文教您8招最常用的用法,带您玩转规则引擎。 规则引擎是华为云物联网平台提供的一种能力,用户对接入平台的设备设定相应的规则,在条件满足所设定的规则后,平台会触发相应的动作来满足用户需求。规则引擎包含数据转 ...
分类:
其他好文 时间:
2019-12-03 17:55:11
阅读次数:
229