1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...
分类:
其他好文 时间:
2020-03-14 19:56:39
阅读次数:
121
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
把RDD写入到文本文件中 分布式文件系统HDFS的数据读写 JSON文件数据读写 (注scala 2.11.8运行不了) ...
分类:
其他好文 时间:
2020-03-10 21:53:58
阅读次数:
76
最近公司项目中做了一个两个oracle数据库数据进行数据实时同步的功能,由于数据量和环境的因素,开发人员采用了kafka做为消息中间件来转发数据,笔者就进行了kafka的学习,记录了下面的文档,望大家多多指教,共同学习进步。 一、 Kafka介绍 Kafka是由Java和Scala编写的是一个分布式 ...
分类:
其他好文 时间:
2020-03-09 20:58:51
阅读次数:
88
1.kafka概述##1.1kafka简介ApacheKafka是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统,使用Scala与Java语言编写,能够将消息从一个端点传递到另一个端点,较之传统的消息中间件(例如ActiveMQ、RabbitMQ),Kafka具有高吞吐量、内置分区、支持消息副本和高容错的特性,非常适合大规模消息处理应用程序。Kafka官网:http://kaf
分类:
其他好文 时间:
2020-03-09 13:12:17
阅读次数:
58
官网 http://spark.apache.org/docs/2.3.1/rdd-programming-guide.html#accumulators http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark ...
分类:
其他好文 时间:
2020-03-08 17:55:40
阅读次数:
96
from:https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后 ...
分类:
数据库 时间:
2020-03-08 16:00:50
阅读次数:
107
import numpy as np import pandas as pd from matplotlib import pyplot as plt nasa=pd.read_table(r"Y:\Workplace\BigData\percent-bachelors-degrees-women- ...
分类:
其他好文 时间:
2020-03-08 14:24:12
阅读次数:
81
初学scala,和java存在很多不一致,有很多奇葩的语法,在日常使用中,可能自己不会这么写,但是很多存在于源码中,看源码的时候,经常看的一脸懵逼,因此在此总结部门差异点,部分。 文件名 1. java要求文件名和公共类名必须要求一致,scala不要求。 即 关键字 1. scala 中没有publ ...
分类:
编程语言 时间:
2020-03-08 13:57:53
阅读次数:
87