一.官网位置1.位置2.解释官网位置DataSet1.6出现的SchemaRDD<1.31.3版本前叫SchemaRDD1.3以后叫DataFrameDataSet支持Scala,JAVA不支持pythonDataFrame支持四种JAVA,Scala.Python,RDataFrame:并不是sparksql独创的,原来就有的,从其他框架借鉴过来的二.DataFrame注意事项1.注意分布
分类:
数据库 时间:
2020-01-05 09:39:35
阅读次数:
76
使用kafka和sparkstreaming整合时,IDEA运行程序报错"com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1",初步看是版本不兼容,但是版本后面确认没有问题, ...
分类:
移动开发 时间:
2020-01-05 09:29:41
阅读次数:
291
引子有人在某个专注SQL的公众号留言如下:这个留言触碰到一个非常敏感的问题:搞关系型数据库还有前途吗?现在都2020年了,区块链正火热,AI人才已经“过剩”,大数据都成了稀松平常的萝卜白菜,你却还在搞SQLServer?你还在搞SQL?原因最近10年,数据管理领域的变化可谓精彩纷呈。什么Hadoop,Spark,MemcacheDB,Redis,Vertica,HANA,Cassandra,Mon
分类:
数据库 时间:
2020-01-04 16:59:14
阅读次数:
113
本文详细的介绍了Hadoop的Yarn架构与原理分析
分类:
其他好文 时间:
2020-01-03 19:39:26
阅读次数:
84
spark-streaming对接kafka有两种方式:1.基于receiver的方式,属于高级API,简单但是效率低,容易丢失数据(可以设置WAL)。它的原理是:receiver从kafka拉取数据存储到executor的内存中,spark-streaming启动job处理数据。偏移量保存在zoo ...
分类:
其他好文 时间:
2020-01-03 14:07:49
阅读次数:
84
面试公司: 一家中小型电商 面试中的问题: 思路不要太跳跃性, 不然容易尬。 引导的时候脑子需要快速运转该说什么。 自己熟的那块一定要准备充分答出百分之80以上。 排序算法, 选一个说: 建议快排, 归并, 面试前手写一下找找感觉。 挖坑桶排: 需要对难点做准备: 按照什么条件分桶? 空间利用率的优 ...
分类:
其他好文 时间:
2019-12-31 20:08:27
阅读次数:
108
配置免密度登录 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 id_rsa, id_rsa.pub,默认存储在~/.ssh 目录下 现在给slave1节点设置公钥 执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车, 生成的密钥对 i ...
分类:
其他好文 时间:
2019-12-31 19:01:20
阅读次数:
105
一 整体介绍 1.1 硬件环境 本文使用三台服务器搭建hadoop集群,使用Centos7.5系统,服务器均有独立ip 1.2 部署的软件 部署服务:namenode(HA),resourcemanager(HA),zookeeper,hbase(HA),spark,kafka,geomesa 版本 ...
分类:
其他好文 时间:
2019-12-31 14:12:21
阅读次数:
94
一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile ...
分类:
其他好文 时间:
2019-12-30 14:16:01
阅读次数:
89
一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduc ...
分类:
其他好文 时间:
2019-12-30 14:10:45
阅读次数:
100