最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相 ...
分类:
数据库 时间:
2018-02-21 11:41:39
阅读次数:
236
以前都是使用Sqoop来完成数据从生成的hdfs数据存储上来抽取至oracle的数据库:sqoop抽取语句:sqoopexport--connect"jdbc:oracle:thin:@ip:port:sid"--username用户名--password密码--tablesid.表名--export-dirhdfs://nameservice1/user/XXX(hdfs地址
分类:
数据库 时间:
2018-02-11 16:17:12
阅读次数:
228
因为从事大数据方面的工作,经常在操作过程中数据存储占空间过大,读取速率过慢等问题,我开始对parquet格式存储进行了研究,下面是自己的一些见解(使用的表都是项目中的,大家理解为宽表即可):一、SparkSql中两种格式存储的读写性能(以资源产品拓扑信息宽表为例)1、假设:由于对于parquet存储格式来说,针对列式的查询读取操作以及列式的计算性能更高于普通的存储格式,所以在读取相同的sql过程中
分类:
其他好文 时间:
2018-02-11 10:43:25
阅读次数:
169
一、前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。 开窗函数一般分组取topn时常用。 二、UDF和UDAF函数 1、UDF函数 java代码: 这些参数需要对应,UDF2就是表示传两个参数,UDF3就是传三个参数。 scala代码: 2、UDAF:用户 ...
分类:
数据库 时间:
2018-02-09 20:29:51
阅读次数:
520
* SparkSQL基础 起源: 1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 2、Shark即Hive on Spark,本质上是通过Hive的HQL解析, ...
分类:
数据库 时间:
2018-01-12 22:43:34
阅读次数:
252
-- Spark SQL 以编程方式指定模式 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val employee = sc.textFile("/root/wangbin/employee.txt") 1201,satish,2... ...
分类:
数据库 时间:
2018-01-09 18:37:12
阅读次数:
186
1、数据样本:data1.txt xiaoming,25,chengduxiaohua,23,beijingliuyang,16,hangzhouxiaoqiang,19,zhejiang 2、demo例子 3、输出结果 name:liuyang age:16 addr:hangzhouname:x ...
分类:
数据库 时间:
2017-12-26 19:56:57
阅读次数:
205
作者:Fickr Sung孫啟誠链接:https://www.zhihu.com/question/21380122/answer/237421875来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 总结如下: 必须技能10条:01.Java高级(虚拟机、并发)02.L ...
分类:
其他好文 时间:
2017-12-25 13:27:23
阅读次数:
140
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http:// ...
分类:
其他好文 时间:
2017-12-06 13:16:16
阅读次数:
241
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具, ...
分类:
其他好文 时间:
2017-12-06 13:04:50
阅读次数:
198