Maven 什么是Maven Maven 在美国是一个口语化的词语,代表专家、内行的意思。一个对 Maven 比较正式的定义是这么说的:Maven 是一个项目管理工具,它包含了一个项目对象模型 (POM:Project Object Model),一组标准集合,一个项目生命周期(Project Li ...
分类:
其他好文 时间:
2020-08-15 22:29:27
阅读次数:
73
1.mapReduce 的shuffle 过程 : https://www.iteye.com/blog/langyu-992916 2.spark streaming : https://www.jianshu.com/p/0691204282ab CAS的理解? https://www.jian ...
分类:
其他好文 时间:
2020-08-13 12:10:50
阅读次数:
53
一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:
其他好文 时间:
2020-08-13 12:07:11
阅读次数:
88
impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 ...
分类:
其他好文 时间:
2020-08-10 18:38:19
阅读次数:
242
今日内容:1) hive的自定义函数 (简单会实现即可)2) hive优化部分: 能够理解, 知道有这些优化方案 , 记录 2.1: hive的数据压缩 2.2: hive的数据存储格式 2.3: fetch抓取 2.4: 本地模式 2.5: join的优化 2.6: SQL优化的方案 2.7: 动 ...
分类:
其他好文 时间:
2020-08-10 09:24:13
阅读次数:
57
Kettle巧用公式轻松实现数据抽取(图文并茂,带案例讲解)
分类:
其他好文 时间:
2020-08-08 00:40:05
阅读次数:
93
1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B ...
分类:
其他好文 时间:
2020-08-08 00:33:32
阅读次数:
73
一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
分类:
其他好文 时间:
2020-08-07 18:03:42
阅读次数:
62
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...
分类:
数据库 时间:
2020-08-03 19:56:21
阅读次数:
103