一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
                            
                            
                                分类:
其他好文   时间:
2020-08-13 12:07:11   
                                阅读次数:
88
                             
                    
                        
                            
                            
                                1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B ...
                            
                            
                                分类:
其他好文   时间:
2020-08-08 00:33:32   
                                阅读次数:
73
                             
                    
                        
                            
                            
                                一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
                            
                            
                                分类:
数据库   时间:
2020-08-07 21:45:52   
                                阅读次数:
79
                             
                    
                        
                            
                            
                                1、JedisConnectionPool.scala package sparkstreaming import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} object JedisConnectionPool{ val conf ...
                            
                            
                                分类:
其他好文   时间:
2020-08-07 18:03:42   
                                阅读次数:
62
                             
                    
                        
                            
                            
                                针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4  ...
                            
                            
                                分类:
数据库   时间:
2020-08-03 19:56:21   
                                阅读次数:
103
                             
                    
                        
                            
                            
                                    <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </dependency> <!-- https://mvnrepos ...
                            
                            
                                分类:
其他好文   时间:
2020-07-29 09:53:42   
                                阅读次数:
61
                             
                    
                        
                            
                            
                                1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-29 00:41:18   
                                阅读次数:
111
                             
                    
                        
                            
                            
                                    Spark的架构图 1、RDD(弹性分布式数据集) RDD是对象的分布式集合。 RDD以并行方式应用和记录数据转换 RDD也提供数据沿袭——以图形形式给出每个中间步骤的祖先树,当RDD的一个分区丢失,可以根据祖先树重建该分区。 RDD有两组操作,转换(transformation)和行动(actio ...
                            
                            
                                分类:
其他好文   时间:
2020-07-28 22:37:30   
                                阅读次数:
72
                             
                    
                        
                            
                            
                                    透视函数其实就是我们excel中常用的数据透视表相似,先来看个例子。 以下是准备的数据源,数据是电商系统中用户的行为数据(浏览,收藏,加购,成交,评分等),score为统计次数。 对应的字段分别为 租户id,用户id,商品编码Id,行为事件代码,当日统计次数,统计日期。 现在我们要转换成目标的数据是 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-28 17:17:13   
                                阅读次数:
131
                             
                    
                        
                            
                            
                                    Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-28 14:21:17   
                                阅读次数:
191