# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:
其他好文 时间:
2021-01-18 11:29:36
阅读次数:
0
词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: 代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w ...
分类:
其他好文 时间:
2021-01-18 11:17:13
阅读次数:
0
客户端发送查询命令 scan 'user', {COLUMNS => 'base_info', STARTROW => 'rk1', ENDROW => 'rk3'} 寻址过程 1. 客户端请求zk,获取meta表所在位置 2. zk返回节点位置(假设在hadoop01节点) 3. 客户端访问had ...
分类:
其他好文 时间:
2021-01-18 11:09:35
阅读次数:
0
hbase写数据流程 ?先从 zk找到meta表的region位置,然后读取meta表中的数据,meta表中存储了用户表的region信息 根据namespace、表名和rowkey信息。找到写入数据对应的 region信息 找到这个region对应的regionServer,然后发送请求 把数据分 ...
分类:
其他好文 时间:
2021-01-18 11:07:30
阅读次数:
0
##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...
分类:
数据库 时间:
2021-01-18 11:03:21
阅读次数:
0
1.数据格式 1 2 x2 2 x3 2 x4 2 x 2.创建表 创建TEXTFILE格式的表 CREATE TABLE test_txt(id int,num int,txt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES ...
分类:
其他好文 时间:
2021-01-18 10:51:25
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
解决Hadoop HA集群 NameNode 无法自动故障转移(切换active) 在学习 HA 自动化配置,按照hadoop官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvaila ...
分类:
其他好文 时间:
2021-01-15 12:13:12
阅读次数:
0
概述 ElasticAmbari为Ambari的一组自定义服务,为Elastic的产品提供安装和管理的支持。 项目地址: https://github.com/ChengYingOpenSource/ElasticAmbari 开源不易,我们会持续维护和优化,惊喜不断请大家点赞收藏! 为迎接2021 ...
分类:
其他好文 时间:
2021-01-15 11:47:42
阅读次数:
0
工作中有一张类型信息表,有时候需要不同的类型信息需要多次扫描这张表,表很大的时候影响效率。 优化前: select t1.fa_id,t2.srch_char_val,t3.srch_char_val from (select fa_id from cisadm_ods.ods_cis_ci_fa_ ...
分类:
其他好文 时间:
2021-01-13 10:40:03
阅读次数:
0