1、避免创建重复的RDD和不必要的内存空间浪费 错误代码: 错误解析: 这种情况下,Spark需要从文件中加载两次hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的 正确代码: 2、尽最大可能复用同一个RDD 错误代码: 错误解 ...
分类:
其他好文 时间:
2019-10-27 15:04:12
阅读次数:
103
一、hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:
其他好文 时间:
2019-10-03 14:40:32
阅读次数:
87
Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载 ...
分类:
其他好文 时间:
2019-10-03 10:39:51
阅读次数:
96
1.1.1.计算流程 1.1.2. 从代码构建DAG图 Spark program Val lines1 = sc.textFile(inputPath1).map(...).map(...) Val lines2 = sc.textFile(inputPath2).map(...) Val lin ...
分类:
其他好文 时间:
2019-09-11 09:51:17
阅读次数:
84
1、进入hive数据库:hive 2、查看hive中的所有数据库:show databases; 3、用default数据库:use default; 4、查看所有的表:show tables; 5、查询表结构:desc mytest(表名); 6、查询表数据: select * from myte ...
分类:
其他好文 时间:
2019-08-28 12:36:50
阅读次数:
139
1.spark textFile读取File 1.1 简单读取文件 1.2 正则模式读取文件 2.spark textFile读取多个File 2.1 将多个文件变成一个 list 作为参数 正确写法:sc.TextFile( filename1 + "," + filename2 + "," + ...
分类:
其他好文 时间:
2019-08-17 18:25:42
阅读次数:
1650
公司的hadoop集群是之前的同事搭建的,我(小白一个)在spark shell中读取hdfs上的文件时,执行以下指令 >>> word=sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt") >>> word.first() 报错:jav ...
分类:
编程语言 时间:
2019-08-15 11:00:54
阅读次数:
242
组合模式Composite 使用组合模式的场景:把部分和整体的关系用树形结构表示,从而使客户端可以使用统一的方式处理对象和整体对象(文件和文件夹) 组合模式核心: -抽象构件(Component)角色:定义了叶子和容器的共同点 -叶子(Leaf)构件角色:无子节点 -容器(Composite)构件角 ...
分类:
其他好文 时间:
2019-08-11 13:27:56
阅读次数:
125
今天在做一个课程设计的时候,写到一个界面注册,在用js判断数据的正确性时,碰到了一个js弹出框的乱码问题。在网上找寻了很久,也找了很多博客看,但是发现怎么样都不能解决我的问题,下面给出几个比较经典的解决乱码问题的回答。 方法一: 检查js文件的存储编码(记事本打开,另存为,看编码),如果是utf-8 ...
分类:
Web程序 时间:
2019-07-12 17:00:35
阅读次数:
161
4.2、使用oozie调度我们的hive 第一步:拷贝hive的案例模板 cd /export/servers/oozie-4.1.0-cdh5.14.0 cp -ra examples/apps/hive2/ oozie_works/ cd /export/servers/oozie-4.1.0- ...
分类:
其他好文 时间:
2019-07-10 23:02:41
阅读次数:
131