概述 平时工作用python的机会比较多,习惯了python函数式编程的简洁和优雅。切换到java后,对于数据处理的『冗长代码』还是有点不习惯的。有幸的是,Java8版本后,引入了Lambda表达式和流的新特性,当流和Lambda表达式结合起来一起使用时,因为流申明式处理数据集合的特点,可以让代码变 ...
分类:
编程语言 时间:
2020-01-16 20:32:22
阅读次数:
101
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
1、认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作。Hadoop旨在从单一服务 ...
分类:
其他好文 时间:
2020-01-16 13:00:17
阅读次数:
97
1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 [root@hadoop002 hadoop-2.7.2]# hdfs dfs Usage: hadoop fs [generic options] [-appendT ...
分类:
系统相关 时间:
2020-01-16 01:06:44
阅读次数:
92
jar包安装 注意:所有操作必须在root用户下完成 1 JDK解压、配置环境变量 JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功) [root@192 opt]# mkdir /opt/module/ [root@192 opt]# tar -zxf jdk ...
分类:
其他好文 时间:
2020-01-16 01:04:00
阅读次数:
84
HDFS产出背景及定义 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDF ...
分类:
其他好文 时间:
2020-01-15 21:18:15
阅读次数:
85
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:55:52
阅读次数:
64
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:44:01
阅读次数:
63
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-15 19:30:34
阅读次数:
76
最近在集群中执行调度任务,或者是 在集群中执行 hadoop distcp 命令都会报这样的问题。 java.io.IOException: Can't get Master Kerberos principal for use as renewer- at org.apache.hadoop.ma ...
分类:
编程语言 时间:
2020-01-15 12:09:00
阅读次数:
112