1:列转行2:列转行3:去除重复记录 步骤名称:保持唯一性 增加计数器到输出?:当勾选了此项,并在计数器字段后给予了名称,则将会在该字段下显示去掉的重复行数。 字段名称:用来去重的字段,可选多个字段,表示多个字段都相同时表示重复。 该功能类似与sql中的distinct关键字。 4:增加序列 一个序 ...
分类:
其他好文 时间:
2018-12-07 21:16:40
阅读次数:
148
1:合并记录 该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配, 比较,合并。 需要设置的参数: 旧数据来源:旧数据来源的步骤。 新数据来源:新数据来源的步骤。 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下 ...
分类:
其他好文 时间:
2018-12-07 21:02:58
阅读次数:
605
kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的转换任务可以保存在资源库中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。kettle资源库元数据 1:资源库 资源库包括文件资源库,数据库资源库。 kettle4之后资源 ...
分类:
其他好文 时间:
2018-12-07 21:02:51
阅读次数:
247
1:空操作 该操作什么都不做,主要作用是,想测试的时候充当一个占位符。 例如:两个文本文件输入,同时连接到流查询步骤中,但是流查询仅仅能从一个流中查询信息,所以可以在同时连接流查询之前, 将两个文本文件输入连接到空操作,然后再让空操作去连接流查询。 空操作组件具有合并记录的作用。 2:过滤记录 该步 ...
分类:
其他好文 时间:
2018-12-07 20:51:01
阅读次数:
334
1:数据库查询 数据库连接:所要连接的数据库 模式名称:一般选取用户模式 表名:所要查询的表名 是否使用缓存:指定是否使用数据库缓存查询结果。 缓存大小:指定缓存的大小。 从表中加载所有数据:选中该项,缓存将不被利用。 查询所需的关键字: 表字段:表示所选中的表中的字段。 比较操作符:对选中字段进行 ...
分类:
其他好文 时间:
2018-12-07 20:50:10
阅读次数:
224
早在2010年开始,阿里巴巴集团开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储,HBase在几代阿里专家的不懈努力下,已经表现得运行更稳定、性能更高效,内部HBase集群超过万台的规模,单集群超过千台,是集团核心数据库产品之一,也是国内甚至国际上绝对的HBase大户。
分类:
其他好文 时间:
2018-12-07 18:36:08
阅读次数:
174
Flink视频教程_大数据Flink教程下载课程下载:https://pan.baidu.com/s/1LXm9W30jt4sufJvJakx5Dw提取码:mazb本课程将基于真实的电商分析系统构建,通过Flink实现真正的实时分析,该系统会从无到有一步一步带大家实现,让大家在实操中快速掌握Flink技术。课程所涵盖的知识点包括Flink、Kafka、Flume、Sqoop、SpringMVC、R
分类:
其他好文 时间:
2018-12-07 11:46:14
阅读次数:
208
HBase以表的形式存储数据,表由行和列组成。列划分为若干个列族,
分类:
其他好文 时间:
2018-12-06 20:46:58
阅读次数:
184
1、课程简介本文章先会介绍HBase命令行,接着会介绍java代码对hbase中的表进行增删改查。本文章中所有命令均在CentOS-6.4-x86_64,hadoop-2.5.2,jdk1.8.0_152,zookeeper-3.4.11,hbase-1.2.6中运行通过,为减少linux权限对初学者造成影响,所有命令均在linux的root权限下进行操作。2、理论回顾HBase是一个高可靠性、高
分类:
其他好文 时间:
2018-12-06 17:54:52
阅读次数:
142
一、案例分析 常见避免数据热点问题的处理方式有:加盐、哈希、反转等方法结合预分区使用。 由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列、组合时间戳、字段反转的方式来设计Rowkey,来实现既能高效查询又能避免热点问题。(由于案例数据量小未进行预分区) ...
分类:
其他好文 时间:
2018-12-06 14:28:00
阅读次数:
116