1、官网下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxC ...
                            
                            
                                分类:
其他好文   时间:
2020-07-17 22:02:27   
                                阅读次数:
140
                             
                         
                    
                        
                            
                            
                                    今天MR的数据源很可能出现了问题,正常每天对方服务器会推过来2.1TB数据,今天只有1.6TB。 过来是gz压缩包,FTP的方式推送,进来之后我这边的程序进行解析,并存入HDFS。 对端的工程师只能看到压缩包目录的大小,看不到压缩前文件总大小,商量了一下,觉得不好对比数据一致性,想排查数据量问题,没 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-17 09:40:37   
                                阅读次数:
123
                             
                         
                    
                        
                            
                            
                                    Flume、Logstash、Filebeat对比 日志采集工具对比 1、Flume简介 Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员,内部有三个组件: ...
                            
                            
                                分类:
Web程序   时间:
2020-07-15 23:42:18   
                                阅读次数:
161
                             
                         
                    
                        
                            
                            
                                    1.flume连接mysql驱动包准备 进入链接下载源码https://github.com/keedio/flume-ng-sql-source现在最新是1.5.3解压, 进入到目录中编译 直接编译可能报错,跳过test mvn package -DskipTests 2.flume与kafka, ...
                            
                            
                                分类:
数据库   时间:
2020-07-15 23:28:07   
                                阅读次数:
166
                             
                         
                    
                        
                            
                            
                                    这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-14 13:10:45   
                                阅读次数:
72
                             
                         
                    
                        
                            
                            
                                    1.Hadoop (1)安装配置 基础只需要配置core-site.xml和hdfs-site.xml就行。 参考: https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了,交换一下就行】 http: ...
                            
                            
                         
                    
                        
                            
                            
                                Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能。 HIVE特点 1.使用类sql语句分析大数据,避免MapReduce程序分析数据 2.数据存储在HDFS上,不是HIVE上 3.Hive将数据映射成数据库和一张张表,库和表的元数据信息一般存在关系型数据库。 元数据:描述数 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-13 12:07:13   
                                阅读次数:
73
                             
                         
                    
                        
                            
                            
                                一,执行流程 由图我们可以看到, MapReduce存在以下4个独立的实体。 JobClient:运行于client node,负责将MapReduce程序打成Jar包存储到HDFS,并把Jar包的路径提交到Jobtracker,由Jobtracker进行任务的分配和监控。 JobTracker:运 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-12 22:18:50   
                                阅读次数:
82
                             
                         
                    
                        
                            
                            
                                    背景 我们在做数据库过滤的时候不可避免要进行字符串过滤,那么如果是一张大表的话,那么这个字符串是否会使用上索引?索引过滤的效果怎么样?以及标题中提到的左模糊、右模糊和全模糊这些都是什么意思,在EFCore中到底该怎么用,带着这些问题我们进入今天文章的主题。 过程分析 1 右模糊 所谓的右模糊就是查询 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-11 23:20:19   
                                阅读次数:
138
                             
                         
                    
                        
                            
                            
                                    从源头上解决,在上传到HDFS之前,就将多个小文件归档 使用tar命令 带上参数-zcvf 示例: tar -zcvf xxx.tar.gz 小文件列表 如果小文件已经上传到HDFS了,可以使用在线归档 使用hadoop archive命令 示例: hadoop archive -archiveNa ...
                            
                            
                                分类:
其他好文   时间:
2020-07-11 17:00:14   
                                阅读次数:
76