MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
                            
                            
                                分类:
其他好文   时间:
2020-01-28 20:53:14   
                                阅读次数:
68
                             
                         
                    
                        
                            
                            
                                    1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
                            
                            
                                分类:
其他好文   时间:
2020-01-28 12:23:08   
                                阅读次数:
98
                             
                         
                    
                        
                            
                            
                                    简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
                            
                            
                                分类:
其他好文   时间:
2020-01-17 13:08:54   
                                阅读次数:
81
                             
                         
                    
                        
                            
                            
                                    流式处理框架对比 Posted on 2017 07 05 23:36  天戈朱  阅读(9600)  评论(0)  编辑  收藏  分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框 ...
                            
                            
                                分类:
其他好文   时间:
2020-01-07 20:08:49   
                                阅读次数:
183
                             
                         
                    
                        
                            
                            
                                    简介: 值得收藏,数据工程师必须掌握的7个大数据实战项目 原创: Lenis 有关SQL 1作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍。小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看。 男人爱看的电影,以武侠,动作,科技为多,也认 ...
                            
                            
                                分类:
其他好文   时间:
2020-01-06 14:22:20   
                                阅读次数:
157
                             
                         
                    
                        
                            
                            
                                    大数据实战开发系列,以实战为主,辅以一些基础知识,关于电信客服,在网上也有很多的资料,这里我自然会去参考网上的资料,程序的整体设计是在今天开始的,老夫尽量在本周末钱结束这个电信客服的程序编写。因为我也是一个学习者,所以在程序编写过程中难免会存在问题,有问题还请大家指出,有则改之,无则加勉。大家共同进 ...
                            
                            
                                分类:
移动开发   时间:
2019-12-25 11:36:23   
                                阅读次数:
167
                             
                         
                    
                        
                            
                            
                                    准备 1、hadoop已部署(若没有可以参考:Centos7安装Hadoop2.7),集群情况如下(IP地址与之前文章有变动): 2、官网下载安装包:spark-2.4.4-bin-hadoop2.7.tgz(推荐去清华大学或中科大的开源镜像站)。 3、spark将部署在三台都已存在的路径/myda ...
                            
                            
                                分类:
其他好文   时间:
2019-12-20 15:28:51   
                                阅读次数:
130
                             
                         
                    
                        
                            
                            
                                    1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create  ...
                            
                            
                                分类:
数据库   时间:
2019-12-14 16:02:45   
                                阅读次数:
141
                             
                         
                    
                        
                            
                            
                                    Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTex ...
                            
                            
                                分类:
其他好文   时间:
2019-12-14 15:24:37   
                                阅读次数:
160