码迷,mamicode.com
首页 >  
搜索关键字:mapred    ( 464个结果
【Spark调优】:如果实在要shuffle,使用map侧预聚合的算子
因业务上的需要,无可避免的一些运算一定要使用shuffle操作,无法用map类的算子来替代,那么尽量使用可以map侧预聚合的算子。 map侧预聚合,是指在每个节点本地对相同的key进行一次聚合操作,类似于MapReduce中的本地combine。map-side预聚合之后,每个节点本地就只会有一条相 ...
分类:其他好文   时间:2019-03-12 09:12:48    阅读次数:303
hive的 order by & distribute by & cluter by
我们应该都清楚order by 的含义: 根据某个字段对输出的数据排序,因为只有一个reducer,所以查询效率较慢。 那么hive中,另外两个排序,distribute by和cluster by的含义是什么呢? distribute by 分区排序 直接上例子,hive中有张工资表:salary ...
分类:其他好文   时间:2019-03-03 17:42:12    阅读次数:242
【原创】大叔经验分享(35)lzo格式支持
建表语句 CREATE EXTERNAL TABLE `my_lzo_table`(`something` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'com.hadoop.mapred.D ...
分类:其他好文   时间:2019-02-26 18:58:57    阅读次数:391
Hive问题:Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
hive执行过程中报错,抓重点(黄色): 大概是执行mapreduce的时候的错误: 查看了下mapreduce确实是执行了, 拉取mr错误日志: 看下黄色部分,可知是hbase的对应实体类错误。 原因:是修改了hbase数据字典表中的类型 -> 没有更新hive的jar包。 ...
分类:Web程序   时间:2019-02-01 14:54:40    阅读次数:1105
【Hadoop学习之六】MapReduce
一、概念MapReduce:"相同"的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算 块、分片、map、reduce、分组、分区之间对应关系block > split1:1:1个block可以切成1个分片N:1:多个block可以以切成1个分片1:N:1个block可以切成多个 ...
分类:其他好文   时间:2019-01-14 15:58:12    阅读次数:194
hadoop生态的大体介绍
重点组件:HDFS:Hadoop的分布式文件存储系统MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型Hive:基于Hadoop的类SQL数据仓库工具HBase:基于Hadoop的列式分布式NoSQL数据库ZooKeeper:分布式协调服务组件Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库Oozie/Azkaban:工作流调度
分类:其他好文   时间:2019-01-11 14:19:16    阅读次数:174
大数据整理:0基础大数据学习的几个问题
大数据将彻底颠覆传统的生产方式生活方式,大数据的蓬勃发展,使许多人想从事大数据相关的工作。大数据就0基础入门的初学者们最关心的问题进行整理回答。 一、大数据的发展前景 1、人才稀缺:未来3至5年,中国需要200万+大数据人才,目前大数据从业人数不足50万,市场需求远远得不到满足; 2、需求增长快速: ...
分类:其他好文   时间:2019-01-10 16:31:23    阅读次数:157
MongoDB常用操作练习
最近在自学MongoDB, 连接数据库mongo.exe test 设置访问限制后连接mongo.exe -u root -p test 设置访问限制db.addUser("root","111111");mongo.exe auth; 创建集合(数据库)db.createCollection("m ...
分类:数据库   时间:2018-12-30 20:23:59    阅读次数:430
hadoop,zookeeper,hbase安装需要修改的配置
一:hadoop安装 /etc/profile hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml 启动命令: 监控端口: 二:zookeeper安装 conf/zoo.cfg 启动和停止 进入bin目录,启 ...
分类:其他好文   时间:2018-12-20 20:35:54    阅读次数:250
大数据入门
大数据入门
分类:其他好文   时间:2018-12-18 17:22:56    阅读次数:204
464条   上一页 1 ... 9 10 11 12 13 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!