码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
hive的 order by & distribute by & cluter by
我们应该都清楚order by 的含义: 根据某个字段对输出的数据排序,因为只有一个reducer,所以查询效率较慢。 那么hive中,另外两个排序,distribute by和cluster by的含义是什么呢? distribute by 分区排序 直接上例子,hive中有张工资表:salary ...
分类:其他好文   时间:2019-03-03 17:42:12    阅读次数:242
初始Hive
Hive 背景 引入原因 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一推MapReduce代码 对于统计任务,只能由懂MapReduce的程序员才能搞定 耗时耗力,更多精力没有有效的释放出来 Hive基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据进行查询、统计和 ...
分类:其他好文   时间:2019-03-03 16:14:12    阅读次数:140
MapReduce
Partitioner: Partitioner的作用是决定Map Task产生的数据记录交给哪个Reduce Task处理。默认实现是:(key)mod R,其中R是Reduce Task个数。一般情况下,当需要按照key的一部分(不是全部,比如key的前三个字节)进行partition,或者按照 ...
分类:其他好文   时间:2019-03-01 13:04:35    阅读次数:161
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
问题说明: 一般来说,我编写Spark,MapReduce程序都是会在本地IDEA中进行,开发。本地跑通了,才会把代码放到集群上去跑。 当我在运行一个简单的Spark Job 的时候,控制台出现如下的错误: java.io.IOException: Could not locate executab ...
分类:编程语言   时间:2019-02-27 15:56:15    阅读次数:415
Hadoop YARN上运行MapReduce程序
(1)配置集群 (a)配置hadoop-2.7.2/etc/hadoop/yarn-env.sh 配置一下JAVA_HOME export JAVA_HOME=/home/hadoop/bigdatasoftware/jdk1.8.0_161 (b)配置yarn-site.xml <!-- redu ...
分类:其他好文   时间:2019-02-26 23:50:03    阅读次数:256
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local ...
分类:其他好文   时间:2019-02-25 18:05:34    阅读次数:173
MapReduce实例
一、MapReduce 原理 MapReduce 是一种变成模式,用于大规模的数据集的分布式运算。通俗的将就是会将任务分给不同的机器做完,然后在收集汇总。 MapReduce有两个核心:Map,Reduce,它们分别单独计算任务,每个机器尽量计算自己hdfs内部的保存信息,Reduce则将计算结果汇 ...
分类:其他好文   时间:2019-02-23 01:25:44    阅读次数:145
MapReduce高级编程2
MapReduce Top N 、二次排序,MapJoin: TOP N 对于一组输入List(key,value),我们要创建一个Top N 列表,这是一种过滤模式,查看输入数据特定子集,观察用户的行为。 解决方案 key是唯一键,需要对输入进行额外的聚集处理,先把输入分区成小块,然后把每个小块发 ...
分类:其他好文   时间:2019-02-22 10:36:00    阅读次数:131
深入浅出大数据分析
“大数据”这个词儿已经在IT圈蔓延到各个领域,如果真要刨根问底的问一句“如何实现大数据分析”,恐怕是IT圈里的好些人也一时半会儿解释不清楚吧。所以尝试把大数据分析这个事做个深入浅出的剖析还是很有意义的。仁者见仁智者见智,能力所限,表达如有不准确的地方希望你能用包容的心态多理解和指导。首先,用5秒钟的时间扫描一下下面的这段内容吧:知道上面是一段日志文件的片段的请举手。敢问阁下您是一位受人尊敬的码农吧
分类:其他好文   时间:2019-02-21 20:12:12    阅读次数:189
Sqoop安装及基本使用
Sqoop: 1、sqoop从数据库中导入数据到HDFS 2、SQOOP从数据库导入数据到hive 3、sqoop从hive中将数据导出到数据库 sqoop底层还是执行的mapreduce程序,,但是特殊的地方只有map TASK 可以实现:企业级数据仓库、文档型系统、关系型数据库<--> sqoo ...
分类:其他好文   时间:2019-02-21 12:27:51    阅读次数:301
4054条   上一页 1 ... 60 61 62 63 64 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!