大数据课程第五天 MapReduce中,Reduce可以没有 (纯数据的清洗,不用Reduce) job.setNumReduceTasks(0); 设置多个Reduce // 默认在MapReduce中 Reduce的数量是1 job.setNumReduceTasks(3);?//为什么Redu ...
分类:
其他好文 时间:
2019-01-26 18:57:50
阅读次数:
184
如何学习Python 最近开始整理python的资料,会陆续放到博客中存档。找了几个qq群,其中有一个群 "78486745(点击进群)" 。后面就没怎么加群了,还是需要看官方文档为主 python语言基础:(带你熟悉python语言的特性,学会使用python开发环境,使用python开发一些简单 ...
分类:
编程语言 时间:
2019-01-25 18:40:15
阅读次数:
132
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 最应该推荐的好友TopN,如何排名? ...
分类:
其他好文 时间:
2019-01-23 14:00:18
阅读次数:
145
由阿里巴巴统一大数据计算平台MaxCompute研发团队,历经1年多研发,打破大数据、科学计算领域边界,完成第一个版本并开源。 Mars,一个基于张量的统一分布式计算框架。使用 Mars 进行科学计算,不仅使得完成大规模科学计算任务从MapReduce实现上千行代码降低到Mars数行代码,更在性能上有大幅提升。
分类:
其他好文 时间:
2019-01-21 17:11:04
阅读次数:
228
创建Maven工程 在pom.xml文件中添加如下依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependenc ...
分类:
其他好文 时间:
2019-01-20 22:07:59
阅读次数:
184
从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark 从Hadoop MR到Spark 回顾hadoop—mapreduce计算过程 MR VS Spark Spark编程模型 核心概念 注意:对比mr里的概念来学习 Spark Applicatio ...
分类:
其他好文 时间:
2019-01-20 17:34:04
阅读次数:
226
IMPALA部署和架构(一) 一,概要 因公司业务需求,需要一个查询引擎满足快速查询TB级别的数据,所以我们找到了presto和impala,presto在前面讲过今天只说impala,impala是cloudera公司主导开发的新型查询系统,impala没有在使用缓慢的Hive+MapReduce ...
分类:
其他好文 时间:
2019-01-20 17:26:19
阅读次数:
848
我们在用MapReduce做数据处理的时候,经常会遇到将只需要输出键或者值的情况,如context.write(new Text(record), new Text("")),这样得到结果每行尾部会自动加上一个制表符。尽管我们的值是空的,但是MapReduce默认输出的是键值对,且键值对之间默认的分 ...
分类:
其他好文 时间:
2019-01-20 14:07:53
阅读次数:
184
# Spark:RDD的设计与运行原理 ## 1.RDD设计背景在实际应用中,存在许多迭代式算法和家忽视数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即下一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的 ...
分类:
其他好文 时间:
2019-01-18 16:32:24
阅读次数:
226
1.git git版本控制,设计思想 常规指令 2.linux Linux 不常用指令的学习,三剑客指令的学习 3.机器学习 感知机,朴素贝叶斯,knn,svm,adaboost 4.深度学习 RNN , LSTM ,GAN 正向传播 5.detection RCNN Fast-RCNN Faste ...
分类:
其他好文 时间:
2019-01-18 15:03:25
阅读次数:
223