码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
Spark学习(三): 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 ...
分类:其他好文   时间:2019-05-07 19:50:41    阅读次数:108
Hadoop
Hadoop的起源 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。 2005年,Hadoop作为L ...
分类:其他好文   时间:2019-05-06 11:45:14    阅读次数:170
hadoop-hdfs-环境搭建配置解读
官网:http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/SingleCluster.html Hadoop MapReduce Next Generation - Setting up a Single No ...
分类:其他好文   时间:2019-05-04 10:10:06    阅读次数:260
mapreduce(2)--combiner使用和mr流程解析
一.准备工作 1.需求 在wordcount程序中使用自定义combiner 解析mapreduce的流程 2.环境配置 (1)hadoop为本地模式 (2)pom文件代码如下 <dependencies> <dependency> <groupId>org.apache.hadoop</group ...
分类:其他好文   时间:2019-05-03 16:45:06    阅读次数:250
做大数据工程师需要掌握哪些技能呢?
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。Hadoop工程师用人企业普遍要求掌握以下技术:1、熟悉Linux开发环境,熟悉Shell命令2、熟悉Java、python、scala语言(至少一种)3、具备较丰富的基于Hadoop、MapReduce、Yarn、Storm、Spark、Hive、Hbase、kafka、F
分类:其他好文   时间:2019-05-03 16:24:53    阅读次数:132
使用MapReduce实现两个文件的Join操作
数据结构 customer表 oder表 MAPJOIN 场景:我们模拟一个有一份小表一个大表的场景,customer是那份小表,order是那份大表做法:直接将较小的数据加载到内存中,按照连接的关键字建立索引, 大份数据作为MapTask的输入键值对 map()方法的每次输入都去内存当中直接去匹配 ...
分类:其他好文   时间:2019-05-02 22:59:35    阅读次数:256
大数据学习之MapReduce编程案例一单词计数 10
一:单词计数 1:单词计数总流程图 2:代码实现 1:Map阶段 2:Reduce阶段 3:Driver阶段 4:打包程序提交到集群上运行 命令 (如果jar包没在当前目录下,记得写好路径): hadoop jar wordcount.jar it.dawn.YARNPra.wc_hdfs.Word ...
分类:其他好文   时间:2019-05-02 15:48:13    阅读次数:168
大数据面试题整理
1、fsimage和edit的区别? 2、列举几个配置文件优化? --发挥 3、datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是? 4、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什 ...
分类:其他好文   时间:2019-05-02 11:20:22    阅读次数:136
大数据学习之MapReduce基础与Yarn集群安装09
1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架。 mapre ...
分类:其他好文   时间:2019-05-02 09:39:18    阅读次数:137
Hadoop
Bigdata:结构化数据:约束半结构化数据:非结构化数据:没有元数据;搜索引擎:搜索组件、索引组件蜘蛛程序:存储:分析处理:2003年:TheGoogleFileSystem2004年:MapReduce:SimplifiedDataProcessingOnLargeCluster2006年:BigTable:ADistributedStorageSystemforStructureDataHD
分类:其他好文   时间:2019-05-01 22:37:18    阅读次数:206
4054条   上一页 1 ... 54 55 56 57 58 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!