本文主要内容来自于《Hadoop权威指南》英文版中的Spark章节,能够说是个人的翻译版本号,涵盖了基本的Spark概念。假设想获得更好地阅读体验,能够訪问这里. 安装Spark 首先从spark官网下载稳定的二进制分发版本号,注意与你安装的Hadoop版本号相匹配: wget http://arc ...
分类:
其他好文 时间:
2018-04-11 15:57:48
阅读次数:
221
Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop FileSystem 的简称) 适用范围 超大文件:最新的容量达到PB级 流式数据访问:HDFS的构建思路:一次写入、多次读取时最高效的访问模式 低时间延迟的数据访问不适用HDFS 大量的小文 ...
分类:
其他好文 时间:
2018-04-07 11:28:21
阅读次数:
136
术语: job(作业):客户端需要执行的一个工作单元,包括输入数据、MP程序、配置信息 Hadoop将job分成若干task(任务)来执行,其中包括两类任务:map任务、reduce任务。这些任务在集群的节点上,并通过YARN进行调度 Hadoop将MP输入数据划分成等长的小数据块,成为“输入分片(... ...
分类:
其他好文 时间:
2018-04-07 11:20:30
阅读次数:
171
有句话说的好“大数据胜于好算法” 硬盘存储容量在不断提升的同时,访问速度(硬盘数据读取速度)却没有同步增长;1990年,访问全盘需要5分钟,20年后,需要2.5小时 不同的业务大数据,存储在一套HDFS上,但常常分析工作是在不同时间点进行的,所以彼此之间干扰并不太大 MP每次查询数据需要处理整个数据... ...
分类:
其他好文 时间:
2018-04-06 23:44:45
阅读次数:
209
什么是序列化?之前一直没有太搞明白;今天再看Hadoop权威指南的时候,加深对于序列化的认知。 首先要明白序列化是因为要跨介质;比如网络传输,从内存、硬盘到网络;在比如保存,从内存到硬盘;序列化的目标是二进制;序列化有两层含义,首先是形式是二进制,网络传输以及硬盘存储只能处理二进制格式;其次,序列化 ...
分类:
其他好文 时间:
2018-04-06 18:45:04
阅读次数:
152
No1: Build Variant = Build Type + Product Flavor Build Variant:构建的产物 Build Type:构建的类型 Product Flavor:构建的渠道 No2: Flurry多渠道和友盟多渠道构建 Flurry本身没有渠道的概念,它有Ap ...
分类:
移动开发 时间:
2018-03-24 17:31:48
阅读次数:
283
No1: 指定共享库 No2: android除了标准的sdk,还存在两种库 1)add-on库:位于add-ons目录下,大部分是第三方厂商或者公司开发的 2)optional可选库:位于platforms/android-xx/optional目录下,一般是为了兼容旧版本的API,比如HttpC ...
分类:
移动开发 时间:
2018-03-22 15:29:20
阅读次数:
337
No1: minSdkVersion No2: android代号版本对应表 No3: versionCode-内部版本号 No4: versionName-版本名称 No5: testApplicationId-app的包名 No6: testInstrumentationRunner-配置单元测 ...
分类:
移动开发 时间:
2018-03-21 18:35:12
阅读次数:
248
HDFS的写操作 《HDFS权威指南》图解HDFS写过程 详细文字说明(术语) 1、使用 HDFS 提供的客户端 Client,向远程的 namenode 发起 RPC 请求 2、namenode 会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会 为文件创建一个记录,否则会让客户端 ...
分类:
其他好文 时间:
2018-03-21 14:11:16
阅读次数:
204
No1: 多种方式创建任务 结果 No2: Task参数中Map的可用配置 No3: 多种方式访问任务 结果 注: 任务都是通过TaskContainer创建的,其实TaskContainer就是我们创建任务的集合,在Project中我们可以通过tasks属性访问TaskContainer,所以我们 ...
分类:
其他好文 时间:
2018-03-19 16:53:41
阅读次数:
250