分布式文件系统架构GFS、HDFS、TFS、Haystack
分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。
分布式文件系统通常可以作为底层存储,如GFS作为Google bigtable的底层,EBS作为 Amazon ...
分类:
Web程序 时间:
2015-01-28 21:28:07
阅读次数:
577
在工程中导入XMPP第三库时,出现link错误,错误如下: Undefined symbols for architecture i386: ? "_iconv", referenced from: ? ? ? _mem_cd_iconv in libidn.a(striconv.o) ? ? ? _str_cd_iconv in l...
分类:
移动开发 时间:
2015-01-28 19:59:10
阅读次数:
292
本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下:
a1.sinks.k1.type=hdfs
a1.sinks.k1.channel=c1
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%m/%d...
分类:
Web程序 时间:
2015-01-28 18:00:15
阅读次数:
1115
写hive 用in
如分时段,分类型,分平台统计点击量
select substr(createtime,12,2) hour,logtype,os_id,count(*)
from wizad_mdm_raw_hdfs raw
where ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') and...
分类:
其他好文 时间:
2015-01-28 17:58:36
阅读次数:
235
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
日志字段格式:
id,ip,url,ref,cookie,time_stamp
把日志文件放到HDFS。仅取了1000行。
hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input
计算PV。
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:
其他好文 时间:
2015-01-28 14:41:15
阅读次数:
421
1、确保Hadoop和Hbase服务已经正常启动了
2、把hbase-site.xml,core-site.xml,hdfs-site.xml配置文件放到Java工程的src目录下
3、引入相关的依赖包
4、Java Client测试访问Hbase集群
package com.hbase.test;
import java.util.ArrayList;
import jav...
分类:
编程语言 时间:
2015-01-28 11:11:09
阅读次数:
509
The information below comes from a number of sources, including my own experiments with the Android IPC and some disparate internet sources.
The overall architecture of the Android IPC system is sh...
分类:
其他好文 时间:
2015-01-27 18:32:24
阅读次数:
217
先看一下原理性的文章:http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/,http://jerryshao.me/architecture/2013/10/08/spark-storage-module...
分类:
其他好文 时间:
2015-01-27 17:49:18
阅读次数:
337
这次 我们以指定executor-memory参数的方式来启动spark-shell:
启动成功了
在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:
从hdfs上读取文件:
在命令行中返回的MappedRDD,使用toDebugString,可以查看其line...