本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html
我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:
上传到服务器后,解压并查看:
查看Sogou文件内容:
该文件的格式如下所示:
访问时间 \t 用户ID \t 查询词 \t 该URL在返...
从本质上来说,Hadoop就是提供了分布式存储(HDFS)与分布式计算(MapReduce)的服务。...
分类:
其他好文 时间:
2015-01-29 09:27:50
阅读次数:
202
一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Im...
分类:
其他好文 时间:
2015-01-28 22:34:05
阅读次数:
336
分布式文件系统架构GFS、HDFS、TFS、Haystack
分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。
分布式文件系统通常可以作为底层存储,如GFS作为Google bigtable的底层,EBS作为 Amazon ...
分类:
Web程序 时间:
2015-01-28 21:28:07
阅读次数:
577
本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下:
a1.sinks.k1.type=hdfs
a1.sinks.k1.channel=c1
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%m/%d...
分类:
Web程序 时间:
2015-01-28 18:00:15
阅读次数:
1115
写hive 用in
如分时段,分类型,分平台统计点击量
select substr(createtime,12,2) hour,logtype,os_id,count(*)
from wizad_mdm_raw_hdfs raw
where ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') and...
分类:
其他好文 时间:
2015-01-28 17:58:36
阅读次数:
235
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
日志字段格式:
id,ip,url,ref,cookie,time_stamp
把日志文件放到HDFS。仅取了1000行。
hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input
计算PV。
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:
其他好文 时间:
2015-01-28 14:41:15
阅读次数:
421
1、确保Hadoop和Hbase服务已经正常启动了
2、把hbase-site.xml,core-site.xml,hdfs-site.xml配置文件放到Java工程的src目录下
3、引入相关的依赖包
4、Java Client测试访问Hbase集群
package com.hbase.test;
import java.util.ArrayList;
import jav...
分类:
编程语言 时间:
2015-01-28 11:11:09
阅读次数:
509
这次 我们以指定executor-memory参数的方式来启动spark-shell:
启动成功了
在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:
从hdfs上读取文件:
在命令行中返回的MappedRDD,使用toDebugString,可以查看其line...