码迷,mamicode.com
首页 >  
搜索关键字:hdfs dfsadmin    ( 4996个结果
Spark API编程动手实战-06-对搜狗日志文件深入实战操作
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html 我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示: 上传到服务器后,解压并查看: 查看Sogou文件内容: 该文件的格式如下所示: 访问时间 \t 用户ID \t 查询词 \t 该URL在返...
分类:Windows程序   时间:2015-01-29 14:40:30    阅读次数:192
Hadoop(一):数据文件
从本质上来说,Hadoop就是提供了分布式存储(HDFS)与分布式计算(MapReduce)的服务。...
分类:其他好文   时间:2015-01-29 09:27:50    阅读次数:202
如何安装使用Impala
一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Im...
分类:其他好文   时间:2015-01-28 22:34:05    阅读次数:336
分布式文件系统架构GFS、HDFS、TFS、Haystack
分布式文件系统架构GFS、HDFS、TFS、Haystack 分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。 分布式文件系统通常可以作为底层存储,如GFS作为Google bigtable的底层,EBS作为 Amazon ...
分类:Web程序   时间:2015-01-28 21:28:07    阅读次数:577
【Flume】flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?
本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.hdfs.useLocalTimeStamp=true a1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%m/%d...
分类:Web程序   时间:2015-01-28 18:00:15    阅读次数:1115
hive支持in用法是从0.3.2版本后
写hive 用in 如分时段,分类型,分平台统计点击量 select substr(createtime,12,2) hour,logtype,os_id,count(*)  from  wizad_mdm_raw_hdfs raw where ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') and...
分类:其他好文   时间:2015-01-28 17:58:36    阅读次数:235
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cach
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
分类:Windows程序   时间:2015-01-28 14:50:25    阅读次数:264
使用Spark计算PV、UV
日志字段格式: id,ip,url,ref,cookie,time_stamp 把日志文件放到HDFS。仅取了1000行。 hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input 计算PV。 scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:其他好文   时间:2015-01-28 14:41:15    阅读次数:421
JavaAPI访问Hadoop2.2HA的配置下访问Hbase0.96.2
1、确保Hadoop和Hbase服务已经正常启动了 2、把hbase-site.xml,core-site.xml,hdfs-site.xml配置文件放到Java工程的src目录下 3、引入相关的依赖包 4、Java Client测试访问Hbase集群 package com.hbase.test; import java.util.ArrayList; import jav...
分类:编程语言   时间:2015-01-28 11:11:09    阅读次数:509
Spark API编程动手实战-05-spark文件操作和debug
这次 我们以指定executor-memory参数的方式来启动spark-shell: 启动成功了 在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令行中返回的MappedRDD,使用toDebugString,可以查看其line...
分类:Windows程序   时间:2015-01-27 16:31:20    阅读次数:239
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!