搜索关键字：hdfs dfsadmin，搜索到4996个结果！码迷,mamicode.com！

Spark API编程动手实战-06-对搜狗日志文件深入实战操作

本节中所用到的内容是来自搜狗实验室，网址为：http://www.sogou.com/labs/dl/q.html 我们使用的是迷你版本的tar.gz格式的文件，其大小为87K，下载后如下所示：上传到服务器后，解压并查看：查看Sogou文件内容：该文件的格式如下所示：访问时间 \t 用户ID \t 查询词 \t 该URL在返...

分类：Windows程序时间：2015-01-29 14:40:30 阅读次数：192

Hadoop（一）：数据文件

从本质上来说，Hadoop就是提供了分布式存储（HDFS）与分布式计算（MapReduce）的服务。...

分类：其他好文时间：2015-01-29 09:27:50 阅读次数：202

如何安装使用Impala

一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS，HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）。Im...

分类：其他好文时间：2015-01-28 22:34:05 阅读次数：336

分布式文件系统架构GFS、HDFS、TFS、Haystack

分布式文件系统架构GFS、HDFS、TFS、Haystack 分布式文件系统很多，包括GFS，HDFS，淘宝开源的TFS，Tencent用于相册存储的TFS (Tencent FS，为了便于区别，后续称为QFS)，以及Facebook Haystack。分布式文件系统通常可以作为底层存储，如GFS作为Google bigtable的底层，EBS作为 Amazon ...

分类：Web程序时间：2015-01-28 21:28:07 阅读次数：577

【Flume】flume中sink到hdfs，文件系统频繁产生文件，文件滚动配置不起作用？

本人在测试hdfs的sink，发现sink端的文件滚动配置项起不到任何作用，配置如下： a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.hdfs.useLocalTimeStamp=true a1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%m/%d...

分类：Web程序时间：2015-01-28 18:00:15 阅读次数：1115

hive支持in用法是从0.3.2版本后

写hive 用in 如分时段，分类型，分平台统计点击量 select substr(createtime,12,2) hour,logtype,os_id,count(*) from wizad_mdm_raw_hdfs raw where ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') and...

分类：其他好文时间：2015-01-28 17:58:36 阅读次数：235

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cach

操作HDFS：先要保证HDFS启动了：启动spark集群：以spark-shell运行在spark集群上：查看下之前上传到HDFS上的”LICENSE.txt“文件：用spark读取这个文件：使用count统计该文件的行数： ?我们可以看到count 耗...

分类：Windows程序时间：2015-01-28 14:50:25 阅读次数：264

使用Spark计算PV、UV

日志字段格式： id,ip,url,ref,cookie,time_stamp 把日志文件放到HDFS。仅取了1000行。 hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input 计算PV。 scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...

分类：其他好文时间：2015-01-28 14:41:15 阅读次数：421

JavaAPI访问Hadoop2.2HA的配置下访问Hbase0.96.2

1、确保Hadoop和Hbase服务已经正常启动了 2、把hbase-site.xml,core-site.xml,hdfs-site.xml配置文件放到Java工程的src目录下 3、引入相关的依赖包 4、Java Client测试访问Hbase集群 package com.hbase.test; import java.util.ArrayList; import jav...

分类：编程语言时间：2015-01-28 11:11:09 阅读次数：509

Spark API编程动手实战-05-spark文件操作和debug

这次我们以指定executor-memory参数的方式来启动spark-shell：启动成功了在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小，启动成功后参看web页面：从hdfs上读取文件：在命令行中返回的MappedRDD，使用toDebugString，可以查看其line...

分类：Windows程序时间：2015-01-27 16:31:20 阅读次数：239

共4996条上一页 1 ... 432 433 434 435 436 ... 500 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)