TheBig Data Zoneis presented bySplunk, the maker of
data analysis solutions such asHunk, an analytics tool for Hadoop, and theSplunk
Web Framework.Liv...
分类:
其他好文 时间:
2014-05-08 19:31:55
阅读次数:
596
内联接要应用两个逻辑查询处理步骤:它首先像交叉联接一样,对两个输入表进行笛卡尔积运算;然后根据用户指定的谓词对结果行进行过滤。和交叉联接一样,内联接也有两种标准语法:ANSI
SQL-92:需在两个表名之间指定 INNER JOIN 关键字。INNER 关键字是可选的,因为内联接是默认的联接方式,所...
分类:
其他好文 时间:
2014-05-07 13:29:59
阅读次数:
273
接着上篇中没写完的(http://my.oschina.net/bluesroot/blog/223453),上篇中讲到很多,为完成对一个目录的扫描的频繁的IO操作,我们从单线程到多线程,从CountDownLatch到BlockingQueue,中间不免各种Callable和Future和ExecutorService等等,虽然纷繁,中间有些不免麻烦,但是最终仍紧紧贴着我们的需求和多线程操作这一...
分类:
编程语言 时间:
2014-05-07 11:24:35
阅读次数:
643
集群安装配置Hadoop
集群节点:node4、node5、node6、node7、node8。具体架构:
node4
Namenode,secondnamenode,jobtracker
node5
Datanode,tasktracker
node6
Datanode,tasktracker...
分类:
其他好文 时间:
2014-05-07 02:52:47
阅读次数:
361
老是报物理内存越界,kill
container,然后把yarn.scheduler.minimum-allocation-mb设成2048就好了跟这个yarn.nodemanager.pmem-check-enabled参数应该也有关系在这篇文章中得到启发:http://bise.aliapp.c...
分类:
其他好文 时间:
2014-05-07 02:15:35
阅读次数:
409
import java.io.IOException;import
java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import
org.apache.hadoop.fs.Path;import org.ap...
分类:
其他好文 时间:
2014-05-07 01:06:02
阅读次数:
271
参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介
1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5.
sqoop提供Hbase到关系型数据库中数据导入功能 ...
分类:
其他好文 时间:
2014-05-07 00:35:59
阅读次数:
424
mapreduce数据本地化(核心特征)、无共享。
1 HDFS的设计
为了存储超大文件 流式访问(一次写入多次读取)商用硬件(不需要超豪华的机器)
2 数据快(block)
磁盘一般是512字节 HDFS默认是64M 但与其他文件系统不同的是小于一个块大小的文件不会占用整个块的空间。块为什么设置这么大?(最小化寻址开销)块抽象带来的好处(一个文件的...
分类:
其他好文 时间:
2014-05-06 23:26:24
阅读次数:
519
1. 内连接(Inner
Join)
内连接是最常见的一种连接,它页被称为普通连接,而E.FCodd最早称之为自然连接。
下面是ANSI SQL-92标准
select *
from t_institution i
inner join t_teller t
on i.inst_no = t.inst_no
where i.inst_no = "5801"
其中inn...
分类:
数据库 时间:
2014-05-06 21:38:01
阅读次数:
428