Hive是一个基于hadoop的数据仓库工具。Hive的查询语言是hive ql。一种类似sql的语言。
Hive支持的数据类型有
1整形:
Tinyint 1字节整型
Smallint 2字节整型
Bigint 8字节整型
2.布尔型
Boolean
3浮点型
Float
Double
4字符串类型
String
5.符合类型
...
分类:
其他好文 时间:
2014-07-22 23:03:34
阅读次数:
393
1.dns服务器目的
名字转化为ip
2. DNS 体系结构是分层的分布式的数据库和一组关联的协议定义
3.
dns层次结构
4.DNS 域名称类型
名称类型
说明
示例
根域
这是表示未命名的等级; 目录树的顶部它有时显示为两个空引号 (""),表示空值。 DNS 域名中使用时,它规定由尾部句点 (.) 来指定名称位于...
分类:
其他好文 时间:
2014-07-22 23:02:13
阅读次数:
253
在AWS里用Elastic Map Reduce 开一个Cluster然后登陆master node并编译以下程序:import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
...
分类:
其他好文 时间:
2014-07-22 23:01:32
阅读次数:
405
Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢?
读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。...
分类:
其他好文 时间:
2014-05-02 23:22:14
阅读次数:
450
在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...
分类:
其他好文 时间:
2014-05-02 19:56:21
阅读次数:
367
Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。实验环境:OS:Centos
6.5 x64, Soft:Hadoop 1.2.11、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hado...
分类:
Web程序 时间:
2014-05-02 12:17:15
阅读次数:
1290
DNS 解析是高性能网络爬虫的瓶颈,主要是因为:1.
由于域名服务的分布式的特性,DNS解析可能需要多次的请求转发,有时需要几秒甚至更长的时间来解析出相应的IP 地址。2.
现有的标准库对DNS解析的实现是同步的。JAVA中InetAddress.getByName是线程阻塞的。并且JAVA中实现的...
分类:
其他好文 时间:
2014-05-02 00:20:56
阅读次数:
349
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。
SimRank++的矩阵形式的计算公式为:
算法主要步骤如下:
Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;
Step2:...
分类:
其他好文 时间:
2014-05-01 08:21:53
阅读次数:
527
三层一般分为两类:物理上的三层和逻辑上的三层架构
物理三层架构是以逻辑的三层架构为基础的,如果没有了逻辑的三层,就根本谈不上物理三层架构的部署。
什么是物理三层架构呢?
从简单了说就是每一层都分别做成一个组件,如业务逻辑组件,业务实体组件,数据访问组件等。在到复杂一些就是构建分布式系统,例如将业务逻辑层与数据访问分别部署在不同的服务器上。
我们这里讲的主要是逻辑上的三层架构。
三层基础知...
分类:
其他好文 时间:
2014-04-30 22:45:38
阅读次数:
296
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。
flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。
目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。
Github...
分类:
其他好文 时间:
2014-04-30 22:15:39
阅读次数:
360