前沿: Hive也采用类SQL的语法, 但其作为数据仓库, 与面向OLTP的传统关系型数据库(Mysql/Oracle)有着天然的差别. 它用于离线的数据计算分析, 而不追求高并发/低延时的应用场景. 最显著的特别是, Hive的数据是Schema On Read, 对数据的写入非常的自由和松散,....
分类:
其他好文 时间:
2014-07-07 09:53:53
阅读次数:
262
HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs...
分类:
其他好文 时间:
2014-07-03 17:10:28
阅读次数:
295
Eclipse+Maven搭建HBase开发环境及HBaseDAO代码示例...
分类:
系统相关 时间:
2014-07-03 16:06:48
阅读次数:
268
早在Spark Submit 2013里就有介绍到Spark SQL,不过更多的是介绍Catalyst查询优化框架。经过一年的开发,在今年Spark Submit 2014上,Databricks宣布放弃Shark 的开发,而转投Spark SQL,理由是Shark继承了Hive太多,优化出现了瓶颈,如图:
今天把Spark最新的代码签了下来,测试了一下:
1、编译Spar...
分类:
数据库 时间:
2014-07-03 16:06:04
阅读次数:
534
我们看HConnection的getTable方法描述:
getTable
HTableInterface getTable(String tableName)
throws IOException
Retrieve an HTableInterface implementation for access to a table....
分类:
其他好文 时间:
2014-07-03 15:53:20
阅读次数:
243
基于zookeeper写了个Leader选举类库demo,场景如下:上图中的Program1..4可以部署在1台server上,也可以部署在多台server上,也可以是一个进程中的多个线程。运行效果:初始化时(4个全开)把第四个(也就是此时的Leader) 关闭后把某个Follower角色的进程关闭...
分类:
其他好文 时间:
2014-07-03 12:34:31
阅读次数:
137
测试环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.61、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应...
分类:
编程语言 时间:
2014-07-03 00:39:24
阅读次数:
316
本章以山寨版Twitter为例介绍HBase Schema设计模式。广义的HBase Schema设计不只包括创建表时指定项,还应该综合考虑Column families/Column qualifier/Cell value/Versions/Rowkey等相关内容。
灵活的Schema&简单的存储视图
Schema设计和数据存储及访问模式关系密切,先回顾下HBase数据模型,有几个要点:...
分类:
其他好文 时间:
2014-07-01 14:35:30
阅读次数:
343
在输出的格式为UTF-8的格式,但是打开CSV文件一直为乱码,后来参考了这里的代码,搞定了乱码问题,原文请参考:http://hbase.iteye.com/blog/1172200 private static void writeBcp( ) throws IOException ...
分类:
编程语言 时间:
2014-07-01 14:16:46
阅读次数:
274