概括1.
创建、删除及启用禁用表、添加列等都需用到HBaseAdmin,另外需要注意删除,添加列等操作都需要禁用表2.
表中添加数据,查询等都是和HTable相关,如果是多线程的情况下注意用HTablePool3. 插入数据使用Put,可以单行添加也可批量添加4.
查询数据需使用Get,Result...
分类:
编程语言 时间:
2014-05-28 02:19:21
阅读次数:
327
相关知识创建表插入数据删除等见:http://www.cnblogs.com/wishyouhappy/p/3735077.htmlHBase
API简介见:http://www.cnblogs.com/wishyouhappy/p/3753347.html按行、列簇等查询package
wish....
这一章讲hbase的缓存机制,这里面涉及的内容也是比较多,呵呵,我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存。之前在讲put的时候,put是被添加到Store里面,这个Store是个接口,实现是在HStore里面,MemStore其实是它底下的小子。那它和Region
Server...
分类:
其他好文 时间:
2014-05-27 00:16:07
阅读次数:
376
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache
phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:
数据库 时间:
2014-05-26 22:02:35
阅读次数:
322
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
这是这个系列的最后一篇了,实在没精力写了,本来还想写一下hbck的,这个东西很常用,当hbase的Meta表出现错误的时候,它能够帮助我们进行修复,无奈看到3000多行的代码时,退却了,原谅我这点自私的想法吧。在讲《Get、Scan在服务端是如何处理?》当中的nextInternal流程,它的第一步...
分类:
其他好文 时间:
2014-05-26 19:44:29
阅读次数:
254
一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase
二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL
2.3 HBase中的数据导出到mysql
目前没有直接的命令将HBase中的数据导出到MySQL,但可以先将HBase中的数据导出到HDFS中,再将数据导出到MySQL。
三、使用Sqoop将Orac...
分类:
数据库 时间:
2014-05-26 05:48:46
阅读次数:
304
先上一张图讲一下Compaction和Split的关系,这样会比较直观一些。Compaction把多个MemStore
flush出来的StoreFile合并成一个文件,而Split则是把过大的文件Split成两个。之前在Delete的时候,我们知道它其实并没有真正删除数据的,那总不能一直不删吧,下...
分类:
其他好文 时间:
2014-05-25 18:41:37
阅读次数:
415
1.需求 使用hvie
server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web
UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人....
分类:
编程语言 时间:
2014-05-24 14:11:12
阅读次数:
406
Hive中小表与大表关联(join)的性能分析【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到...
分类:
其他好文 时间:
2014-05-24 08:58:53
阅读次数:
531