典型大数据计算模式与系统
典型大数据计算模式
典型系统
大数据查询分析计算
HBase,Hive,Cassandra,Impala,Shark,Hana等
批处理计算
Hadoop MapReduce,Spark等
流式计算
Scribe,Flume,Storm,S4, Spark S...
分类:
其他好文 时间:
2015-01-13 21:33:30
阅读次数:
382
由于系统中大量使用GUID作为主键,导致数据文件大,数据查询速度慢。意向转为Int主键。先查看下单表测试GUID和Int分别作为主键的结果。测试条件如下:AMD E1-1200 APU 1.4G 2GRam 100Lan, 250GB HDMysql 5.5,innodb_buffer_pool_s...
分类:
数据库 时间:
2014-12-03 20:48:49
阅读次数:
327
Facebook Bigdata - Presto升级到0.80。本次升级主要是支持Hive ORC读取器,提供了Cassandra 2.1.0驱动支持,还提供了对大数据查询的试验性支持。...
分类:
其他好文 时间:
2014-11-05 14:49:30
阅读次数:
255
上周末,帮朋友处理了一个关于大数据的查询与导出问题,整理一下,在此记录一下用以备忘,同时也为有类似需要的朋友提供一个参考. 背景: 数据库服务使用: SqlServer2008 ; 查询的流水表总数据量约在 800W 条左右 ; 需要展示的字段需要从流水表+基础资料表中 导出需要 加载指定模板 ; ...
分类:
其他好文 时间:
2014-08-13 18:01:47
阅读次数:
294
1. Impala架构 Impala是Cloudera在受到Google的Dremel启示下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coord...
分类:
其他好文 时间:
2014-08-09 15:39:48
阅读次数:
451
1、对于像状态之类的列,不是很多的,就可以加位图索引,对于唯一的列,就加唯一索引,其余的创建普通索引。2、尽量不要使用select * 这样的查询,指定需要查询的列。3、使用hits select /*+index(索引名称) index(索引名称)*/ supply_id from CSS_SUP...
分类:
数据库 时间:
2014-07-31 19:56:07
阅读次数:
335
1. Impala架构
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:
其他好文 时间:
2014-06-16 14:42:11
阅读次数:
251
The following scripts can be used to check for
huge line numbers:-- PO Requisitionsselect * from PO_REQUISITION_LINES_ALL where
LINE_NUM > 1000000000;...
分类:
数据库 时间:
2014-06-12 09:41:27
阅读次数:
295