PHPExcel下载地址:http://phpexcel.codeplex.com/导入PHPExcel.php或者其他文件require_once 'PHPExcel.php';////require_once'PHPExcel/Writer/Excel5.php'; // 用于其他低版本xls/...
分类:
Web程序 时间:
2014-07-19 17:07:05
阅读次数:
273
hive中有些关键字限制,因此有些字段名称在mysql中可用,但是到了hive就不行。比如order必须改成order1, 下面列出了我们发现的一些不能在hive中使用的字段名称order => order1sort => sort1reduce => reduce1cast => cast1directory => directory1...
分类:
数据库 时间:
2014-07-19 11:33:04
阅读次数:
263
是针对单个作业,针对本job再怎么优化也不会影响到其他job;Hadoop的负载主要有两部分:CPU负载和IO负载;问题:机器io开销很大,但是机器的cpu开销较小,另外map输出文件也较大,怎么办?解决办法:通过设置map的中间输出进行压缩就可以了,这个不会影响最终reduce的输出。集群中的机器...
分类:
其他好文 时间:
2014-07-18 20:29:09
阅读次数:
384
1.采用第三方控件JXL实现try { //实例化一个工作簿对象 Workbook workBook=Workbook.getWorkbook(new File("F://qzlx.xls")); //获取该工作...
分类:
数据库 时间:
2014-07-18 20:19:33
阅读次数:
256
合理建表分区有效提高查询速度。重要数据采用外部表存储,CREATE EXTERNAL TABLE,数据和表只是一个location的关联,drop表后数据不会丢失;内部表也叫托管表,drop表后数据丢失;所以重要数据的表不能采用内部表的方式存储。在全天的数据里查询某个时段的数据,性能很低效-----...
分类:
其他好文 时间:
2014-07-18 20:16:47
阅读次数:
298
从hive将数据导出到mysqlhttp://abloz.com2012.7.20author:周海汉在上一篇文章《用sqoop进行mysql和hdfs系统间的数据互导》中,提到sqoop可以让RDBMS和HDFS之间互导数据,并且也支持从mysql中导入到HBase,但从HBase直接导入mysq...
分类:
数据库 时间:
2014-07-18 20:00:07
阅读次数:
482
常见的压缩有:对中间结果压缩、对输出结果压缩。压缩对比:算法压缩前/压缩后压缩速度解压速度GZIP13.4%21MB/s118 MB/sLZO20.5%135 MB/s410 MB/sSnappy22.2%172 MB/s409 MB/sSnappy介绍:Snappy 网站:http://code....
分类:
其他好文 时间:
2014-07-18 16:12:24
阅读次数:
352
当hive在执行大数据量的统计查询语句时,经常会出现下面OOM错误,具体错误提示如下:Possible error: Out of memory due to hash maps used in map-side aggregation.Solution: Currently hive.map.ag...
分类:
其他好文 时间:
2014-07-18 11:37:23
阅读次数:
305
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:
其他好文 时间:
2014-07-18 00:23:59
阅读次数:
265
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301