最近升级cdh版本,从4.5 升级到 5.0.0 beta-2
但是升级后,发现/etc/alternatives 路径下的软链接还是只想旧的4.5 版本,而且hadoop环境也是沿用4.5
的版本conf,导致hive不能正常使用,报错为hdfs 的版本不对。 后面使用strace工具查看,发现它...
分类:
其他好文 时间:
2014-06-07 02:44:21
阅读次数:
248
在项目中,我们经常遇到或用到分页,那么在大数据量(百万级以上)下,哪种分页算法效率最优呢?我们不妨用事实说话。测试环境硬件:CPU 酷睿双核T5750
内存:2G软件:Windows server 2003 + Sql server 2005OK,我们首先创建一数据库:data_Test,并在此数据...
分类:
其他好文 时间:
2014-06-07 02:43:09
阅读次数:
330
这么个标题多少有点蛋疼的感觉,两个都是互联网时代的语言,学习成本和执行效率也差不多,之所以会产生这种需求,多半是想在python中引用java的类,例如安卓和hadoop的生态圈,基本是java代码的天下,虽然python大数据有不错的接口,但直接调用java的需求总是有的。这个目前已经有解决方案,...
分类:
编程语言 时间:
2014-06-04 20:52:14
阅读次数:
261
Hadoop2.0是对Hadoop1.0全面升级,诞生了通用的计算框架YARN,很多计算框架或者应用程序不再基于传统的操作系统开发,而是基于YARN这个云操作系统。典型的代表是DAG计算框架Tez,当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本,比如Storm-on-yarn,S...
分类:
其他好文 时间:
2014-06-03 13:09:44
阅读次数:
336
版权全部: zhe-jiang.he@hp.com
严禁转载!1.安装插件准备程序:eclipse-3.3.2(这个版本号的插件仅仅能用这个版本号的eclipse)hadoop-0.20.2-eclipse-plugin.jar
(在hadoop-0.20.2/contrib/eclipse-plu...
分类:
系统相关 时间:
2014-06-03 12:15:46
阅读次数:
414
适配器是Android中的数据与View视图的桥梁,作用就是将数据通过适配器显示到对应的View视图上。工作中,在用ListView做适配器数据时候,有些人肯定碰见过,如何优化效率,但是又出现重复数据的情况,如何避免重复数据而且又能提高ListView大数据量时候的效率呢?,解决方案就是2点:1.
...
分类:
移动开发 时间:
2014-06-03 07:19:16
阅读次数:
300
引子:
在大数据时代,总希望存在一个Key-value存储机制,像HashMap一样在内存中处理大量(千万数量级)的key-value对,以便提高数据查找、修改速度。
所以,我们会想到,Memcached和Redis这两个NoSQL数据库(严格来讲二者都不可以算作数据库)。 1、Memcach...
分类:
其他好文 时间:
2014-05-31 15:35:29
阅读次数:
293
本篇是本人在做一个大数据项目时,对于系统架构的一点总结,如何在保证存储量的情况下,又能保证数据的检索速度。
分类:
其他好文 时间:
2014-05-30 20:34:01
阅读次数:
405
写在前面前文:用python + hadoop streaming 编写分布式程序(一) --
原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题。为了更好地模拟集群环境,我们可以在mapred-...
分类:
编程语言 时间:
2014-05-30 14:56:56
阅读次数:
309
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409