搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

update cdh version ，but cdh use old conf ，problem solve

最近升级cdh版本，从4.5 升级到 5.0.0 beta-2 但是升级后，发现/etc/alternatives 路径下的软链接还是只想旧的4.5 版本，而且hadoop环境也是沿用4.5 的版本conf，导致hive不能正常使用，报错为hdfs 的版本不对。后面使用strace工具查看，发现它...

分类：其他好文时间：2014-06-07 02:44:21 阅读次数：248

大数据量分页存储过程效率测试附代码

在项目中，我们经常遇到或用到分页，那么在大数据量（百万级以上）下，哪种分页算法效率最优呢？我们不妨用事实说话。测试环境硬件：CPU 酷睿双核T5750 内存：2G软件:Windows server 2003 + Sql server 2005OK,我们首先创建一数据库：data_Test,并在此数据...

分类：其他好文时间：2014-06-07 02:43:09 阅读次数：330

python调用java

这么个标题多少有点蛋疼的感觉，两个都是互联网时代的语言，学习成本和执行效率也差不多，之所以会产生这种需求，多半是想在python中引用java的类，例如安卓和hadoop的生态圈，基本是java代码的天下，虽然python大数据有不错的接口，但直接调用java的需求总是有的。这个目前已经有解决方案，...

分类：编程语言时间：2014-06-04 20:52:14 阅读次数：261

Hadoop 2.0安装以及不停集群加datanode

Hadoop2.0是对Hadoop1.0全面升级，诞生了通用的计算框架YARN，很多计算框架或者应用程序不再基于传统的操作系统开发，而是基于YARN这个云操作系统。典型的代表是DAG计算框架Tez，当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本，比如Storm-on-yarn，S...

分类：其他好文时间：2014-06-03 13:09:44 阅读次数：336

在Eclipse中执行、配置Hadoop

版权全部： zhe-jiang.he@hp.com 严禁转载！1.安装插件准备程序：eclipse-3.3.2（这个版本号的插件仅仅能用这个版本号的eclipse）hadoop-0.20.2-eclipse-plugin.jar （在hadoop-0.20.2/contrib/eclipse-plu...

分类：系统相关时间：2014-06-03 12:15:46 阅读次数：414

Android开发之适配器-ListView适配器的重复数据

适配器是Android中的数据与View视图的桥梁，作用就是将数据通过适配器显示到对应的View视图上。工作中，在用ListView做适配器数据时候，有些人肯定碰见过，如何优化效率，但是又出现重复数据的情况，如何避免重复数据而且又能提高ListView大数据量时候的效率呢？，解决方案就是2点：1. ...

分类：移动开发时间：2014-06-03 07:19:16 阅读次数：300

Redis VS Memcached 转载

引子：在大数据时代，总希望存在一个Key-value存储机制，像HashMap一样在内存中处理大量（千万数量级）的key-value对，以便提高数据查找、修改速度。所以，我们会想到，Memcached和Redis这两个NoSQL数据库（严格来讲二者都不可以算作数据库）。 1、Memcach...

分类：其他好文时间：2014-05-31 15:35:29 阅读次数：293

Solr与HBase架构设计

本篇是本人在做一个大数据项目时，对于系统架构的一点总结，如何在保证存储量的情况下，又能保证数据的检索速度。

分类：其他好文时间：2014-05-30 20:34:01 阅读次数：405

用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控

写在前面前文：用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试为了方便，这篇文章里的例子均为伪分布式运行，一般来说只要集群配置得当，在伪分布式下能够运行的程序，在真实集群上也不会有什么问题。为了更好地模拟集群环境，我们可以在mapred-...

分类：编程语言时间：2014-05-30 14:56:56 阅读次数：309

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块，这一部分是用Hadoop中MapRed...

分类：其他好文时间：2014-05-30 14:23:07 阅读次数：409

共29965条上一页 1 ... 2956 2957 2958 2959 2960 ... 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)