Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409
一、相关概念1、SOA(service oriented
architecture)面向服务的架构。2、SCA(service component
architecture,服务构建架构)提供了一种编程模型,可以支持基于SOA的应用程序实现。3、Tuscany是一个基于SCA的开源框架。4、Axis...
分类:
Web程序 时间:
2014-05-30 03:33:26
阅读次数:
300
http://dongxicheng.org/mapreduce/hadoop-join-two-tables/http://dongxicheng.org/mapreduce/run-hadoop-job-problems/http://dongxicheng.org/mapreduce/hdfs...
分类:
其他好文 时间:
2014-05-29 12:27:09
阅读次数:
260
在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers,
Reduces, Combiners, Partitioners,和 sorting。如下图所示。...
分类:
其他好文 时间:
2014-05-28 16:54:17
阅读次数:
342
System.Transactions 命名空间中除了上一节中提到的基于 Transaction
类的显式编程模型,还提供使用 TransactionScope 类的隐式编程模型,它与显示编程模型相比,更加方便简单,它也是MSDN中建议使用的编程模型。
下面,我们基于TransactionScope...
分类:
其他好文 时间:
2014-05-26 20:19:42
阅读次数:
312
Google File System中文版Google Bigtable中文版Google
MapReduce中文版
分类:
其他好文 时间:
2014-05-26 19:48:38
阅读次数:
184
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239
对于开源的东东,尤其是刚出来不久,我觉得最好的学习方式就是可以看源码和doc,测试它的例子
为了方便查看源码,关联导入源码的项目
block数据块,在配置文件hdfs-default.xml中可以查看到,记住要修改不是在这里
block文件存储块是最基本的单位
查看block存放位置,配置文件中查看
如果文件大于64M会占两个块,meta文件是校验...
分类:
其他好文 时间:
2014-05-26 05:30:58
阅读次数:
227
本文是对基于事件的异步编程模型(EAP)典型实现BackgroundWorker实现原理的分析,提高大家的功力。需要对线程的概念有一定的了解。
分类:
其他好文 时间:
2014-05-25 15:02:30
阅读次数:
239
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.参会有感 首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。 还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭...
分类:
其他好文 时间:
2014-05-25 00:59:08
阅读次数:
458