Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。
1.Streaming固定的代码,该代码可以...
分类:
其他好文 时间:
2014-07-29 14:39:08
阅读次数:
340
比特币最近几年非常火爆。发明者中本聪设计了一个特定的算法用于生成(发行)比特币,让各位玩家(矿工)用自己的CPU、显卡,或者更加专业的矿机,通过无聊的并行计算算出比特币的特定密码(挖矿)。为了保证全网比特币按照特定的发行速度递增,并最终无限趋近于上限2100万枚,挖矿难度会根据全网算力进行动态调整。...
分类:
其他好文 时间:
2014-07-23 12:48:16
阅读次数:
269
本文以Catalyst源代码的角度解析Catalyst的解析器如何解析SQL的生成LogicalPlan的。...
分类:
数据库 时间:
2014-07-19 11:15:13
阅读次数:
389
JNDI 全称:Java Name and Directory Interface
,中文名:Java命名和目录服务接口
用途:
将【名称】和【位置|服务|信息|资源】绑定,从而通过【名称】即可访问【位置|服务|信息|资源】,进而在分布式计算环境中获取共享的【组件和资源】
功能:
1.将【名称】和【位置|服务|信息|资源】绑定
2.通过【名称】对【位置|服务|信息|资源】进...
分类:
其他好文 时间:
2014-07-18 12:33:44
阅读次数:
221
先说分布式计算和并行计算的异同:解决对象上:都是大任务化为小任务,这是他们共同之处。 但是分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结....
分类:
其他好文 时间:
2014-07-14 15:03:29
阅读次数:
243
Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。
分类:
其他好文 时间:
2014-07-13 20:29:26
阅读次数:
353
从源代码的角度来看一下Spark SQL的核心执行流程吧...
分类:
数据库 时间:
2014-07-12 21:07:32
阅读次数:
299
志愿计算,是一种利用计算机闲置资源參与公益类分布式计算的方法。志愿计算的框架:1 Folding@homeFolding@home是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算project。蛋白质是一个生物体系的网络基础,它们是一个个纳米级计算机。在蛋白质实现它的生物功能之前,它...
分类:
其他好文 时间:
2014-07-12 14:57:27
阅读次数:
315
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。...
分类:
数据库 时间:
2014-07-10 21:14:38
阅读次数:
737
Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下Dryad的理论基础...
分类:
其他好文 时间:
2014-07-09 11:29:28
阅读次数:
238