Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地 解决大数据领域的各种计算任务。 Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。 Spark的速度比MapReduce快:MR计算模型太死板 ...
分类:
其他好文 时间:
2017-12-21 18:18:57
阅读次数:
192
== 1 Hbase==Hadoop Database 是Apache的Hadoop项目的子项目。 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 适合于非结构化数据存储的数据库。 高可靠 ...
分类:
其他好文 时间:
2017-12-11 21:14:06
阅读次数:
202
def translate_rna(sequence): # 密码子表 codonTable = { 'AUA': 'I', 'AUC': 'I', 'AUU': 'I', 'AUG': 'M', 'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACU': 'T', 'AA... ...
分类:
编程语言 时间:
2017-12-11 16:05:39
阅读次数:
264
Hadoop集群支持三种运行模式:单机模式、伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式 默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合开始时的调试工作。在eclipse中开发用的就是单机模式,这时不用HDFS。 好的如果没有安装JDK ...
分类:
系统相关 时间:
2017-12-09 18:03:40
阅读次数:
351
#!/bin/bash#@author:feiyuanxing 【既然笨到家,就要努力到家】#@date:2017-01-05#@E-Mail:feiyuanxing@gmail.com#@TARGET:一键安装hadoop 2.7.1 centos 64位 #@CopyRight:本脚本遵守 未来 ...
分类:
其他好文 时间:
2017-12-08 23:13:07
阅读次数:
185
hadoop && pig Hadoop 最近需要用到hadoop操作,发现hadoop的官网真的良心的,没那么多废话,直接说明白怎么用,而且还是中文的,简单粗暴啊!!! "hadoop document" 在mapreduce中,map的输出是具有自动排序功能的!!! pig 另外还有一个pig语 ...
分类:
数据库 时间:
2017-12-06 14:24:05
阅读次数:
158
第一步:移动视图引擎实现 第二步:移动视图辅助工具 第三步:移动视图引擎接入以及路由配置 ...
分类:
移动开发 时间:
2017-11-30 13:32:03
阅读次数:
220
核心思想:预计算。 对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,并存在HBase中,供查询时直接访问 将高复杂度的聚合运算、多表连接……操作转换成对预计算结果的查询。决定了Kylin拥有很好的快速查询、高并发能力 理论基础:空间换时间 Cuboid:Kylin中将维度任意组合成 ...
分类:
其他好文 时间:
2017-11-25 17:30:44
阅读次数:
219
编写map程序 编写reduce程序 编写main函数 把wordcount.txt放在hdfs的/dyh/data/input/目录下 执行:hadoop jar hdfs.jar com.cvicse.ump.hadoop.mapreduce.WordCount /dyh/data/input/ ...
分类:
其他好文 时间:
2017-11-22 13:05:27
阅读次数:
185
根据一些公开资料整理,也许有失偏颇,仅供参考: 1.第一代 Hadoop 承载的 MapReduce 2.第二代 支持 DAG(有向无环图) 的框架: Tez 、 Oozie,主要还是还是批处理任务 3.第三代 Job 内部的 DAG(有向无环图) 支持(不跨越 Job),以及强调的实时计算:Spa ...
分类:
其他好文 时间:
2017-11-13 00:15:18
阅读次数:
242