用例场景: 定时从远程多台机器上下载文件存入HDFS中。一开始采用shell 一对一的方式实现,但对于由于网络或者其他原因造成下载失败的任务无法进行重试,且如果某台agent机器down机,将导致它对应的所有下载服务中断,重新提交下载任务也极为麻烦。故考虑采用redis队列来实现与机器无关的job提...
分类:
编程语言 时间:
2015-09-17 15:04:52
阅读次数:
294
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错...
分类:
其他好文 时间:
2015-09-16 19:32:25
阅读次数:
256
今天来了解下scala的泛型先让我们看下这段代码 class Triple[F,S,T](val first:F,val second: S,val third: T) val triple = new Triple("Spark",3,3.1415) val bigData = new Tri.....
分类:
其他好文 时间:
2015-09-04 18:23:11
阅读次数:
184
本文简要介绍如何用C#配合hbase来做BigData的基本操作。
分类:
其他好文 时间:
2015-08-21 19:16:21
阅读次数:
179
package com.leegh.dataset/** * @author Guohui Li */object HelloList { def main(args: Array[String]): Unit = { val bigData = List("Hadoop", "Spark"...
分类:
编程语言 时间:
2015-08-16 09:21:02
阅读次数:
119
各节点执行如下操作(或在一个节点上操作完后 scp 到其它节点): 1、 解压spark安装程序到程序目录/bigdata/soft/spark-1.4.1,约定此目录为$SPARK_HOME ????????tar –zxvf spark-1.4-bin-hadoop2.6.ta...
分类:
其他好文 时间:
2015-08-12 19:58:17
阅读次数:
750
1.Bloom Filter
由一个很长的二进制向量和一系列hash函数组成
优点:可以减少IO操作,省空间
缺点:不支持删除,有误判
如果要支持删除操作: 改成计数布隆过滤器
2.SkipList(跳表)
核心思路: 由多层组成,每层都是一个有序链表,最底层包含所有元素,元素数逐层递减。每个节点包含两个指针,一个->,一个向下。
并行编程情况下可以用...
分类:
编程语言 时间:
2015-08-10 14:53:22
阅读次数:
225
创建测试表:mysql> create table bigdata (id int,name char(2));创建存储过程:mysql> delimiter //mysql> create procedure rand_data(in num int)-> begin-> declare str ...
分类:
数据库 时间:
2015-07-23 13:38:51
阅读次数:
342
第一次测试执行下面的语句时发生如下错误:bigdata里面有100万条数据mysql> select count(*) from (select distinct(id) from bigdata) as total;ERROR 1317 (70100): Query execution was i...
分类:
数据库 时间:
2015-07-23 13:32:04
阅读次数:
138
阿里接到一个电话说练习和比赛智能二选一, 真的很伤心, 练习之前积极老龄化的权利. 要总结ODPS下一个 写map / reduce 并进行购买预测过程. 首先这里的hadoop输入输出都是表的形式, 我们须要一张输入表和一张输出表. 输入表为 提供的 t_alibaba_bigdata_use.....
分类:
其他好文 时间:
2015-07-05 13:44:51
阅读次数:
162