经过前几天的学习,基本上能够小试牛刀编写一些小程序玩一玩了,在此之前做几项准备工作明白我要用hadoop干什么大体学习一下mapreduceubuntu重新启动后,再启动hadoop会报连接异常的问题答:数据提炼、探索数据、挖掘数据map=切碎,reduce=合并重新启动后会清空tmp目录,默认na...
1 package cn.hadoop.fs; 2 3 import
java.io.IOException; 4 import java.io.InputStream; 5 import java.net.URI; 6
import java.net.URISyntaxExcept...
分类:
编程语言 时间:
2014-06-02 01:40:57
阅读次数:
398
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on
yarn功能我居然跑通了。但是最最重要的就是多了一个Spark
SQL的功能,它能对RDD进行Sql操作,目前它只是一个alpha版本,喜欢尝鲜的同志们进来看看吧,下面是它的官网的翻译。Spa...
分类:
数据库 时间:
2014-06-02 01:27:13
阅读次数:
389
前段时间看了下scala做了下笔记,为后续看spark做点准备,笔记内容见图片。...
分类:
其他好文 时间:
2014-06-01 15:35:40
阅读次数:
182
本节讲的是并查集的第一种实现方法,这种方法查找操作开销很小而合并操作开销比较大。
数据结构
假设有N个节点,那么该算法的数据结构就是一个包含N个整数的数组id[]。
判断操作
判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致。
合并操作
合并节点p和节点q就是将id数组中所有的id[...
分类:
其他好文 时间:
2014-06-01 14:55:21
阅读次数:
202
本节讲的是并查集的另外一种实现方法。这种方法的合并操作开销很小,但是查找操作开销很大。
数据结构
这种算法的数据结构和快速查找方法的数据结构是一样的,也是N个整数组成的数组。
数组中每个元素id[i]的含义是指i的上级是id[i]。
根节点
一个节点的根节点就是id[id[id[...id[i]....]]],一直循...
分类:
其他好文 时间:
2014-06-01 14:52:52
阅读次数:
225
写在前面一:
本文总结基于HBase的SQL查询系统——Salesforce phoenix
写在前面二:
环境说明:
一、什么是Phoenix
摘自官网:
Phoenix是一个提供hbase的sql操作的框架,Phoenix是构建在HBase之上的一个SQL中间层。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JD...
分类:
数据库 时间:
2014-06-01 14:05:11
阅读次数:
403
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:
编程语言 时间:
2014-06-01 13:47:42
阅读次数:
328
1. 概述2. 文件操作2.1上传本地文件到hadoop fs2.2 在hadoop
fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3
读取某个目录下的所有文件4. 参考资料接代码下载. 概述hado...
分类:
编程语言 时间:
2014-06-01 12:03:51
阅读次数:
364
就在昨天,北京时间5月30日20点多。Spark 1.0.0终于发布了:Spark 1.0.0 released
根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide
个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛?
这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net...
分类:
其他好文 时间:
2014-06-01 08:55:43
阅读次数:
460