https://github.com/zhuyi10/hadoop_data_analysis跟大家交流一下我写的数据分析工具用hadoop streaming执行python写的mapper, reducer目前只实现了一些简单的分析功能希望大家多提意见
分类:
编程语言 时间:
2014-12-24 09:52:18
阅读次数:
144
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据,则MapReduce为海量的数据提供了计算。Hadoop 容易开发和运行处理大...
分类:
其他好文 时间:
2014-12-19 10:07:54
阅读次数:
307
object LogicHandle { def main(args: Array[String]) { //添加这个不会报执行错误 val path = new File(".").getCanonicalPath() System.getProperties().put("h...
分类:
Web程序 时间:
2014-12-18 20:32:51
阅读次数:
255
如何做集成,其实特别简单,网上其实就是教程。http://blog.csdn.net/fighting_one_piece/article/details/40667035 看这里就成。 我用的是第一种集成。。做的时候,出现了各种问题。 大概从从2014.12.17 早晨5点搞到2014.12.1....
分类:
Web程序 时间:
2014-12-17 20:39:08
阅读次数:
241
From apacheAdvanced Spark Internals and Tuning – Reynold Xin –SLIDES|VIDEOSpark SQL – Michael Armburst –SLIDES|VIDEOSpark Streaming – Tathagata Das –S...
分类:
其他好文 时间:
2014-12-17 12:33:45
阅读次数:
174
STOMP,Streaming Text Orientated Message Protocol,是流文本定向消息协议,是一种为MOM(Message Oriented Middleware,面向消息的中间件)设计的简单文本协议。它提供了一个可互操作的连接格式,允许STOMP客户端与任意STOMP消...
分类:
其他好文 时间:
2014-12-16 22:16:34
阅读次数:
259
先来看一下一张技术的全景图,其中涉及内存计算的技术标成红色。 1)事务处理:主要分为Cache(Memcached, Redis, GemFire)、RDBMS、NewSQL(以VoltDB为首的)三部分,缓存和NewSQL数据库是关注的重点。2)流式处理:Storm本身只是计算的框架,而Spark-Streaming才实现了内存计算式的流处理。3)分析阶段的对比:Ø 通用处理:MapReduc...
分类:
其他好文 时间:
2014-12-13 15:11:40
阅读次数:
484
1.?sqoop导入mysql数据出错 ????用sqoop导入mysql数据出现以下错误: 14/12/03?16:37:58?ERROR?manager.SqlManager:?Error?reading?from?database:?java.sql.SQLException:?Streaming?result?set...
分类:
其他好文 时间:
2014-12-04 16:05:46
阅读次数:
199
这篇blog介绍 Jackson 的特点和使用方法Jackson支持三种使用方法流API(streaming api Incremental parsing/generation)JsonParse reads, JsonGenerator writes高效和part 1 json的用法类似,不好用...
分类:
Web程序 时间:
2014-11-23 17:26:49
阅读次数:
212
以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。 任务描述: HDFS上有两个目录/a和/b,里面数据均有3列,第一列都是id,第二列是各自的业务类型(这里假设/a对应a,/b对应b),第三列是一个jso...
分类:
编程语言 时间:
2014-11-23 13:07:40
阅读次数:
270