1 Storm介绍 Storm是由Twitter开源的分布式、高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。 在Storm的集群里面有两种节点:控制节点(Mas ...
分类:
其他好文 时间:
2016-12-30 09:25:22
阅读次数:
628
Spark机器学习 1 在线学习 模型随着接收的新消息,不断更新自己;而不是像离线训练一次次重新训练。 2 Spark Streaming 离散化流(DStream) 输入源:Akka actors、消息队列、Flume、Kafka、…… http://spark.apache.org/docs/l ...
分类:
其他好文 时间:
2016-12-27 14:23:03
阅读次数:
245
mdl是数据操作类的语言,包括向数据表加载文件,写查询结果等操作 hive有四种导入数据的方式 》从本地加载数据 LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE [tableName]; 》从hdfs上加载 ...
分类:
其他好文 时间:
2016-12-26 21:01:37
阅读次数:
236
Java中,可以使用访问控制符来保护对类、变量、方法和构造方法的访问。Java支持4种不同的访问权限。默认的,也称为default,在同一包内可见,不使用任何修饰符。私有的,以private修饰符指定,在同一类内可见。共有的,以public修饰符指定,对所有类可见。受保护的,以protected修饰... ...
分类:
编程语言 时间:
2016-12-22 22:34:13
阅读次数:
181
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这 ...
分类:
其他好文 时间:
2016-12-22 14:33:56
阅读次数:
1192
本文为SparkStreaming源码剖析的第三篇,主要分析SparkStreaming启动过程。
在调用StreamingContext.start方法后,进入JobScheduler.sta...
分类:
其他好文 时间:
2016-12-22 09:10:07
阅读次数:
374
坑太多 --写在片首语 看着Kylin官网(http://kylin.apache.org/docs16/tutorial/cube_streaming.html)里的轻描淡写,似乎只要一步步按着它的步骤来做,就可以很快跑通并得到期待的果子 。但,然并卵。。。这次的实践让我很清醒地了解到, 在开源的 ...
分类:
其他好文 时间:
2016-12-18 01:40:49
阅读次数:
488
转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ ...
分类:
其他好文 时间:
2016-12-15 17:34:56
阅读次数:
423
本文是gulp的入门级介绍,主要内容包括什么是gulp,gulp与grunt有什么区别,gulp可以解决grunt存在的哪些问题,以及一个简单的说明例子。 什么是gulp gulp的官方定义非常简洁: 基于文件流的构建系统 。这里强调了 streaming,也就是gulp与grunt的在构建流程上的 ...
分类:
其他好文 时间:
2016-12-15 17:15:29
阅读次数:
235
要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢? 本质上,SparkStreaming接收实时输入数据流并将它们按批次划分,然后交给Spark引擎处理生成按照批次划分的结果流: SparkStreaming提供了表示连续数据流 ...
分类:
其他好文 时间:
2016-12-10 18:31:38
阅读次数:
126