搜索关键字：spark streaming kafka，搜索到11499个结果！码迷,mamicode.com！

[Apache Spark源码阅读]天堂之门——SparkContext解析

稍微了解Spark源码的人应该都知道SparkContext，作为整个Project的程序入口，其重要性不言而喻，许多大牛也在源码分析的文章中对其做了很多相关的深入分析和解读。这里，结合自己前段时间的阅读体会，与大家共同讨论学习一下Spark的入口对象—天堂之门—SparkContex。SparkC...

分类：其他好文时间：2014-06-28 19:27:40 阅读次数：338

为什么要使用Spark？

现有的hadoop生态系统中存在的问题1）使用mapreduce进行批量离线分析；2）使用hive进行历史数据的分析；3）使用hbase进行实时数据的查询；4）使用storm进行实时的流处理；5）。。。。。。导致：维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷，使用spar...

分类：其他好文时间：2014-06-28 14:08:46 阅读次数：306

Spark Standalone模式环境搭建

前提：安装好jdk1.7，hadoop安装步骤：1、安装scala下载地址：http://www.scala-lang.org/download/配置环境变量：export SCALA_HOME=/..../scalaexport PATH=.:$SCALA_HOME/bin ....验证：sca....

分类：其他好文时间：2014-06-28 14:08:09 阅读次数：404

Spark源码系列（三）作业运行过程

导读看这篇文章的时候，最好是能够跟着代码一起看，我是边看代码边写的，所以这篇文章的前进过程也就是我看代码的推进过程。作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从co...

分类：其他好文时间：2014-06-28 13:54:31 阅读次数：257

KAFKA分布式消息系统

Kafka[1]是linkedin用于日志处理的分布式消息队列，linkedin的日志数据容量大，但对可靠性要求不高，其日志数据主要包括用户行为（登录、浏览、点击、分享、喜欢）以及系统运行日志（CPU、内存、磁盘、网络、系统及进程状态）。当前很多的消息队列服务提供可靠交付保证，并默认是即时消费（不适...

分类：其他好文时间：2014-06-21 06:22:00 阅读次数：273

Apache Kafka —一个不同的消息系统

Apache已经发布了Kafka 0.8，也是自从成为Apache软件基金会的顶级项目后Kafka的第一个主版本。 Apache Kafka是发布—订阅消息传递，实现了分布式提交日志，适用于离线和在线消息消费。它最初由LinkedIn开发的消息系统，用于低延迟的收集和发送大量的事件和日志数据。最...

分类：其他好文时间：2014-06-21 06:21:23 阅读次数：253

Hadoop学习资料整理

hadoop 0.18文档（详细介绍Hadoop，MapReduce，FS Shell，Streaming等）hadoop资料汇总（XX搜集的，还没看）streaming（非java程序员的福音）Hadoop Streaming编程实例Hadoop Streaming编程Hadoop Streami...

分类：其他好文时间：2014-06-20 18:33:43 阅读次数：160

kafka集群配置与测试

刚接触一些Apache Kafka的内容，用了两天时间研究了一下，仅以此文做相关记录，以供学习交流。概念:kafka依赖的项：1.硬件上，kafka利用线性存储来进行硬盘直接读写。2.kafka没有使用内存作为缓存。3.用zero-copy。4.Gzip和Snappy压缩，5.kafka对事务处理比...

分类：其他好文时间：2014-06-20 18:18:45 阅读次数：329

开源日志系统比较：scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（...

分类：其他好文时间：2014-06-20 16:18:14 阅读次数：294

Spark运行调试方法与学习资源汇总

最近，在学习和使用Spark的过程中，遇到了一些莫名其妙的错误和问题，在逐个解决的过程中，体会到有必要对解决上述问题的方法进行总结，以便能够在短时间内尽快发现问题来源并解决问题，现与各位看官探讨学习如下：解决spark运行调试问题的四把“尖刀”：1、Log包括控制台日志、主从节点日志、HDFS日志等...

分类：其他好文时间：2014-06-20 15:16:41 阅读次数：161

共11499条上一页 1 ... 1138 1139 1140 1141 1142 ... 1150 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)