由于预处理的数据都存储在cassandra里面,所以想要用spark进行数据分析的话,需要读取cassandra数据,并把分析结果也一并存回到cassandra;因此需要研究一下spark如何读写cassandra。话说这个单词敲起来好累,说是spark,其实就是看你开发语言是否有对应的driver...
分类:
其他好文 时间:
2015-11-26 14:51:23
阅读次数:
238
大数据第一天1.Hadoop生态系统 1.1 Hadoop v1.0 架构 MapReduce(用于数据计算) HDFS(用于存储数据) 1.2 Hadoop v2.0 架构 MapReduce(用于数据计算,Hadoop提供计算框架) 其他非Hadoop计算框架 YARN(用户管理...
分类:
其他好文 时间:
2015-11-24 14:52:07
阅读次数:
143
本文转载:通通学--知识学习与分享平台Hadoop的核心HDFS:HadoopDistributed File System 分布式文件系统MapReduce:并行计算框架Yarn:集群资源管理和调度框架Hadoop是什么?适合大数据的分布式存储、计算、资源管理平台作者:Doug Cutting受G...
分类:
其他好文 时间:
2015-11-22 23:13:06
阅读次数:
197
看书大概了解了下Streaming的原理,但是木有动过手啊。。。万事开头难啊,一个wordcount 2小时怎么都运行不出结果。是我太蠢了,好了言归正传。SparkStreaming是一个批处理的流式计算框架,适合处理实时数据与历史数据混合处理的场景(比如,你用streaming将实时数据读入处理,...
分类:
其他好文 时间:
2015-11-14 16:23:23
阅读次数:
267
Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算...
分类:
其他好文 时间:
2015-11-09 20:43:20
阅读次数:
520
什么是Spark Spark是UC?Berkeley?AMP?lab所开源的类Hadoop?MapReduce的通用的并行计算框架,Spark基于map?reduce算法实现的分布式计算,拥有Hadoop?MapReduce所具有的优点;但不同于MapReduce的是Job中间输...
分类:
其他好文 时间:
2015-11-05 01:01:09
阅读次数:
279
于Spark它是一个计算框架,于Spark环境,不仅支持单个文件操作,HDFS档,同时也可以使用Spark对Hbase操作。从企业的数据源HBase取出。这涉及阅读hbase数据,在本文中尽快为了尽可能地让我们可以实践和操作Hbase。Spark Shell 来进行Hbase操作。一、环境:Haoo...
分类:
其他好文 时间:
2015-10-27 13:09:35
阅读次数:
523
数据的生成可以看做一连串发生的离散事件, 这些事件流会伴随着不同的数据流、操作和分析,都会由一个通用的软件框架和基础设施来处理。 Storm 是 实时流计算框架之一。它提供了可容错分布式计算所要求的基本原句和保障机制,可以满足大容量关键业务应用需求。是一套技术的整合。来自为知笔记(Wiz)附件列.....
分类:
其他好文 时间:
2015-10-26 11:45:49
阅读次数:
132
1.矩阵分解是推荐系统常用的手段,经常用来做用户偏好预测.在当下的推荐系统中,我们得到用户对于物品的评分矩阵往往是非常稀疏的,一个有m个用户,n个商品的网站,它所收集到的m*n用户评分矩阵R可能只有不到万分之一的数据非零.矩阵分解算法常用来构造出多个矩阵, 用这些矩阵相乘的结果R’来拟合原来的评.....
分类:
其他好文 时间:
2015-10-16 16:41:12
阅读次数:
213
jstorm开发指南-写个简单的jstorm应用发表于 2015-07-18 | 分类于大数据 | 暂无评论jstorm 是阿里巴巴开源的基于storm采用Java重写的一套分布式实时流计算框架,使用简单,特点如下:开发非常迅速: 接口简单,容易上手,只要遵守Topology,Spout, Bol....
分类:
Web程序 时间:
2015-10-15 20:28:13
阅读次数:
369