spark是什么?
spark开源的类Hadoop MapReduce的通用的并行计算框架
spark基于map reduce算法实现的分布式计算
拥有Hadoop MapReduce所具有的优点
但不同于MapReduce的是Job中间输出和结果可以保存在内存中
从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:
其他好文 时间:
2015-05-11 21:57:34
阅读次数:
206
1、Spark MLlib Statistics统计
Spark Mllib
统计模块代码结构如下:
1.1
列统计汇总
计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。
//读取数据,转换成RDD[Vector]类型
val
data_path =
"/home/jb-huangmeiling/sample_stat.txt"
...
分类:
其他好文 时间:
2015-05-11 16:10:07
阅读次数:
132
1.1 FPGrowth算法
1.1.1 基本概念
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
关联规则的相关术语如下:
(1)项与项集
这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite...
分类:
编程语言 时间:
2015-05-09 17:35:41
阅读次数:
201
要从零开始,五分钟做完一个基于SPARK的PM2.5分析项目,你是不是会问 1. PM2.5的数据在哪里? 2. SPARK的环境哪儿有? 3. 程序怎么编? 不用急,跟着我做,5分钟就可以从零开始完成所有的事情。 准备SPARK环境 今...
分类:
其他好文 时间:
2015-05-09 13:35:12
阅读次数:
192
一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages...
分类:
其他好文 时间:
2015-05-08 23:49:59
阅读次数:
154
Spark SQL 1.3参考官方文档:Spark SQL and DataFrame Guide概览介绍参考:平易近人、兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道,通过它Spark能取悦大数据生态链上的所有玩家,....
分类:
数据库 时间:
2015-05-08 23:48:25
阅读次数:
311
Spark SQL 1.2背景:了解到HDP也能够支持Spark SQL,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理 虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据,数据源API通过Spark SQL提供了访....
分类:
数据库 时间:
2015-05-08 22:00:16
阅读次数:
323
1.1 SVM支持向量机算法
支持向量机理论知识参照以下文档:
支持向量机SVM(一)
http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html
支持向量机SVM(二)
http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html
支持向量机(三)...
分类:
编程语言 时间:
2015-05-08 18:11:56
阅读次数:
396