码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
spark开篇
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:其他好文   时间:2015-05-11 21:57:34    阅读次数:206
Spark MLlib Statistics统计
1、Spark MLlib Statistics统计 Spark Mllib 统计模块代码结构如下: 1.1 列统计汇总 计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。     //读取数据,转换成RDD[Vector]类型     val data_path = "/home/jb-huangmeiling/sample_stat.txt"   ...
分类:其他好文   时间:2015-05-11 16:10:07    阅读次数:132
Spark MLlib FPGrowth算法
1.1 FPGrowth算法 1.1.1 基本概念 关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。 关联规则的相关术语如下: (1)项与项集 这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite...
分类:编程语言   时间:2015-05-09 17:35:41    阅读次数:201
从零开始,手把手教会你5分钟用SPARK对PM2.5数据进行分析(包括环境准备和SPARK代码)
要从零开始,五分钟做完一个基于SPARK的PM2.5分析项目,你是不是会问 1. PM2.5的数据在哪里? 2. SPARK的环境哪儿有? 3. 程序怎么编? 不用急,跟着我做,5分钟就可以从零开始完成所有的事情。 准备SPARK环境 今...
分类:其他好文   时间:2015-05-09 13:35:12    阅读次数:192
Scrapy安装介绍
一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages...
分类:其他好文   时间:2015-05-08 23:49:59    阅读次数:154
Spark SQL1.3测试
Spark SQL 1.3参考官方文档:Spark SQL and DataFrame Guide概览介绍参考:平易近人、兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道,通过它Spark能取悦大数据生态链上的所有玩家,....
分类:数据库   时间:2015-05-08 23:48:25    阅读次数:311
Spark SQL1.2测试
Spark SQL 1.2背景:了解到HDP也能够支持Spark SQL,但官方文档是版本1.2,希望支持传统数据库、hadoop平台、文本格式的整合处理 虚线表示还未实现。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据,数据源API通过Spark SQL提供了访....
分类:数据库   时间:2015-05-08 22:00:16    阅读次数:323
Spark MLlib SVM算法
1.1 SVM支持向量机算法 支持向量机理论知识参照以下文档: 支持向量机SVM(一) http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html 支持向量机SVM(二) http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html 支持向量机(三)...
分类:编程语言   时间:2015-05-08 18:11:56    阅读次数:396
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!