码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
scapy安装
http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html(转载地址)Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra...
分类:其他好文   时间:2015-05-04 11:28:59    阅读次数:382
Spark随机森林实现学习
前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中...
分类:其他好文   时间:2015-05-03 14:37:06    阅读次数:317
spark-shell初体验
1、复制文件至HDFS: hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoop hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL...
分类:系统相关   时间:2015-05-02 15:16:53    阅读次数:187
Spark SQL1.2与HDP2.2结合
1.hbase相同的rowkey里存在多条记录问题的调研解决方案VERSIONS => 3,Hbaseversion最多插入三条记录将一个集群hbase中表 "VerticalDataTable" 数据插入另一张表时遇到问题,本来有十几个版本,但是只插入了3个版本(还是可以插入成功)搜索后发现是因为...
分类:数据库   时间:2015-05-02 11:08:15    阅读次数:164
【ElasticSearch】ElasticSearch介绍和安装
介绍ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。官网:http://www.elasticsearch.org它对外提供一系列基于java和http的api,用于索引、检索、修...
分类:其他好文   时间:2015-04-30 17:50:09    阅读次数:154
MongoDB,HDFS, Spark to 电影推荐
http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommendMovieWeb是一个电影相关的网站,它提供的功能包括搜索电影信息、排名或者电影明星资料等。它拥有10000部电影的信息,70000个用户,和超过1千万的电影评分。借用它...
分类:数据库   时间:2015-04-29 21:17:04    阅读次数:158
spark优化
spark.shuffle.consolidateFiles=false 默认是false,shuffle阶段不进行文件的合并,1000个map和1000个reduce将产生1000 000个文件。设置为true减少shuffle阶段产生的文件数量。storageLevel的选择,根据自己的业务进行...
分类:其他好文   时间:2015-04-29 16:26:25    阅读次数:128
Apache Spark的设计思路
大家都知道,现在Apache Spark可以说是最火的开源大数据项目,就连EMC旗下专门做大数据Pivotal也开始抛弃其自研十几年GreenPlum技术,转而投入到Spark技术开发当中,并且从整个业界而言,Spark火的程度也只有IaaS界的OpenStack能相提并论。那么本文作为一篇技术文章,我们接着就直接切入它的核心机制吧。   什么是内存计算技术?  关于内存计算,就像云...
分类:Web程序   时间:2015-04-29 15:08:30    阅读次数:209
Spark MLlib NaiveBayes 贝叶斯分类器
1.1朴素贝叶斯公式 贝叶斯定理:        其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。 朴素贝叶斯分类的正式定义如下:       1、设为一个待分类项,而每个a为x的一个特征属性。       2、有类别集合。       3、计算。       4、如果,则 。       那么现在的关键就是如何计算第3步中的各个条件概率:       ...
分类:其他好文   时间:2015-04-29 13:41:27    阅读次数:302
spark streaming 调试技巧
spark streaming 如果以local 模式运行,log日志非常清楚。 如果log 日志是运行在yarn 模式下,driver 的日志可以通过reource manager 日志看到。但是executor的日志却看不到,我们往往错误都发生在executor里,比如典型的错误:如果我们连接hbase去存取数据的话,我们会在driver里初始化了连接,缺忽略的excutors里,导致程序出错...
分类:其他好文   时间:2015-04-29 13:38:51    阅读次数:290
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!