码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop spark-sql    ( 29965个结果
从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码
从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码http://www.aboutyun.com/thread-8211-1-1.html(出处: about云开发)问题导读:1.如何通过官网src包,获取hadoop的全部代码2.通过什么样的操作,可以查看hado...
分类:系统相关   时间:2014-06-25 14:33:00    阅读次数:206
perl读取excel
因为工作当中遇到要处理大数据的excel的玩意,最多的有几十万行。用perl的方式试试,看看效果如何。ppm install OLE::Storage_Lite #如果不安装这个,后面两个安装不了 ppm install Spreadsheet::ParseExcelppm install Spre...
分类:其他好文   时间:2014-06-25 12:41:02    阅读次数:242
spark开发环境配置
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些。具体环境配置不是太复杂,具体可以看https://githu...
分类:其他好文   时间:2014-06-25 11:44:47    阅读次数:185
Spark源码系列(四)图解作业生命周期
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know!我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面...
分类:其他好文   时间:2014-06-25 11:13:39    阅读次数:288
Hadoop基础学习(一)分析、编写并运行WordCount词频统计程序
前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境,其中包括了Hadoop的运行环境。 详见我的这篇博文:http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase,下一步打算学习的是将HBase作为Hadoop作业的输入和输出。 但是好像以前在南大上学时学习的Hadoop都忘记得差不...
分类:其他好文   时间:2014-06-25 08:41:05    阅读次数:889
fuse-dfs挂载hdfs实录
部署安装了最新稳定版hadoop2.2.0,然后在网上找来fuse-dfs编译教程,但是最后失败了,至今原因未知~~,错误描述为:Transport endpoint is not connected。后将安装部署hadoop1.2.1版本,最后测试成功,记录如下: 使用root完成一下操作: 1、安装依赖包 apt-get install autoconf automake libtool...
分类:其他好文   时间:2014-06-25 08:17:08    阅读次数:302
Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现
本文详细讲解了Spark在Standalone模式下的Master的HA的源码分析。 为了解决Standalone模式下的Master的SPOF,Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API,而是采用了Curator,一个对ZooKeeper进行了封装的框架。采用了Curator后,Spark不用管理与ZooKeeper的连接,这些对于Spark来说都是透明的。Spark仅仅使用了100行代码,就实现了Master的HA。当然了,Spark是...
分类:其他好文   时间:2014-06-25 07:59:09    阅读次数:183
类人脑引擎(6)
类人脑引擎,胡斯乱想...
分类:其他好文   时间:2014-06-25 07:18:07    阅读次数:343
hadoop 多个maper处理
packagecom.smilezl.learn.CalWord;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hado..
分类:其他好文   时间:2014-06-25 06:28:59    阅读次数:242
Memcache存储大数据的问题
Memcache存储大数据的问题huangguisu Memcached存储单个item最大数据是在1MB内,假设数据超过1M,存取set和get是都是返回false,并且引起性能的问题。我们之前对排行榜的数据进行缓存,因为排行榜在我们全部sql select查询里面占了30%,并且我们排行榜每小时...
分类:其他好文   时间:2014-06-25 00:55:10    阅读次数:296
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!