搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码

从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码http://www.aboutyun.com/thread-8211-1-1.html(出处: about云开发)问题导读：1.如何通过官网src包，获取hadoop的全部代码2.通过什么样的操作，可以查看hado...

分类：系统相关时间：2014-06-25 14:33:00 阅读次数：206

perl读取excel

因为工作当中遇到要处理大数据的excel的玩意，最多的有几十万行。用perl的方式试试，看看效果如何。ppm install OLE::Storage_Lite #如果不安装这个，后面两个安装不了 ppm install Spreadsheet::ParseExcelppm install Spre...

分类：其他好文时间：2014-06-25 12:41:02 阅读次数：242

spark开发环境配置

以后spark，mapreduce，mpi可能三者集于同一平台，各自的侧重点有所不用，相当于云计算与高性能计算的集合，互补，把spark的基础看了看，现在把开发环境看看，主要是看源码，最近Apache Spark源码走读系列挺好的，看了些。具体环境配置不是太复杂，具体可以看https://githu...

分类：其他好文时间：2014-06-25 11:44:47 阅读次数：185

Spark源码系列（四）图解作业生命周期

这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，let you know！我们先回顾一下这个图，Driver Program是我们写的那个程序，它的核心是SparkContext，回想一下，从api的使用角度，RDD都必须通过它来获得。下面讲一讲它所不为认知的一面...

分类：其他好文时间：2014-06-25 11:13:39 阅读次数：288

Hadoop基础学习（一）分析、编写并运行WordCount词频统计程序

前面已经在我的Ubuntu单机上面搭建好了伪分布模式的HBase环境，其中包括了Hadoop的运行环境。详见我的这篇博文：http://blog.csdn.net/jiyiqinlovexx/article/details/29208703 我的目的主要是学习HBase，下一步打算学习的是将HBase作为Hadoop作业的输入和输出。但是好像以前在南大上学时学习的Hadoop都忘记得差不...

分类：其他好文时间：2014-06-25 08:41:05 阅读次数：889

fuse-dfs挂载hdfs实录

部署安装了最新稳定版hadoop2.2.0，然后在网上找来fuse-dfs编译教程，但是最后失败了，至今原因未知～～，错误描述为：Transport endpoint is not connected。后将安装部署hadoop1.2.1版本，最后测试成功，记录如下：使用root完成一下操作： 1、安装依赖包 apt-get install autoconf automake libtool...

分类：其他好文时间：2014-06-25 08:17:08 阅读次数：302

Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现

本文详细讲解了Spark在Standalone模式下的Master的HA的源码分析。为了解决Standalone模式下的Master的SPOF，Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API，而是采用了Curator，一个对ZooKeeper进行了封装的框架。采用了Curator后，Spark不用管理与ZooKeeper的连接，这些对于Spark来说都是透明的。Spark仅仅使用了100行代码，就实现了Master的HA。当然了，Spark是...

分类：其他好文时间：2014-06-25 07:59:09 阅读次数：183

类人脑引擎（6）

类人脑引擎，胡斯乱想...

分类：其他好文时间：2014-06-25 07:18:07 阅读次数：343

hadoop 多个maper处理

packagecom.smilezl.learn.CalWord;importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hado..

分类：其他好文时间：2014-06-25 06:28:59 阅读次数：242

Memcache存储大数据的问题

Memcache存储大数据的问题huangguisu Memcached存储单个item最大数据是在1MB内，假设数据超过1M,存取set和get是都是返回false，并且引起性能的问题。我们之前对排行榜的数据进行缓存，因为排行榜在我们全部sql select查询里面占了30%，并且我们排行榜每小时...

分类：其他好文时间：2014-06-25 00:55:10 阅读次数：296

共29965条上一页 1 ... 2928 2929 2930 2931 2932 ... 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)