码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop spark-sql    ( 29965个结果
Hadoop集群维护
HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop 1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:其他好文   时间:2014-05-10 02:08:24    阅读次数:327
Hadoop下面WordCount运行详解
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。现在我们以"hadoop...
分类:其他好文   时间:2014-05-10 01:54:48    阅读次数:445
Hadoop MapReduce开发最佳实践(上篇)
Hadoop MapReduce开发最佳实践(上篇)本文是Hadoop最佳实践系列第二篇,上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中hello word程序)不仅要熟悉MapRuduce模型,还要了...
分类:其他好文   时间:2014-05-08 21:45:46    阅读次数:640
dataguru(炼数成金)大数据培训基地印象
dataguru访问地址:http://f.dataguru.cn/?fromuid=99611课程优惠码:C4B6这段时间一直在dataguru(炼数成金)上学习《hadoop数据分析平台(第十四期)》,说说我对炼数成金的印象。最开始听说dataguru是通过它的广告邮件中的链接,发送的对象是it...
分类:其他好文   时间:2014-05-08 21:19:30    阅读次数:727
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....
分类:其他好文   时间:2014-05-08 20:38:16    阅读次数:669
hadoop学习笔记——基础知识及安装
1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode, 分别对应独立的物理机器 1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
分类:其他好文   时间:2014-05-05 10:35:14    阅读次数:432
为Linux集群创建新账户,并配置hadoop集群
转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户,这是一个绝对的失策,linux对用户访问权限很严格,新创的hod账户根本无法启动hadoop,而root在hod模式下使...
分类:系统相关   时间:2014-05-05 10:09:20    阅读次数:753
读<<大数据时代>>的一些感想
记住,大数据的本质在于数据,大只是它在整个宏观社会整体上的一个体现
分类:其他好文   时间:2014-05-05 09:31:32    阅读次数:517
SQL Server 大数据搬迁之文件组备份还原实战
原文:SQL Server 大数据搬迁之文件组备份还原实战一.本文所涉及的内容(Contents)本文所涉及的内容(Contents)背景(Contexts)解决方案(Solution)搬迁步骤(Procedure)搬迁脚本(SQL Codes)注意事项(Attention)疑问(Questions...
分类:数据库   时间:2014-05-04 19:06:55    阅读次数:751
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生成 TaskSchedule...
分类:其他好文   时间:2014-05-04 09:08:02    阅读次数:379
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!