搜索关键字：hadoop 单表连接，搜索到13957个结果！码迷,mamicode.com！

Ubuntu 安装 spark

环境： Unbunt 12.04 Hadoop 2.2.x Sprak 0.9 Scala scala-2.9.0.final.tgz 步骤 1. 下载 scala 2. 解压scala，然后修改/etc/profile，添加如下 export SCALA_HOME=/home/software/scala-2.9.0.final export PATH=$P...

分类：其他好文时间：2014-06-05 11:52:46 阅读次数：484

标准wordcount

package wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Int...

分类：其他好文时间：2014-06-05 09:12:55 阅读次数：203

淘宝在hbase中的应用和优化

本文来自于NoSQLFan联合作者@koven2049，他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解，本文就是其在工作中对HBase的应用优化小结，分享给大家。目录 [ - ] 前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划前言 hbase是从 hadoop中分离出来的apache顶级开源项目。由...

分类：其他好文时间：2014-06-05 08:43:04 阅读次数：275

scp and tar

scp 命令随记 scp file username@remoteIp:directory 创建tar包 tar zcvf file.tar.gz directory tar zcvf hadoop.tar.gz /hadoop...

分类：其他好文时间：2014-06-05 07:36:35 阅读次数：199

HDSF主要节点讲解(二)工作原理

hadoop数据写入和读之原理分析...

分类：其他好文时间：2014-06-05 00:58:34 阅读次数：233

在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

最近开始使用MapReduce，发现网上大部分例子都是对文本数据进行处理的，也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理，这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时，这些类就不再适合了。本文以一个简单的应用场景为例：对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...

分类：其他好文时间：2014-06-04 21:53:46 阅读次数：341

Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常

在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...

分类：编程语言时间：2014-06-03 05:55:44 阅读次数：359

hadoop备战：hadoop,hbase兼容版本号汇总

Hbase的安装须要考虑Hadoop的版本号，即兼容性。有不足的希望能指出。下面考究官网得到的，关于hadoop版本号和hbase版本号可到下面网址中下载：http://mirror.bit.edu.cn/apache/hbaseHBase-0.92.xHBase-0.94.xHBase-0.96....

分类：其他好文时间：2014-05-31 15:24:19 阅读次数：377

用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控

写在前面前文：用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试为了方便，这篇文章里的例子均为伪分布式运行，一般来说只要集群配置得当，在伪分布式下能够运行的程序，在真实集群上也不会有什么问题。为了更好地模拟集群环境，我们可以在mapred-...

分类：编程语言时间：2014-05-30 14:56:56 阅读次数：309

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块，这一部分是用Hadoop中MapRed...

分类：其他好文时间：2014-05-30 14:23:07 阅读次数：409

共13957条上一页 1 ... 1368 1369 1370 1371 1372 ... 1396 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)