搜索关键字：hadoop hive，搜索到18237个结果！码迷,mamicode.com！

Hadoop,Vertica环境搭建

本打算使用mapr的虚拟机在里面进行开发,使用eclipse进行调试,它的问题是,有时候服务不能完全起来,如jobtracker和tasktracker,cldb没有起来,重启服务有可能解决.但另外一个问题是我使用eclipse和0.20.2的插件,无法连接DFS location,无法调试hado...

分类：其他好文时间：2014-06-16 23:40:12 阅读次数：320

Hadoop入门进阶步步高（五）-搭建Hadoop集群

五、搭建Hadoop集群上面的步骤，确认了单机可以执行Hadoop的伪分布执行，真正的分布式执行无非也就是多几台slave机器而已，配置方面的有一点点区别，配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/etc/hosts中都将ip及hostname给映射上：192.168.56.101 nginx1192...

分类：其他好文时间：2014-06-16 23:18:41 阅读次数：499

Hadoop入门进阶步步高（二）-目录介绍

二、Hadoop目录结构这里重点介绍几个目录bin、conf及lib目录。1、$HADOOP_HOME/bin目录文件名称说明hadoop用于执行hadoop脚本命令，被hadoop-daemon.sh调用执行，也可以单独执行，一切命令的核心hadoop-config.shHadoop的配置文件hadoop-daemon.sh通过执行hadoop命令来启动/停止一个守护进程(daemon)。该命令...

分类：其他好文时间：2014-06-16 23:13:29 阅读次数：338

Hadoop入门进阶步步高（一）-环境准备

前言Hadoop从存储上来说，是类似于冗余磁盘阵列(RAID)的存储方式，将数据分散存储并提供以提供吞吐量，它的存储系统就是HDFS（Hadoop Distuibute Fils System）；从计算上来说，它通过MapReduce模型，将大数据的计算分发到多台计算机上完成，再将结果合并，减少计算的时间。Hadoop适合于：1、超大数据的计算；2、一次写入、多次读取的模式；3、可以跑在普通的硬件...

分类：其他好文时间：2014-06-16 22:58:13 阅读次数：250

Hadoop入门进阶步步高（四）-测试Hadoop

四、测试Hadoop一个简单的求每年温度最大值的程序。1、准备两个文本测试数据准备两个名为data1.txt及data2.txt的文件，用于做为计算的输入数据，将其放于/home/fenglibin/java/data目录下：data1.txtdata2.txt1999 101999 201999 252000 212000 222000 182000 402001 452001 652002 9...

分类：其他好文时间：2014-06-16 20:52:57 阅读次数：443

Hadoop入门进阶步步高（三）-配置Hadoop

三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量，在1.2.1版中共有19个环境变量，如下：变量名称默认值说明JAVA_HOME 设置JDK的路径，这个必须设置，否则Hadoop无法启动，值如：/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径，也可以在...

分类：其他好文时间：2014-06-16 19:59:35 阅读次数：380

详细总结 Hive VS 传统关系型数据库

本文思路，看图说话，一张图，清晰总结二者区别下面对图中的各条做详细总结 1、查询语言不做赘述 2、数据存储位置不做赘述 3、数据格式 Hive：Hive 中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\t”、”\x001″）、行分隔符（”\n”）以及读取文件数据的方法（Hive 中默认有三个文件格式...

分类：数据库时间：2014-06-16 19:54:26 阅读次数：376

简要总结数据仓库VS数据库

本文简要总结以下两个问题，旨在快速理解“数据仓库” 1、什么是“数据仓库”？ 2、“数据仓库”与“数据库”的区别？下面做详细阐述： 1、什么是“数据仓库”？ “一个数据仓库通常是一个面向主题的、集成的、与时间相关且不可修改的（可以添加）数据集合，它用于对管理决策过程的支持。” 此句话包含几个关键点：面向主题的、集成的、与时间相关的、不可修改的，具体含义欢迎留言交流。 2、数据仓...

分类：数据库时间：2014-06-16 19:05:04 阅读次数：259

Impala与Hive的比较

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS...

分类：其他好文时间：2014-06-16 14:42:11 阅读次数：251

hadoop数据去重

"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下.....

分类：其他好文时间：2014-06-16 13:22:07 阅读次数：309

共18237条上一页 1 ... 1783 1784 1785 1786 1787 ... 1824 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)