python pyspark入门篇 一.环境介绍: 1.安装jdk 7以上 2.python 2.7.11 3.IDE pycharm 4.package: spark-1.6.0-bin-hadoop2.6.tar.gz 二.Setup 1.解压spark-1.6.0-bin-hadoop2.6. ...
分类:
编程语言 时间:
2017-12-11 18:42:56
阅读次数:
168
#!/bin/bash#@author:feiyuanxing 【既然笨到家,就要努力到家】#@date:2017-01-05#@E-Mail:feiyuanxing@gmail.com#@TARGET:一键安装hadoop 2.7.1 centos 64位 #@CopyRight:本脚本遵守 未来 ...
分类:
其他好文 时间:
2017-12-08 23:13:07
阅读次数:
185
jdk安装 jdk环境变量配置 安装hadoop2.6.4 hadoop环境变量配置 hadoop单机配置 以上配置完成后启动hadoop hadoop免密码启动 ...
分类:
系统相关 时间:
2017-12-08 16:16:34
阅读次数:
164
1、安装java、maven、scala、hadoop、mysql、hive略2、编译spark./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-2.6,parquet-provided"3、安装spa... ...
分类:
其他好文 时间:
2017-12-03 19:55:38
阅读次数:
372
前言 搭建完hadoop集群之后在windows环境下搭建java项目进行测试 操作hdfs中的文件 版本一 以上运行测试的时候会报错,原因是URL无法识别hdfs协议。 版本二、 这个时候就可以正确的打印出hdfs文件copyFromLocal的文件内容。 附:可以将hadoop解压文件下etc中 ...
1、Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。 2、HDFS Hadoop的分布式文件系统。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对 ...
分类:
其他好文 时间:
2017-11-22 21:54:33
阅读次数:
278
下载 "Hadoop" 解压并移动到/software目录: 在 文件添加: 保存并且更新/etc/profile文件: 。 编辑 文件: ,在最后加上: 修改Configuration文件: 修改hdfs site.xml: 修改mapred site.xml: 修改yarn site.xml: ...
分类:
其他好文 时间:
2017-11-18 17:35:12
阅读次数:
283
1 例子jar位置 2 生成数据文件 3 创建HDFS目录 4 将数据文件word.txt上传以HDFS /work/data/input目录下 5 运行wordcount例子 6 查看结果 ...
分类:
其他好文 时间:
2017-11-12 11:08:42
阅读次数:
201
一、编译源码步骤演示详解 官网下载的hadoop包,执行hadoop命令时,会有警告信息,为去除此警告,需要重新编译hadoop相应版本的源码,替换hadoop安装包lib目录下的native(警告如下图所示) . 编译hadoop环境要求 1、必须在linux系统下编译 2、编译使用的JDK版本必 ...
分类:
其他好文 时间:
2017-11-10 00:15:40
阅读次数:
140
1下载hive 下载地址:http://hive.apache.org/downloads.html 点击上图的Download release now! 如图: 点击上图的某个下载地址,我点击的是国内的这个地址:http://mirror.bit.edu.cn/apache/hive/ 如图: 点 ...
分类:
其他好文 时间:
2017-11-04 11:34:24
阅读次数:
296