问题 一个wordcount运行总是报错 java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.hadoop.mapreducedemo1.mapreducedemo.mapper.MyMapperTask 网 ...
分类:
编程语言 时间:
2020-02-14 22:53:25
阅读次数:
96
爬取北京市信件内容: 下载webmagic-0.7-libs.tar.gz压缩包,解压缩。没有压缩包可以加QQ:893225523 通过Filezilla上传到/home/hadoop/下载 sudo tar -zxf ~/下载/webmagic-0.7.3-all.tar.gz -C /data/ ...
分类:
其他好文 时间:
2020-02-14 19:03:24
阅读次数:
108
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pairRdd.ke ...
分类:
其他好文 时间:
2020-02-14 18:33:43
阅读次数:
110
错误: hadoop Requested data length 86483783 is longer than maximum configured RPC length 解决: 修改NameNode的hdfs-site.xml配置文件,添加以下配置: <property> <name>ipc.m ...
分类:
其他好文 时间:
2020-02-14 18:14:56
阅读次数:
74
NameNode&Secondary NameNode 工作机制 NameNode: 1.启动时,加载编辑日志和镜像文件到内存 2.当客户端对元数据进行增删改,请求NameNode 3.NameNode记录操作日志,更新滚动日志 4.日志记录完成,在NameNode内存中对元数据进行操作 edits ...
分类:
其他好文 时间:
2020-02-14 13:17:05
阅读次数:
86
环境如下: Hadoop 2.6.0以上 java JDK 1.7以上 Spark 3.0.0-preview2 一、Scala独立应用编程 二、java独立应用编程 1、安装maven ubuntu中没有自带安装maven,需要手动安装maven。可以访问maven官方下载自己下载。这里直接给出a ...
分类:
编程语言 时间:
2020-02-14 10:43:07
阅读次数:
103
查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 数据存储位置。Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库 ...
分类:
其他好文 时间:
2020-02-13 22:35:19
阅读次数:
73
环境如下: Hadoop 2.6.0以上 java JDK 1.7以上 Spark 3.0.0-preview2 一、Scala独立应用编程 1、安装sbt sbt是一款Spark用来对scala编写程序进行打包的工具,这里简单介绍sbt的安装过程,感兴趣的读者可以参考官网资料了解更多关于sbt的内 ...
分类:
其他好文 时间:
2020-02-13 22:31:48
阅读次数:
103
参考原文:http://blog.csdn.net/xlgen157387/article/details/53230138 一、网站应用背景 开发一个网站的应用程序,当用户规模比较小的时候,使用简单的:一台应用服务器+一台数据库服务器+一台文件服务器,这样的话完全可以解决一部分问题,也可以通过堆硬 ...
分类:
其他好文 时间:
2020-02-13 21:21:26
阅读次数:
84
一:安装JDK hadoop2.x最低jdk版本要求是:jdk1.7 下载地址:https://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jdk-7u80-o ...
分类:
其他好文 时间:
2020-02-13 21:03:47
阅读次数:
73