默认当前位置是hadoop安装包位置 jar包:share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar 一 前置准备 因为这个需要hdfs中的文件,需要掌握基本的hdfs命令 hdfs当前默认位置是在user/当前用户 文件夹 ,有些版本 ...
分类:
其他好文 时间:
2018-08-21 16:04:41
阅读次数:
277
cd ~ cd ./.ssh 在./ssh目录下生成公钥与私钥(如果没有.ssh先使用ssh命令连接到一台远程主机后退出就会生成./ssh) ssh-keygen -t rsa 接下来就是把公钥拷贝到需要远程连接的主机上 ssh-copy-id 主机名 之后执行ssh 主机就可以免密登录了,此外ss ...
分类:
其他好文 时间:
2018-08-19 19:02:52
阅读次数:
186
在Hive中,ORDER BY语句是对查询结果集进行整体的排序,最终将会产生一个reducer进行全局的排序,达到的最终结果是和传统的关系型数据库是一样的。 在数据量非常大的时候,全局排序的单个reducer将会成为性能瓶颈,有可能由于数据量过大而跑不出来结果。 Hive中可以设置hive.mapr ...
分类:
数据库 时间:
2018-08-17 00:41:13
阅读次数:
198
在spark中运行./spark-shell --master YARN-client --num-executors 3 --executor-memory 1g是碰到如下的问题: biaoshi 表示资源不足,可能是内存不足或者core不足,于是就将1g改为512m,运行成功 以spark-cl ...
分类:
其他好文 时间:
2018-08-16 23:45:50
阅读次数:
280
主要介绍大数据获取的应用和场景,组件和技术不做详述,之后介绍。 1. 网络爬虫 根据URL,并按照一定规则爬取网页内容,存储进库。 相关概念: https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB 推荐技术: PYTHON ...
分类:
其他好文 时间:
2018-08-13 00:42:27
阅读次数:
208
SimpleJdbcCall 类可以被用于调用一个包含 IN 和 OUT 参数的存储过程。你可以在处理任何一个 RDBMS 时使用这个方法,就像 Apache Derby, DB2, MySQL, Microsoft SQL Server, Oracle,和 Sybase。 还是基于Spring之J ...
分类:
数据库 时间:
2018-08-11 20:58:06
阅读次数:
211
首先解压压缩包 然后进入bin 执行 ./hive 不过现在hive使用的是自己默认的数据库,不方便,可以通过配置使用MySQL数据库 创建hive-site.xml 粘贴一下内容 然后修改hive对应hadoop的配置 将MySQL驱动包放到hive的lib文件夹下 查看数据库 插入数据 会走ma ...
分类:
其他好文 时间:
2018-08-03 14:11:17
阅读次数:
172
Hadoop主要有两个层次,即: 加工/计算层(MapReduce),以及 存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量,并提供更 ...
分类:
其他好文 时间:
2018-08-02 20:42:36
阅读次数:
111
hadoop:是java写的一个框架,可以理解成java写的一个应用,他主要是用来分布式存储和分布式计算。 1 为什么需要分布式存储,因为单台设备不够存储,实现办法的hadoop分布式是文件系统hdfs 2 分布式计算:因为数据量很大、一台机器硬件资料有限,实现办法是yarn和MapReduce、y ...
分类:
其他好文 时间:
2018-07-27 21:04:34
阅读次数:
126
什么是Hadoop? Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。用户可以利用Hadoop轻松的组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。 Hadoop具有高可靠性、高扩展性、高效性、高容错性的特点: 1, 高可靠性 ...
分类:
其他好文 时间:
2018-07-16 21:06:50
阅读次数:
197