码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
java最新面试题及答案2020(二十三)
## java最新面试题2020# 一面 1. “Spark还有Ruby啊,会的挺多,既然你啥都会点咱们就不局限于Java了”2. 聊了聊美团实习的项目,聊到了Spark,然后说到了Spark相对于MapReduce的改进,然后3. “Spark熟吗”4. “那你这个需求怎么做的”5. “那咱们就从... ...
分类:编程语言   时间:2020-05-18 14:31:41    阅读次数:162
大数据 ----- 在Xshell6 安装Hadoop与JDK以及环境变量
一. 安装JDK以及环境变量 1.进入Xshell6,连接虚拟机,把普通用户改成root用户 ? 2.cd到根目录,然后再cd到usr/local文件夹中 3.创建app文件夹 ? 4.进入app文件夹,安装一个rz上传文件组件 yum -y install lrzsz 和 安装vim编辑器 yum ...
分类:系统相关   时间:2020-05-18 14:06:28    阅读次数:114
跟我一步一步学习Hadoop(1)准备Linux集群环境
安装虚拟机,我的是VMwareWorkstationPro12,在VM中创建虚拟机同时安装一个Linux环境。这里就不在细说,如果有需要的朋友可以联系微信号:18008428026,后期可以增加内容。1.准备Linux环境(我的是CentOS6.4版本)1.0在安装好一台linux后,需要配置好网络。网络配置注意:1.后期的虚拟机我们要使用NAT模式进行网络连接,先在本地机选择网络-->右键
分类:系统相关   时间:2020-05-18 09:20:49    阅读次数:117
Hadoop伪分布搭建
第一步:配置网络(静态IP) (网卡名称可能不同) 1. 修改: 将该配置文件中的ONBOOT=no修改为yes(网络开机自启) 将BOOTPROTO=dhcp修改为static(将ip设置为静态ip) 2. 为了能够通过外部访问到虚拟机,增加: IPADDR=192.168.154.110(110 ...
分类:其他好文   时间:2020-05-17 20:35:34    阅读次数:76
spark:distinct算子实现原理
distinct的底层使用reducebykey巧妙实现去重逻辑 //使用reduceByKey或者groupbykey的shuffle去重思想rdd.map(key=>(key,null)).reduceByKey((key,value)=>key) .map(_._1) ...
分类:其他好文   时间:2020-05-17 19:29:13    阅读次数:147
Spark 数据分析调优 (一)
Apache Spark Job 调优以提高性能(一) 假设你已经清楚了Spark 的 RDD 转换,Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时,Job、stage和task 也很清楚了。 如果不清楚可以看我的视频(。。。。) 在本文中,您将了解Spark程序 ...
分类:其他好文   时间:2020-05-17 17:50:13    阅读次数:102
HADOOP-HIVE分区,桶,倾斜概念
HIVE分区,桶,倾斜概念 ref:https://edu.hellobi.com/course/93/play/lesson/2037 静态分区: 按日期来分区 动态分区: 商品二级类目分区(图书、数码等),是不确定的 set hive.exec.dynamic.partition 查看设置tru ...
分类:其他好文   时间:2020-05-17 17:42:14    阅读次数:76
hadoop系列整理---Zookeeper
https://www.cnblogs.com/swordfall/p/8667409.html Zookeeper安装使用及工作原理分析 https://www.cnblogs.com/yuyijq/p/3424473.html Zookeeper能做什么https://www.cnblogs.c ...
分类:其他好文   时间:2020-05-17 09:21:36    阅读次数:58
[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境
最近spark上机练习比较多,原先采用了虚拟机的方式做练习 第一机器性能比较差,本地体验不好 第二用vscode比较多,轻量好用又熟悉 所以周末抽时间把环境布到开发机上去 构建流程: 安装vscode 安装msys2/mingw等模拟shell环境,安装ssh相关组件 这个可以偷个懒直接装 git ...
分类:其他好文   时间:2020-05-16 18:39:35    阅读次数:133
学习记录CombineFileInputFormat类
基本摘自网上给自己做一记录,如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。 其继承关系如下: InputFormat >FileInpu ...
分类:其他好文   时间:2020-05-16 17:13:54    阅读次数:87
19831条   上一页 1 ... 77 78 79 80 81 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!