码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
hadoop创建目录
package com.hadoop.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import ...
分类:其他好文   时间:2020-06-25 17:23:59    阅读次数:69
文件下载
package com.hadoop.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import ...
分类:其他好文   时间:2020-06-25 17:19:12    阅读次数:66
hadoop源码编译
前期准备 可以正常联网 jar包准备 hadoop-xxx-src.tar.gz jdk-xxx-xxx-tar.gz apache-ant-xxx-bin.tar.gz apache-maven-xxx-bin.tar.gz protobuf-xxx.tar.gz jar包安装 jdk安装到mod ...
分类:其他好文   时间:2020-06-24 19:23:59    阅读次数:52
检查hdfs文件块占用情况
批量执行检查脚本: #!/bin/bash file_name="$1" if [ -z "$file_name" ];then echo "Pls input file path" exit 1 fi cat "$file_name"| while read line do hadoop fsck ...
分类:其他好文   时间:2020-06-24 17:58:36    阅读次数:56
Spark的Join连接
Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的 ...
分类:其他好文   时间:2020-06-24 16:28:44    阅读次数:53
kafka -> structuredStreaming读取kafka日志 ->自定义输出到mysql
package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} ...
分类:数据库   时间:2020-06-24 16:23:50    阅读次数:132
MR_Hive
数据准备:【1】mysql数据库导出,以逗号间隔,方便后期解析【2】提交服务器:rz 上传到Linux虚拟机中【3】提交到集群中:hadoop fs –put emp.csv /input搁浅:关闭安全模式:hdfs dfsadmin -safemode leave实现简单的输入内容到文件: -ec... ...
分类:其他好文   时间:2020-06-24 15:54:09    阅读次数:61
查看zookeeper的注册信息
/bin/目录下下 sh zkCli.sh 进入客户端目录下: 查看根目录 [zk: localhost:2181(CONNECTED) 11] ls /[cluster, controller, brokers, zookeeper, admin, isr_change_notification, ...
分类:其他好文   时间:2020-06-24 00:40:09    阅读次数:206
MapReduce并行编程模型
一、课前准备 1. 3节点hadoop集群 2. 安装IDEA 3. 安装maven并配置环境变量 二、课堂主题 1. 围绕MapReduce分布式计算讲解 三、课堂目标 1. 理解MapReduce编程模型 2. 独立完成一个MapReduce程序并运行成功 3. 了解MapReduce工程流程 ...
分类:其他好文   时间:2020-06-24 00:32:41    阅读次数:54
大数据应用技术课程实践--选题与实践方案
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择1.淘宝双11数据分析与预测 理由:之前接触过hadoop,所以打算重新把这个回忆起来。 意义:双十一的利益与我们密切相关,分析好了在双十一有可能可以更大折扣。 二、实践方案 简要说明理由。 利用虚拟机 ...
分类:其他好文   时间:2020-06-23 21:44:11    阅读次数:74
19831条   上一页 1 ... 56 57 58 59 60 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!