码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
一、hadoop基本介绍
1.Hadoop的整体框架 Hadoop是由许多元素构成的,最核心的是HDFS(分布式文件系统),它存储了Hadoop集群中所有DataNode文件,HDFS的上一层是MapReduce引擎,MapReduce是一种计算模型,用以进行大数据量的计算。 HDFS HDFS是Hadoop项目的核心子项目 ...
分类:其他好文   时间:2020-04-27 13:27:50    阅读次数:70
单词统计
package hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.h ...
分类:其他好文   时间:2020-04-27 09:35:22    阅读次数:59
spark 数据分析 之数据清理
//清理格式不匹配的数据 //此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j ...
分类:其他好文   时间:2020-04-26 21:00:10    阅读次数:120
spark中的pair rdd,看这一篇就够了
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是spark专题的第四篇文章,我们一起来看下Pair RDD。 定义 在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的PairRDD,也叫做键值对RDD, ...
分类:其他好文   时间:2020-04-26 20:51:45    阅读次数:83
spark_sql
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:数据库   时间:2020-04-26 18:43:28    阅读次数:81
每日一题 为了工作 2020 0426 第五十五题
// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...
分类:其他好文   时间:2020-04-26 16:43:00    阅读次数:64
hadoop 简单安装部署
hadoop第一课:虚拟机搭建和安装hadoop及启动 hadoop第二课:hdfs集群集中管理和hadoop文件操作 hadoop第三课:java开发hdfs hadoop第四课:Yarn和Map/Reduce配置启动和原理讲解 hadoop第五课:java开发Map/Reduce ...
分类:其他好文   时间:2020-04-26 09:15:01    阅读次数:50
hadoop 伪分布配置
配置 Hadoop 伪分布式 任务配置说明: VMware 15 Centos 6.5 java -jdk 1.8 hadoop-2.6.0-cdh5.14.0.tar.gz 第一步 自行安装虚拟机 第二步 开始大配置 修改主机名和用户名 vim /etc/sysconfig/network --( ...
分类:其他好文   时间:2020-04-26 01:41:23    阅读次数:69
HBase入门配置
1.修改hbase env.sh文件 2.修改hbase site.xml文件 3.在conf文件夹中创建hadoop配置文件的软链接 4.分发配置 5.启动RegionServer、Master,只能在指定master节点启动master服务(与Yarn中ResourceManager类似) == ...
分类:其他好文   时间:2020-04-26 01:22:24    阅读次数:78
hadoop三大核心组件介绍
1、Hadoop概述 1.1 Hadoop是什么 Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台 1.2 核心组件 分布式存储系统 HDFS(Hadoop Distributed File System),提供了高可靠性、高扩展性和高吞吐 ...
分类:其他好文   时间:2020-04-25 19:07:28    阅读次数:107
19831条   上一页 1 ... 87 88 89 90 91 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!