码迷,mamicode.com
首页 > 数据库 > 详细

[DB] Spark--Spark Core

时间:2020-06-03 20:48:29      阅读:89      评论:0      收藏:0      [点我收藏+]

标签:exp   dsp   mllib   zookeeper   and   files   测试   mamicode   机器学习算法   

生态

  • Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集)
  • Spark SQL
  • Spark Streaming
  • Spark MLLib:机器学习算法
  • Spark Graphx:图计算

特点

  • 针对大规模数据处理的快速通用引擎
  • 基于内存计算
  • 速度快,易用,兼容性强

体系架构

  • 主节点:Cluster Manager(Standalone时叫Master)
  • 从节点:Worker(占用节点上所有资源,耗内存,没用内存管理机制,易OOM)

技术图片技术图片

安装部署

  • 安装jdk,配置主机名,配置免密码登录
  • 伪分布(Standalone):一台机器上模拟分布式环境(Master+Worker)
    • 核心配置文件:conf/spark-env.sh
      • cp spark-env.sh.template spark-env.sh
      • export JAVA_HOME=/root/training/jdk1.8.0_144
      • export SPARK_MASTER_HOST=bigdata111
      • export SPARK_MASTER_PORT=7077
    • 启动:sbin/start-all.sh
    • Web Console:http://192.168.174.111:8080/
  • 全分布:先在主节点上安装,再把装好的目录复制到从节点上 
    • scp -r spark-2.1.0-bin-hadoop2.7/ root@bigdata114:/root/training
    • 在主节点上启动集群

HA

  • 基于文件目录
    • 本质还是只有一个主节点
    • 创建恢复目录保存状态信息
    • 主要用于开发和测试
    • mkdir /root/training/spark-2.1.0-bin-hadoop2.7/recovery
    • spark-env.sh
    • export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/root/training/spark-2.1.0-bin-hadoop2.7/recovery"

技术图片

  • 基于zookeeper
    • 用于生产环境
    • 相当于数据库
    • 数据同步,选举功能,分布式锁(秒杀)
    • 步骤
      • 设置时间同步
      • date -s 2020-06-03
      • 启动zk
      • 配置spark-env.sh,注释掉最后两行,添加:
      • export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata112:2181,bigdata113:2181,bigdata114:2181 -Dspark.deploy.zookeeper.dir=/spark"

      • bigdata112上启动spark集群后,在bigdata114上启动Master

技术图片  技术图片

工具

  • spark-submit:用于提交Spark任务(jar包) 
  • spark-shell:相当于REPL,命令行工具 
    • bin/spark-shell

技术图片

参考

spark.apache.org

[DB] Spark--Spark Core

标签:exp   dsp   mllib   zookeeper   and   files   测试   mamicode   机器学习算法   

原文地址:https://www.cnblogs.com/cxc1357/p/12713187.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!