标签:添加 jar template cto 修改 文件 java spark EDA

// 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz
// 2. 修改配置文件
// 2.1 spark-env.sh.template
mv spark-env.sh.template spark-env.sh
SPARK_MASTER_HOST=IP地址
SPARK_MASTER_PORT=7077
// 3. 启动
sbin/start-all.sh
// 4. 浏览器访问
http://IP地址:8080
// 5. 测试官方案例
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
// 6. 使用 Spark Shell 测试 WordCount
bin/spark-shell --master spark://10.110.147.193:7077
sc.textFile("./RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
--class: 应用程序的启动类,例如,org.apache.spark.examples.SparkPi;--master: 集群的master URL;deploy-mode: 是否发布你的驱动到worker节点(cluster)或者作为一个本地客户端(client);--conf: 任意的Spark配置属性,格式:key=value,如果值包含空格,可以加引号"key=value";application-jar:打包好的应用 jar,包含依赖,这个URL在集群中全局可见。比如hdfs://共享存储系统,如果是file://path,那么所有节点的path都包含同样的jar;application-arguments: 传给main()方法的参数;spark-defaults.conf.template名称:mv spark-defaults.conf.template spark-defaults.conf;spark-defaults.conf文件,开启 Log:
spark.eventLog.enabled true;spark.eventLog.dir hdfs://IP地址:9000/directory;spark-env.sh 文件,添加如下配置:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://IP地址:9000/directory";sbin/start-history-server.sh;org.apache.spark.examples.SparkPi;http//IP地址:4000;spark-env.sh 文件,添加如下配置:
SPARK_MASTER_HOST=IP地址;SPARK_MASTER_PORT=7077export SPARK_DEAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=IP地址1, IP地址2, IP地址3 -Dspark.deploy.zookeeper.dir=/spark"标签:添加 jar template cto 修改 文件 java spark EDA
原文地址:https://www.cnblogs.com/linkworld/p/11070946.html