码迷,mamicode.com
首页 > 其他好文 > 详细

spark总结3

时间:2017-09-16 13:41:18      阅读:150      评论:0      收藏:0      [点我收藏+]

标签:com   textfile   ext   log   分享   文本   key   es2017   shel   

cd 到hadoop中  

 然后格式化      进入到 bin下 找到 hdfs  然后看看里面有哈参数:

 ./hdfs namenode -format   格式化

 

然后启动 sbin/start-dfs.sh

hdfs的关系界面   

http://192.168.94.132:50070/

 

创建文本:

技术分享

 

   创建个目录   hdfs dfs -mkdir /wc      创建个目录

 

上传3份

技术分享

 

打开spark-shell

分配下资源哦 而且不要启动单机版的 要启动集群

把 wc下面的文件都读取了 哈哈哈

技术分享

 

 如果要保存到hdfs中去呢?

技术分享

 

 用spark shell  用scala 了

 

把hive 配置文件放到 spark 的conf 中 以后让 hive 直接跑在spark上面    爽了  更快

hive on spark   换了个执行引擎

 

------------------------------------------------------------------------------------------------------

1.首先启动hdfs

2.向hdfs上传一个文件到hdfs://node1.itcast.cn:9000/words.txt

3.在spark shell中用scala语言编写spark程序

sc.textFile("hdfs://node1.itcast.cn:9000/words.txt").flatMap(_.split(" "))        

.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://node1.itcast.cn:9000/out")

(先从hdfs中读数据 然后  读进来的数据flatMap 进行切分 压扁,  map把每个元素取出来进行相应操作,生成rdd(以前都是数组或集合的方法操作),reduceBykey rdd独有的, sortBy  )

 

4.使用hdfs命令查看结果

hdfs dfs -ls hdfs://node1.itcast.cn:9000/out/p*

 

spark总结3

标签:com   textfile   ext   log   分享   文本   key   es2017   shel   

原文地址:http://www.cnblogs.com/toov5/p/7530596.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!