码迷,mamicode.com
首页 > 其他好文 > 详细

idea_pyspark 环境配置

时间:2017-05-26 23:21:16      阅读:266      评论:0      收藏:0      [点我收藏+]

标签:rom   添加   ges   top   park   插件   plugin   str   nbsp   

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安装py4j

  pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

技术分享

右边搜索框中 搜索Python,下载插件

技术分享

5、下载完后,重启软件,建立Python项目,导入pyspark的包文件

技术分享

导入步骤:file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去

 

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession         .builder         .master("local")         .appName("PythonWordCount")         .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

 

7、目前观察不能读取本地的数据,只能读取HDFS上的数据

 

idea_pyspark 环境配置

标签:rom   添加   ges   top   park   插件   plugin   str   nbsp   

原文地址:http://www.cnblogs.com/LazyJoJo/p/6910504.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!