1. val lines=sc.textFile("hdfs://") ==加载进来成为RDD Resilient distributed dataset 弹性数据集 val errors=lines.filter(_.startsWith("ERROR")) ##transformation va ...
分类:
系统相关 时间:
2016-09-14 16:29:27
阅读次数:
304
1. 初始化Spark 2. 创建RDD的方法 内存:Parallelize 或者 makeRDD 外部文件:textFile 3. 键值对 下面两者等价: reduceByKey 和sortByKey、groupByKey 1)返回key 以及 每个key的个数 (key, cnt) 2)返回 ( ...
分类:
其他好文 时间:
2016-09-13 11:39:22
阅读次数:
147
前言测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。在impala中直接建内部表。测试
存储格式
压缩格式
文件大小
建表时间 textfile
none
3.0 G
38.74s
parquet
none
1.5 G
32.33s
parquet
snappy
709.3 M
31.71...
分类:
其他好文 时间:
2016-08-21 12:32:15
阅读次数:
210
scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.is ...
分类:
系统相关 时间:
2016-08-02 22:17:22
阅读次数:
233
1、安装完spark,进入spark中bin目录: bin/spark-shell scala> val textFile = sc.textFile("/Users/admin/spark/spark-1.6.1-bin-hadoop2.6/README.md") scala> textFile. ...
分类:
系统相关 时间:
2016-08-02 22:16:25
阅读次数:
256
进入交互界面./bin/spark-shell创建textFile,从本地文件,val textFile = sc.textFile("file:///usr/local/spark/README.md")从HDFS读取,scala> val textFile = sc.textFile("inpu... ...
分类:
其他好文 时间:
2016-06-25 08:25:25
阅读次数:
345
2,wordcount: val wordcount = sc.textFile("/user/s-44/wordcount.txt").flatMap(_.split(' ')).map((_, 1)).reduceByKey(_ + _).map(_.swap).sortByKey().coll ...
分类:
其他好文 时间:
2016-06-21 19:06:06
阅读次数:
171
字符乱码,windows->preference->general->workspace->textfile recoding 注释太小,windows->preference->general->appearance->colors and fonts->basic->text font->edi ...
分类:
编程语言 时间:
2016-06-20 10:04:02
阅读次数:
140
1.文本文件新建和读取使用 在窗体放一个按钮,点击输入 procedure TForm1.Button1Click(Sender: TObject);varbat : textfile;beginassignfile(bat, 'c:\123.txt'); //新建并打开文件rewrite(bat) ...
一种常见的编程任务是,从一个文件读取内容,修改内容,再把内容写到另一个文件里。 Java 要实现读取、写入操作,需要创建多个类才能产生一个 Stream 进行操作。 下面是一个简单的工具类,封装对文件的读、写操作,提供简洁的接口。 TextFile 工具类演示 参考资料 Page 672, File ...
分类:
编程语言 时间:
2016-05-31 09:01:34
阅读次数:
557