分析日志的包自己编译下:sbt compile
sbt test
sbt package
ApacheLogParser.jar对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了。代码:import com.alvinalexander.accesslogparser._
val p = new AccessLogParser
val log = sc.textFile("...
分类:
Web程序 时间:
2016-05-15 02:35:45
阅读次数:
241
hive文件的存储格式:textfile、sequencefile、rcfile、自定义格式...
分类:
其他好文 时间:
2016-05-13 03:06:42
阅读次数:
241
Hive基础语法 1、创建表 – 用户表 hive目前支持三种方式: 1)就是最普通的textfile,数据不做压缩,磁盘开销大,解析开销也大 2)SquenceFIle,hadoop api提供的一种二进制API方式,其具有使用方便、可分割、可压缩等特点。 3)rcfile行列存储结合的方式,它会 ...
分类:
其他好文 时间:
2016-05-02 16:49:09
阅读次数:
317
scala> val file=sc.textFile("/workspace/bpUserinfo_logs/bpUserinfo_20160212.log") scala> val count=file.flatMap(line => line.split(" ")).map(word => (
分类:
其他好文 时间:
2016-02-16 14:46:09
阅读次数:
135
Hive文件存储格式包括以下几类: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORCFILE(0.11以后出现) 其中TEXTFILE是默认格式,建表是不指定默认为这个格式,导入数据时会直接把数据文件拷贝到HDFS上不进行处理。SEQUENCEFILE、RCFILE、
分类:
其他好文 时间:
2016-01-31 21:35:35
阅读次数:
234
2.HTML 或 JSP 页面中添加上传按钮 选择文件: 3.Controller public String addContentB(@RequestParam("textFile") MultipartFile textFile,HttpServl...
分类:
编程语言 时间:
2016-01-20 11:20:09
阅读次数:
268
sc.parallelize():创建RDD,建议使用xrangegetNumPartitions():获取分区数glom():以分区为单位返回listcollect():返回list(一般是返回driver program)例子:sc.textFile(path):读取文件,返回RDD官网函数:t...
分类:
其他好文 时间:
2015-12-30 23:42:48
阅读次数:
259
Spark能够从任何支持Hadoop的存储源来创建RDD,包括本地的文件系统,HDFS,Cassandra,Hbase,Amazon S3等。Spark支持textFile、SequenceFiles和任何其他的Hadoop的InputFormat格式的数据。1、textfile的RDD可以通过.....
分类:
其他好文 时间:
2015-12-21 17:39:56
阅读次数:
125
IDEA开发WordCount(Spark)报错WordCount{
}
WordCount{
(args:Array[]){
hadoopAddr=conf=SparkConf().setAppName()
sc=SparkContext(conf)
mapRdd=sc.textFile(hadoopAddr)
result=mapRdd.flatMap(_.split()).map((_)).reduceByKey(_+_).collect()
}
}UsingSpark‘sdefault..
分类:
其他好文 时间:
2015-12-09 07:24:18
阅读次数:
232
1.文本文件(1)读取文本文件JavaRDD input =sc.textFile(dir)(2)保存文本文件result.saveAsTextFile(dir);2.Json (1)gson①Gson中需要创建JavaBean实体类来说明json的格式。以下是javaBean的示例程序,Perso...
分类:
其他好文 时间:
2015-11-30 20:00:20
阅读次数:
502