本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html
我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示:
上传到服务器后,解压并查看:
查看Sogou文件内容:
该文件的格式如下所示:
访问时间 \t 用户ID \t 查询词 \t 该URL在返...
操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的”LICENSE.txt“文件: 用spark读取这个文件: 使用count统计该文件的行数: ?我们可以看到count 耗...
日志字段格式:
id,ip,url,ref,cookie,time_stamp
把日志文件放到HDFS。仅取了1000行。
hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input
计算PV。
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:
其他好文 时间:
2015-01-28 14:41:15
阅读次数:
421
【测试类】 1 public static void main(String[] args) 2 { 3 try 4 { 5 File textFile = new File("F:\\java56班\\eclipse-SDK-...
分类:
其他好文 时间:
2015-01-25 22:18:17
阅读次数:
168
Hive文件格式
1、 TextFile
默认文件格式
数据不做压缩,磁盘开销大,数据解析开销大,可以结合Gzip、Bzip2使用(系统自动检测,执行查询时自动解压)
数据不会被Hive切分,所以无法对数据进行并行操作
创建命令:
2、 SequenceFile
是Hadoop API提供的一种二进制文件支持
使用方便、可分割、可压缩的特点
支持三种压缩方式...
分类:
其他好文 时间:
2015-01-24 15:53:06
阅读次数:
183
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count...
继上次的问题。在提取了大量的Email 数据后。现在读取数据成了一个问题。今天我取过1~100w的数据。明天我要取100w~200w的数据。在不用数据库的情况下,我搞了一个下午。Delphi Tstringlist 和 textfile 的简单读取是满足不了的。Tstringlist加载不了大数据。普通的textfile 读取指定行,必须循环count到指定行。
想了一下午,然后想到另类...
初始化参数文件:-PFILE:Staticparameterfile,PFILE-SPFILE:Persistentserverparameterfile,SPFILEPFILE--initSID.ora·Textfile·Modifiedwithanoperatingsystemeditor·Modificationsmademanually·Changestakeeffectonthenextstartup·Onlyopenedduringinstancestartup·D..
分类:
数据库 时间:
2014-12-04 18:18:38
阅读次数:
308
Spark累加器使用
使用spark累加器,解决视频平均播放数计算,以及视频播放数平方和平均值
val totalTimes=sc.accumulator(0l)
val totalVids=sc.accumulator(0)
val totalPow2Times=sc.accumulator(0d)
val timesFile=sc.textFile("/user/zheny...
分类:
其他好文 时间:
2014-11-27 18:24:55
阅读次数:
192
写作目的最近由于研究需要,使用R语言对文本进行了主题发现,下面对具体过程进行记录。步骤一:读取文本并进行预处理本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析,文件名为download_2.txt 目录为c:\\data\\,具体代码为:#文件路径textfile<-"C:\\...
分类:
编程语言 时间:
2014-11-22 11:49:12
阅读次数:
752