一、从csv文件创建DataFrame
本文将介绍如何从csv文件创建DataFrame。
如何做?
从csv文件创建DataFrame主要包括以下几步骤:
1、在build.sbt文件里面添加spark-csv支持库;
2、创建SparkConf对象,其中包括Spark运行所有的环境信息;
3、创建SparkContext对象,它是进入Spark的核心切入点,...
分类:
其他好文 时间:
2016-05-23 15:07:15
阅读次数:
250
分析日志的包自己编译下:sbt compile
sbt test
sbt package
ApacheLogParser.jar对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了。代码:import com.alvinalexander.accesslogparser._
val p = new AccessLogParser
val log = sc.textFile("...
分类:
Web程序 时间:
2016-05-15 02:35:45
阅读次数:
241
文章转载自http://beike.iteye.com/blog/1575296 SBT = (not so) Simple Build Tool,是scala的构建工具,与java的maven地位相同。其设计宗旨是让简单的项目可以简单的配置,而复杂的项目可以复杂的配置。。。 https://git ...
分类:
其他好文 时间:
2016-05-13 23:24:58
阅读次数:
498
只是为了简单实现一个算法,想用到breeze算法库。想把breeze当做external libraryies直接导入工程。可是官网没有,网上搜索更多的是在sbt工程或maven工程下。 后来实现目标。 两种途径:第一种也是最笨最直接可后期却最方便的方法:新建一个sbt工程,导入breeze库,随后 ...
分类:
其他好文 时间:
2016-05-09 18:48:00
阅读次数:
152
简介
基于sbt的方法
基于IDEA的方法
简介本次任务是对打包第三包 lazy-linalg
该包,包含了sbt的脚本基于sbt的方法下载源码解压后,在命令行模式(cmd)进入到源码所在的地址
E:\Workdir\ScalaWorkdir\lazy-linalg-master
然后执行命令:sbt这种方法简单,但是编译过程需要联网下载大量依赖的jar包
由于受到联网的影响,所以还未成功基...
分类:
其他好文 时间:
2016-05-07 08:44:46
阅读次数:
196
tools
zsh
为啥需要zsh,因为能更快更方便的进行代码提示与代码补全,每个人的精力都是有限的,能打一个字母出来结果就绝对不打第二个。
plugins=(git brew mvn svn svn-fast-info sbt go pip zsh-syntax-highlighting npm) vim
vim是大二学操作系统的时候看老师折腾红帽的时候看到的,发现这个编辑器很有b格,而且花...
分类:
系统相关 时间:
2016-05-03 18:44:51
阅读次数:
366
spark1.4 Windows local调试环境搭建总结 1.scala版本 scala-2.10.4 官方推荐 scala-2.11.7【不推荐,非sbt项目、需要后加载】 2.spark版本 spark-1.4.0-bin-hadoop2.6.tgz 3.hadoop 3.1版本 hadoo ...
分类:
其他好文 时间:
2016-04-29 14:23:13
阅读次数:
205
1、cassandra 准备 启动cqlsh, 2、spark cassandra conector jar包 新建空项目,使用sbt,引入connector,打包为spark-cassandra-connector-full.jar 这步的意义在于:官方的connector包没有将依赖打进去,所以 ...
分类:
其他好文 时间:
2016-04-24 18:28:43
阅读次数:
194
我64位机器,当时hadoop启动的时候出现这个问题是因为hadoop本身自带的本地库是32位的,我现在hadoop2.2.0已经替换了本地库为64位的了,并且编译spark的时候采用了相对应的版本:SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/s ...
分类:
其他好文 时间:
2016-04-16 22:51:03
阅读次数:
199
FROM: http://www.4wei.cn/archives/1002417 sbt运行时经常需要下载大量的jar包,默认连接到maven官网,速度通常比较慢。在`~/.sbt/`下添加一个`repositories`文件,里面内容如下: ...
分类:
其他好文 时间:
2016-04-16 20:57:35
阅读次数:
184