底理解Spark,能够分为以下几个层次。1 Spark基础篇 1.1 Spark生态和安装部署 在安装过程中,理解其基本操作步骤。 安装部署 Spark安装简单介绍 Spark的源代码编译 Spark Standalone安装 Spark Standalone HA安装 ...
分类:
其他好文 时间:
2014-08-11 14:38:42
阅读次数:
247
加上两个下划线变量或者方法变为私有。 >>> class Bird: ... __song = "spark" ... def sing(self): ... return self.__song ... >>> b = Bird() >>> b.sing() 'spark' ...
分类:
编程语言 时间:
2014-08-10 18:12:40
阅读次数:
284
Spark特别适用于多次操作特定的数据,分mem-only和mem & disk。其中mem-only:效率高,但占用大量的内存,成本很高;mem
& disk:内存用完后,会自动向磁盘迁移,解决了内存不足的问题,却带来了数据的置换的消费。Spark常见的调优工具有nman、Jmeter和Jprofile,以下是Spark调优的一个实例分析:
1、场景:精确客户群
对一个容量为300g的客...
分类:
其他好文 时间:
2014-08-09 23:19:39
阅读次数:
301
extensionArray{
funcfoldLeft(a:T,action:(T,T)->T)->T{
varret:T=a
forb:Tinself{
ret=action(ret,b)
}
returnret
}
}把这个放到项目当中任何一个swift文件当中,即可全局访问。示例:求最小值vart=[1,3,5,4,9,100,6,-2]
letb=t.foldLeft(t[0],action:{a,binifa<b{r..
分类:
其他好文 时间:
2014-08-08 09:45:16
阅读次数:
223
下面是一个依赖管理语句(sbt)libraryDependencies ++= Seq(javaJdbc, javaEbean)这里的javaJdbc javaEbean出自下面所示的地方:playframework/framework/src/sbt-plugin/src/main/scala/P...
分类:
其他好文 时间:
2014-08-08 04:18:15
阅读次数:
262
5个提案的14个开题报告,涉及数据可视化实践、社交云电视模型、Spark上流式机器学习算法实现、基于云存储的Linux系统增强服务和网络拓扑距离的高效KNN查询。...
分类:
其他好文 时间:
2014-08-07 18:58:10
阅读次数:
306
Scala函数默认使用最后一个语句的运行结果作为返回值。例如def distance(a:Int,b:Int):Int={ a*a+b*b}以a*a+b*b的运行结果作为返回值。这种返回值的方式渊源于其他函数式语言Lisp/Haskell等(个人猜测)。在近期工作中,我写了如下的代码:def br....
分类:
其他好文 时间:
2014-08-07 13:01:20
阅读次数:
270
最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例/*******************oldhadoopapi*************************/
valconfHadoop=newJobConf
confHadoop.set("mapred.output.compress","true")
confHadoop.set("mapred.output.compression.c..