频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:
编程语言 时间:
2015-02-01 13:33:53
阅读次数:
310
一天一段scala代码(四)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
object Example4 {
def main(args: Array[String])
{
//不可变Map
val...
分类:
其他好文 时间:
2015-01-30 22:45:37
阅读次数:
226
安装JDK
java 运行环境 步骤不详说了 学过java的都会
安装scala
1.下载scala
http://yunpan.cn/cKxPMQLtJVdsU 提取码 6784
版本是2.11.4
2.双击scala 安装文件 ,界面如下
单击Next,
勾选 I accept the...
分类:
其他好文 时间:
2015-01-30 17:46:52
阅读次数:
163
一天一段scala代码(三)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.collection.mutable.ArrayBuffer
object Example3 {
def main(args: Ar...
分类:
其他好文 时间:
2015-01-29 22:34:12
阅读次数:
188
scala> val set = Set(3,2,4,8,1)
set: scala.collection.immutable.Set[Int] = Set(1, 2, 3, 8, 4)
scala> set.min
res58: Int = 1
scala> set.max
res59: Int = 8
scala> set.size
res60: Int = 5
scala> v...
分类:
其他好文 时间:
2015-01-29 14:46:49
阅读次数:
147
笔记的整理主要针对Scala对比Java的新特性; 1、if表达式 if表达式是有结果返回的。 val a= if (5>2) “你好” else 1 a的值为if表达式返回值为 “你好” 2、while表达式 while表达式是没有返回值的(返回值为 Unit),在scala中避免使用,通常都需要...
分类:
其他好文 时间:
2015-01-29 09:18:13
阅读次数:
240
一天一段scala代码(二)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.util.control.Breaks._
object Example2 {
def main(args: Array[Stri...
分类:
其他好文 时间:
2015-01-28 21:27:38
阅读次数:
154
日志字段格式:
id,ip,url,ref,cookie,time_stamp
把日志文件放到HDFS。仅取了1000行。
hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input
计算PV。
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/ro...
分类:
其他好文 时间:
2015-01-28 14:41:15
阅读次数:
421
关于Cluster Manager和Deploy Mode的组合在SparkSubmit.scala的createLaunchEnv中有比较详细的逻辑。Cluster Manager基本上有Standalone,YARN和Mesos三种情况,说明Cluster Manager用来指明集群的资源管理器...
分类:
其他好文 时间:
2015-01-28 06:09:55
阅读次数:
1978
一天一段scala代码(-)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
object Example1
{
def main(args: Array[String])
{
//val用于声明可变变量
var coun...
分类:
其他好文 时间:
2015-01-27 21:52:29
阅读次数:
210