这篇是计算机类的优质预售推荐>>>>《Spark机器学习》
当机器学习遇上最流行的并行计算框架Spark......
编辑推荐
Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache
Spark就是这...
分类:
其他好文 时间:
2015-08-18 10:17:25
阅读次数:
205
86讲 http://www.tudou.com/programs/view/30qvTnUD3nE/for表达式的生成器定义和过滤器 本节都是学过的,所以就不多说什么了//val content=for(x<-List(1,2,3); y<- List("Hadoop","Spark","Fli....
分类:
其他好文 时间:
2015-08-17 23:21:25
阅读次数:
176
我通过伯乐在线翻译的一篇Apache Spark的简介文章。
分类:
Web程序 时间:
2015-08-17 19:25:14
阅读次数:
173
IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、 创新的GUI设计等方面的功能可以说是超常的。IDEA是JetBrains公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。...
分类:
其他好文 时间:
2015-08-17 10:13:40
阅读次数:
247
因为最近要做个数据研究,需要把数据入库,开源数据库中,同学们一般可能都会选择mysql,不过mysql 的一些函数能是在太累,因此我这边换成使用起来与oracle 更为相似的postgresql,近来这个数据库也是极其热门,上升速度很快。
下面做个编译与安装介绍,以下内容基本都来自德哥分享(http://blog.163.com/digoal@126/)的文档,感谢德哥的分享。
Postg...
分类:
数据库 时间:
2015-08-16 23:06:36
阅读次数:
292
启动hadoop,启动Spark。 造一份简单的测试数据customers.txt,为了方便,我把它放在了spark/bin目录:100, John Smith, Austin, TX, 78727200, Joe Johnson, Dallas, TX, 75201300, Bob Jone...
分类:
数据库 时间:
2015-08-16 21:02:05
阅读次数:
312
相信很多人在开始用Spark的时候一定会遇到 Task not serializable的问题,这种问题大多数都是在RDD的算子中调用了不能序列化的对象引起的。为什么传入算子中的对象一定要能够序列化呢?这就要从Spark本身说起,...
分类:
其他好文 时间:
2015-08-16 16:53:11
阅读次数:
124
2015-08-16 15:58PM 公司,星期日,下雨
分类:
其他好文 时间:
2015-08-16 16:23:04
阅读次数:
154
我们使用 sbt 创建、测试、运行和提交作业。该教程会解释你在我们的课程中将会用到的所有 sbt 命令。工具安装页说明了如何安装
sbt。我们一般将代码和库做成jar包,通过spark-submit 提交到spark 集群上运行。
1)下载安装:
http://www.scala-sbt.org/
2)创建工程:
比如现在的工程名为“sparksample”。那么...
分类:
其他好文 时间:
2015-08-16 12:29:01
阅读次数:
224