本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么 ...
分类:
编程语言 时间:
2016-05-30 12:59:31
阅读次数:
438
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache?Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能....
分类:
编程语言 时间:
2016-05-30 11:25:52
阅读次数:
289
http://product.dangdang.com/23829918.html Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中 MLlib是 Spark框架使用的核心。本书是一本细致介绍 Spark MLl ...
分类:
其他好文 时间:
2016-05-29 13:38:08
阅读次数:
157
本期内容: 1 RDD生成生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark St ...
分类:
其他好文 时间:
2016-05-22 14:00:31
阅读次数:
147
本期内容: 1 数据流生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark Stre ...
分类:
其他好文 时间:
2016-05-22 13:59:28
阅读次数:
132
本期内容: 1 Receiver生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark ...
分类:
其他好文 时间:
2016-05-22 13:59:20
阅读次数:
169
本期内容: 1 JobScheduler内幕实现 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 S ...
分类:
其他好文 时间:
2016-05-22 13:55:09
阅读次数:
144
本期内容: 1 Job动态生成 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark Stre ...
分类:
其他好文 时间:
2016-05-22 13:50:09
阅读次数:
144
原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言 提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是 ...
分类:
其他好文 时间:
2016-05-18 23:43:17
阅读次数:
432
昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数:
numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。
maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具...
分类:
其他好文 时间:
2016-05-13 14:58:40
阅读次数:
296