码迷,mamicode.com
首页 >  
搜索关键字:mllib    ( 244个结果
【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习
本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么 ...
分类:编程语言   时间:2016-05-30 12:59:31    阅读次数:438
地铁译:Spark for python developers ---Spark与数据的机器学习
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache?Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能....
分类:编程语言   时间:2016-05-30 11:25:52    阅读次数:289
《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中 MLlib是 Spark框架使用的核心。本书是一本细致介绍 Spark MLl ...
分类:其他好文   时间:2016-05-29 13:38:08    阅读次数:157
Spark版本定制第8天:RDD生成生命周期彻底
本期内容: 1 RDD生成生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark St ...
分类:其他好文   时间:2016-05-22 14:00:31    阅读次数:147
Spark版本定制第10天:流数据生命周期和思考
本期内容: 1 数据流生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark Stre ...
分类:其他好文   时间:2016-05-22 13:59:28    阅读次数:132
Spark版本定制第9天:Receiver在Driver的精妙实现全生命周期彻底研究和思考
本期内容: 1 Receiver生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark ...
分类:其他好文   时间:2016-05-22 13:59:20    阅读次数:169
Spark版本定制第7天:JobScheduler内幕实现和深度思考
本期内容: 1 JobScheduler内幕实现 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 S ...
分类:其他好文   时间:2016-05-22 13:55:09    阅读次数:144
Spark版本定制第6天:Job动态生成和深度思考
本期内容: 1 Job动态生成 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark Stre ...
分类:其他好文   时间:2016-05-22 13:50:09    阅读次数:144
使用 Spark MLlib 做 K-means 聚类分析[转]
原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言 提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是 ...
分类:其他好文   时间:2016-05-18 23:43:17    阅读次数:432
在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别
昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数: numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。 maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具...
分类:其他好文   时间:2016-05-13 14:58:40    阅读次数:296
244条   上一页 1 ... 13 14 15 16 17 ... 25 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!