阅读导读:
1.简述用Mahout实现协同过滤ItemCF的步骤?
2.如何用API实现Hadoop的各种HDFS命令?
3.Kmeans.java类报错,暂时可以怎么处理?
1.
Mahout开发环境介绍
在用Maven构建Mahout项目文章中,我们已经配置好了基于Maven的Mahout的开发环境,我们将继续完成Mahout的分步式的程序开发。
本文的...
分类:
其他好文 时间:
2014-10-26 14:23:16
阅读次数:
297
一、数据预处理1、数据如果能够满足其应用的要求,那么他是高质量的。 数据质量涉及许多因素:准确性、完整性、一致性、时效性、可信性、可解释性。2、数据预处理的主要任务:数据清洗、数据集成、数据规约、数据变换。二、数据清理:试图填充缺失值,光滑噪声、识别利群点、纠正数据中的不一致。1、缺失值的处理:1)...
分类:
其他好文 时间:
2014-10-25 22:56:59
阅读次数:
291
节选自《大数据日知录:架构与算法》十四章,书籍目录在此, Pregel是Google提出的大规模分布式图计算平台,专门用来解决网页链接分析、社交数据挖掘等实际应用中涉及的大规模分布式图计算问题。...
分类:
数据库 时间:
2014-10-25 09:17:27
阅读次数:
408
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。...
分类:
编程语言 时间:
2014-10-24 13:03:41
阅读次数:
303
reference: http://www.52nlp.cn/python-%e7%bd%91%e9%a1%b5%e7%88%ac%e8%99%ab-%e6%96%87%e6%9c%ac%e5%a4%84%e7%90%86-%e7%a7%91%e5%ad%a6%e8%ae%a1%e7%ae%97-%...
分类:
编程语言 时间:
2014-10-24 10:33:17
阅读次数:
430
从理论指导角度,数据分析可以划分为基于统计学的和基于数据挖掘的数据分析方法,很显然基于统计学的相对容易理解一些,而数据挖掘对高等数学要求会高一些,相信毕业十几年的同学很可能连A*X**2+B*X+C=0都快忘记了,甚至我不确定等小孩上了初中能不能教的了他数学。从分析的出..
分类:
其他好文 时间:
2014-10-24 06:57:34
阅读次数:
282
"Clustering by fast search and find of density peaks"是今年6月份在《Science》期刊上发表的的一篇论文,论文中提出了一种非常巧妙的聚类算法。经过几天的努力,终于理解并用python实现了文中的算法,下面与大家分享一下自己对算法的理解及实现过程中遇到的问题和解决办法。
首先,该算法是基于这样的假设:类簇中心被具有较低局部密度的邻居点...
分类:
其他好文 时间:
2014-10-23 00:05:18
阅读次数:
368
说说我自己的背景吧,我是个半吊子的程序员,做任何事情喜欢比较了解然后再尝试,我接触过很多语言,大多数都把它当成工具来使用我现在的工作大部分主要在于数据挖掘与机器学习方面,也学习web开发,我第一个拿来工作的语言是python,我是从那里得知函数式编程的概念的说起lisp据说python就是模仿的li...
分类:
编程语言 时间:
2014-10-22 23:35:37
阅读次数:
222
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
编程语言 时间:
2014-10-21 22:51:45
阅读次数:
333
大数据的热门使得非常多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作。可是该从何開始呢?要如何才干高速学到一些实用的知识,技能呢?我认为有三个切入点,按照个人特点能够自行选择顺序切入。1机器学习/数据挖掘数据挖掘主要依赖于大部分机器学习算法,近些年因为深度学习算法的开发以及无人驾驶汽车等...
分类:
其他好文 时间:
2014-10-21 21:14:11
阅读次数:
239