问题导读:1. 推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发...
分类:
其他好文 时间:
2014-06-25 09:46:57
阅读次数:
329
一。说明:
OLTP中有些表数据量大,而且会对历史数据进行迁移至OLAP中做数据挖掘。对这种历史数据迁移的操作,较好的办法是该表采用分区表。比如按时间分区后,可以对分区进行迁移。
通过分区交换和表空间传输会很容易完成,而且性能上影响很小。
关于分区表更多内容:http://blog.csdn.net/tanqingru/article/category/1397435
关于表空间传...
分类:
其他好文 时间:
2014-06-24 17:21:12
阅读次数:
260
机器学习顶级会议:NIPS, ICML, UAI, AISTATS;(期刊:JMLR, ML, Trends in ML, IEEE T-NN)计算机视觉和图像识别:ICCV, CVPR, ECCV;(期刊:IEEE T-PAMI, IJCV, IEEE T-IP)人工智能:IJCAI, AAAI;...
分类:
其他好文 时间:
2014-06-22 23:38:09
阅读次数:
324
一、隐马尔科夫HMM假设:
有且只有3种天气:0晴天,1阴天,2雨天
各种天气间的隔天转化概率mp:
mp[3][3]
晴天
阴天
雨天
晴天
0.33333
0.33333
0.33333
阴天
0.33333
0.33333
0.33333
雨天
0.3333...
分类:
其他好文 时间:
2014-06-21 18:29:43
阅读次数:
291
主要讲述反向传输神经网络(BP)算法的基本流程和自己在训练BP神经网络的一些经验。
分类:
其他好文 时间:
2014-06-21 17:51:47
阅读次数:
252
原文地址:http://www.csdn.net/article/2012-07-03/2807073-k-means摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。在数据挖掘中,K-Mea...
分类:
其他好文 时间:
2014-06-21 09:56:22
阅读次数:
208
[QQ群: 189191838,对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火。现在炒的非常热的大数据,其实也是数据挖掘的一个应用而已,不管工程师用的是Hadoop还是其他平台,其实都是对一堆的数据进行分析,计算,然后得到我们希望得到的结果。所以我们可以知道,文本数据挖掘的必要性是...
分类:
其他好文 时间:
2014-06-20 21:49:12
阅读次数:
255
关心数据挖掘和搜索引擎的程序员都知道,我们需要很多的计算机来存储和处理海量数据。然而,计算机难免出现硬件故障而导致网络联系失败或死机。为了保证搜索引擎的服务质量,我们需要保证每份数据都有多个备份。简单起见,假设每个机器存储一个标号为ID的记录(ID是小于十亿的整数),假设每份数据都保存两个备份,这样...
分类:
其他好文 时间:
2014-06-20 20:35:53
阅读次数:
188
算法定义 最大期望算法(Exception Maximization Algorithm,后文简称EM算法)是一种启发式的迭代算法,用于实现用样本对含有隐变量的模型的参数做极大似然估计。已知的概率模型内部存在隐含的变量,导致了不能直接用极大似然法来估计参数,EM算法就是通过迭代逼近的方式用实际的.....
分类:
其他好文 时间:
2014-06-20 17:39:58
阅读次数:
215