张长水:大数据时代的机器学习 VS 传统机器学习
从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:
数据量大导致计算困难
分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
大数据使样本空间原本“空旷”的区域出现样本,...
分类:
其他好文 时间:
2014-07-24 23:37:33
阅读次数:
370
似然函数:似然函数在形式上就概率密度函数。 似然函数用来估计某个参数。最大似然函数:就是求似然函数的最大值。 最大似然函数用于估计最好的参数。最小二乘法:它通过最小化误差的平方和寻找数据的最佳函数匹配。就是求 y=a1+a2x的系数。通过最小化误差的平方,然后求系数的偏导数,令导数为0,求...
分类:
其他好文 时间:
2014-07-24 22:50:53
阅读次数:
261
集成学习(Esemble learning) 在机器学习领域,如何根据观察数据学习一个精确的估计数据是一个主要问题。 通常,我们通过训练数据应用某个算法得出一个训练模型,然后使用评估数据来评估这个模型的预测正确率,最后如果我们可以接受这个正确率就使用该模型进行预测数据。通常我们将训练数据进行交叉.....
分类:
其他好文 时间:
2014-07-24 17:32:05
阅读次数:
234
——转 聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。--....
分类:
其他好文 时间:
2014-07-23 15:24:26
阅读次数:
316
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
机器学习新手,接触的是《机器学习实战》这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如,对于垃圾邮件的检...
分类:
编程语言 时间:
2014-07-22 23:37:57
阅读次数:
366
本文是Andrew Ng在Coursera的机器学习课程的笔记。整体步骤确定网络模型初始化权重参数对于每个样例,执行以下步骤直到收敛计算模型输出:forward propagation计算代价函数:比较模型输出与真实输出的差距更新权重参数:back propagation确定网络模型神经网络模型由输...
分类:
其他好文 时间:
2014-07-22 23:36:27
阅读次数:
376
原文出处:http://blog.csdn.net/amblue/article/details/17023485 在NLP和机器学习中经常会遇到这两种显著不同的模型,在学习阶段(训练阶段)和评估阶段(测试阶段)都有不同的表现总结一下它们之间的区别,欢迎补充:1. 二者最本质的区别是建模对象不同 假...
分类:
其他好文 时间:
2014-07-22 22:43:13
阅读次数:
150
梯度下降、神经网络、BP神经网络,以及结合前述知识实际应用。文章走马观花把这几天学的知识滤了一遍,主要是有很多好的资料
分类:
其他好文 时间:
2014-07-22 22:40:35
阅读次数:
273
斯坦福ML公开课笔记15
我们在上一篇笔记中讲到了PCA(主成分分析)。PCA是一种直接的降维方法,通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果。
本文继续PCA的话题,包括PCA的一个应用——LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现——SVD(Singular Value Decomposition,奇异值分解),在SVD和LSI结束之后,关于PCA的内容就告一段落。视频的后半段开始讲无监督学习的一种——ICA(Indepen...
分类:
其他好文 时间:
2014-07-22 14:16:14
阅读次数:
314