Microsoft Azure云服务推出机器学习的模块,用户只需上传数据,利用机器学习模块提供的一些算法接口和R语言或别的语言接口,就能利用Microsoft Azure强大的云计算能力来实现自己的机器学习的任务。本文浅尝了该机器学习模块,参照官方实例和帮助文档,完成了一个简单的应用实例,具体步骤如...
分类:
其他好文 时间:
2014-07-16 18:25:20
阅读次数:
240
高维数据的可伸缩最近邻算法FLANN
1. 简介
在计算机视觉和机器学习中,对于一个高维特征,找到训练数据中的最近邻计算代价是昂贵的。对于高维特征,目前来说最有效的方法是 the randomized k-d forest和the priority search k-means tree,而对于二值特征的匹配 multiple hierarchical clusteringtrees则...
分类:
其他好文 时间:
2014-07-15 10:42:24
阅读次数:
727
一、决策树原理 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。 决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树是一种知识表示形式,它是对所有样本数据的高度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。 决策树算法ID3的基本思想: 首先找出最有...
分类:
编程语言 时间:
2014-07-14 20:34:04
阅读次数:
391
1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样)。常用的采样算法有以下几种(来自百度知道): 一、单纯随机抽样(simple random sampling)
将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本。
优点:操作简单,均数、率及相应的标准误计算简单。
缺点:总体较大时,难以一一编号。
二、系统抽样(systemat...
分类:
编程语言 时间:
2014-07-14 18:08:55
阅读次数:
339
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。 诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取, 算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而w...
分类:
其他好文 时间:
2014-07-14 14:55:50
阅读次数:
295
算法&数学:算法导论详细数学离散数学及其应用(选)线性代数及其应用数论及其应用(选)python:python 基础教程python cookbookpython 网络编程基础python in a nutshell集体智慧编程机器学习实战js:dom编程艺术js cookbooklinuxlinu...
分类:
其他好文 时间:
2014-07-14 08:21:40
阅读次数:
303
ALICE源码分析
前言
ALICE(爱丽丝)其实是“人工语言计算机实体”的英文缩写。它曾经在往年(2000年、2001年和2004年)的勒布纳人工智能奖角逐中三次获胜。并在其他年度中也获过骄人的成绩。它是一个开源软件,可以在http://www.alicebot.org/downloads/programs.html下载到多种语言的实现。
这里以java版本为例讲解一下ALICE的聊天原理...
分类:
其他好文 时间:
2014-07-13 00:05:18
阅读次数:
323
下载链接:斯坦福机器学习笔记
这一系列笔记整理于2013年11月至2014年7月。所有内容均是个人理解,做笔记的原因是为了以后回顾相应方法时能快速记起,理解错误在所难免,不合适的地方敬请指正。
笔记按照斯坦福机器学习公开课的notes整理,其中online学习部分没有整理,reinforcement learning还没接触,有时间补上。
这份笔记主要记录自己学习过程中理解上的难点,所以对于...
分类:
其他好文 时间:
2014-07-12 22:52:36
阅读次数:
401
1.背景 无监督学习的定义就不多说了,不懂得可以google。因为项目需要,需要进行无监督的分类学习。 K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法。 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心。一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设...
分类:
编程语言 时间:
2014-07-12 20:04:16
阅读次数:
338