一、引言之前提到的k-近邻算法是分类数据最简单最有效的算法。k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。而且,k-近邻数据必须保全全部数据集,如果训练数据集的很大,必须使用大量的存储空间,此外k-近邻算法必须对数据集中的每个数据计算距离,这是非常耗时的。另外,对于数...
分类:
其他好文 时间:
2015-03-12 22:13:24
阅读次数:
174
我们可以计算两个数值点之间的距离,也可以计算两个概率分布之间的距离。常见方法有卡方检验(Chi-Square)和KL散度(KL-Divergence)。本文主要介绍KL散度。 先从信息熵说起,假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是{黑洞,到底,吃什么},我们现在要根据一个词语...
分类:
其他好文 时间:
2015-03-12 20:41:22
阅读次数:
322
关于最大熵模型的介绍请看:http://www.cnblogs.com/hexinuaa/p/3353479.html以下是GIS训练算法的python实现,代码不到100行。from collections import defaultdictimport mathclass MaxEnt(obj...
分类:
其他好文 时间:
2015-03-12 13:02:27
阅读次数:
211
数据集的基本统计计算是应用数学,以及统计应用中最常用的功能。如计算数据集的均值,方差,标准差,最大值,最小值,熵等等。Math.NET中的MathNet.Numerics.Statistics命名空间就包括了大量的这些统计计算的函数。今天就为大家介绍的是使用Math.NET计算相关系数的类:Corr...
数据集的基本统计计算是应用数学,以及统计应用中最常用的功能。如计算数据集的均值,方差,标准差,最大值,最小值,熵等等。Math.NET中的MathNet.Numerics.Statistics命名空间就包括了大量的这些统计计算的函数。今天就为大家介绍这方面的内容。这样就可以使用C#进行数据集合的相关...
标题:通过基于视点熵的可调整视图聚类的草图3D模型检索作者:Bo Li,Yijuan Lu,Henry Johanabstract:搜索基于手绘草图的3D模型对于很多应用来说是直观且重要的,例如说基于草图的3D建模和识别。我们提出了通过使用基于视点熵的可调整视图聚类和形状内容匹配的进行基于草图的3D...
分类:
其他好文 时间:
2015-03-05 16:25:40
阅读次数:
138
我的源码让猫给吃了
负责
软件的熵
灭火我的源码让猫给吃了
在所有的弱点中,最大的弱点就是害怕暴露弱点。
-J.B
依据你的职业发展、你的项目和你每天的工作,为你自己和你的行为负责这样一种观念,是注重实效的哲学的一块基石。 注重实效的程序员对他或者她自己的职业生涯负责,并且不害怕无知和错误。
发生错误的事情,我们要设法尽可能职业的吃力他们。...
分类:
其他好文 时间:
2015-03-05 01:45:10
阅读次数:
211
一:基础知识1:个体信息量 -long2pi2:平均信息量(熵) Info(D)=-Σi=1...n(pilog2pi) 比如我们将一个立方体A抛向空中,记落地时着地的面为f1,f1的取值为{1,2,3,4,5,6},f1的熵entropy(f1)=-(1/6*log(1/6)+...+1/6...
分类:
其他好文 时间:
2015-03-02 23:51:58
阅读次数:
201
决策树就是不断选择信息增益最大的属性,进行分类。
核心部分是使用信息增益判断属性的分类性能。信息增益计算如下:
信息熵:
允许有多个类别。
计算所有属性的信息增益,选择最大的作为决策树的根节点。然后,样本分枝,继续判断剩余的属性的信息增益。
信息增益有缺点:信息增益偏袒具有较多值的属性。分裂信息,用增益比率作为衡量标准,如下:
决策树...
分类:
编程语言 时间:
2015-03-02 13:12:55
阅读次数:
346
近期在看一些熵相关的东西,为了了解一下互信息相关的东西,查阅了一些资料,有一个课件自己感觉写的不错,可是下载不下来,我就对它们进行了截图,希望对大家有帮助。这个课件中讲的内容比較基础,可是对于非通信、信息类的同学来说还是非常有帮助的,并且不仅通俗易懂,并且证明过程详尽,是不可多得的好材料。其重要包....
分类:
其他好文 时间:
2015-03-01 18:27:10
阅读次数:
124