Accuracy不是评估分类器的有效性的唯一度量。另外两个有用的指标是precision和recall。这两个度量可提供二元分类器的性能特征的更多视角。
分类器的 Precision
Precision度量一个分类器的正确性。较高的精确度意味着更少的误报,而较低精度意味着更多的误报。这是经常与recall相反,作为一种简单的方法来提高精度,以减少召回。
分类器的 Re...
分类:
其他好文 时间:
2014-07-19 11:26:04
阅读次数:
1829
当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有类都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总的话,低信息量的特征会降低性能。
通过消除噪声数据给你的模型清晰度,这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征,可以提高性能,同时也降低了模型的大小...
分类:
其他好文 时间:
2014-07-19 11:22:54
阅读次数:
507
1:如何选择合适的算法
2:python简介
(1) python的优势:相对于matlab,matlab单个软件授权就要花费数千美元,也没有一个有影响力的大型开源项目。相对于c++/c/java,完成简单的操作就需要编写大量的代码;而如今我们应该花费更多的时间去处理数据内在的含义,而无需花费太多精力解决计算机如何得到数据结果(python简洁)
(2) python...
分类:
其他好文 时间:
2014-07-18 21:37:59
阅读次数:
218
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 ....
分类:
其他好文 时间:
2014-07-18 00:25:42
阅读次数:
249
C++与机器学习算法
尝试用最简单的语言描述机器学习算法。...
分类:
编程语言 时间:
2014-07-17 19:15:46
阅读次数:
379
机器学习: 是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能。对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用。 提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习.....
分类:
其他好文 时间:
2014-07-17 17:34:48
阅读次数:
248
题意很简单,给定一个N*N的大矩阵,求其中数值和最大的子矩阵。一开始找不到怎么DP,没有最优子结构啊,后来聪哥给了我思路,化成一维,变成最大连续和即可。为了转化成一维,必须枚举子矩阵的宽度,通过预处理的suffix可以很快计算出每一列某一段的和,然后进行一维DP即可。。总复杂度为 O(N^3);#i...
分类:
其他好文 时间:
2014-07-16 16:59:44
阅读次数:
231
1. 统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。学习就是如果一个系统能够通过执行某个过程改进它的性能,这就是学习。统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去...
分类:
其他好文 时间:
2014-07-16 12:42:25
阅读次数:
275
从搬完宿舍以来,过的一天不如一天,甚至每天早上6点钟自然醒的能力都开始慢慢丧失了,而且白天还比较嗜睡,一躺下没两个小时肯定不够。这两天也基本上没学什么东西,浪费了好多时间,感觉心里老是毛毛的,也有一丝的愧疚。就以这个状态,怎么去参加秋招。。。
再回想前一段时间,复习操作系统那一周最充实了,不光只看了操作系统,还看了《饥饿游戏》三部曲,另外,开始看Andrew
Ng机器学习公开课...
分类:
其他好文 时间:
2014-07-16 08:17:04
阅读次数:
172