1 泛化误差 学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质重要的性质。 泛化误差反映了学习方法的泛化能力,如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。事实上,泛化误差就是所学习 ...
                            
                            
                                分类:
其他好文   时间:
2020-05-03 20:06:49   
                                阅读次数:
134
                             
                    
                        
                            
                            
                                    本文转自公众号《数据科学家联盟》 一、主成分分析法的思想及其原理 1、PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。 其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,发现更便于人类理解的特 ...
                            
                            
                                分类:
其他好文   时间:
2020-05-03 18:41:03   
                                阅读次数:
154
                             
                    
                        
                            
                            
                                这本书是18年买的了,当时我买了一堆书,以为自己不会成为屯书的仓鼠,没想到当时看了200页不到就再也没看;如今再次翻开,是因为参加 码农翻身 的读书活动,当年买书时还在的小仓鼠也飞天一年了= = 但还好当初我读了一些,这本书的前言部分教会了我一些学习方法。在我还上学时,我总觉得因为我太笨,不够聪明, ...
                            
                            
                                分类:
其他好文   时间:
2020-05-02 14:57:28   
                                阅读次数:
67
                             
                    
                        
                            
                            
                                    1.简介 统计学习方法都是由模型、策略和算法构成的 2.模型 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。 模型的假设空间包含所有可能的条件概率分布或决策函数。 2.1 决策函数模型 2.2 条件概率 决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型 3 学习策略 考虑 ...
                            
                            
                                分类:
其他好文   时间:
2020-04-30 21:22:12   
                                阅读次数:
93
                             
                    
                        
                            
                            
                                    随机森林算法学习最近在做kaggle的时候,发现随机森林这个算法在分类问题上效果十分的好,大多数情况下效果远要比svm,log回归,knn等算法效果好。因此想琢磨琢磨这个算法的原理。 要学随机森林,首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方法做简单介绍(具体学习推荐看统计学习方法的 ...
                            
                            
                                分类:
编程语言   时间:
2020-04-30 11:36:53   
                                阅读次数:
113
                             
                    
                        
                            
                            
                                    1 简介 线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的,因为这时上述方法中的不等式约束并不能都成立。 怎么才能将它扩展到线性不可分问题呢?这就需要修改硬间隔最大化,使其成为软间隔最大化。 2 模型 2.1 相关条件 2.2 模型 3 学习策略 4 算法 对偶形式 5 概念扩展 5 ...
                            
                            
                                分类:
其他好文   时间:
2020-04-29 14:58:07   
                                阅读次数:
56
                             
                    
                        
                            
                            
                                    1 简介 支持向量机(support vector machines> SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持 向量机还包括核技巧,这使它成为实质卜的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规 ...
                            
                            
                                分类:
其他好文   时间:
2020-04-29 12:49:37   
                                阅读次数:
142
                             
                    
                        
                            
                            
                                    1 简介 逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法。 最大嫡是概率模型学习的一个准则,将其推广到分类问题得到最大嫡模型(maximum entropy model )。 逻辑斯谛回归模型与最大嫡模型都属于对数线性模型。 2 模型 2.1 逻辑斯谛分布 2.2  ...
                            
                            
                                分类:
其他好文   时间:
2020-04-28 17:31:04   
                                阅读次数:
56
                             
                    
                        
                            
                            
                                    1 简介 1.1 介绍 1.2 生成步骤 CART树算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准。 2 算法 2.1 回归树 对回归树用平方误差最小化准则,生成 ...
                            
                            
                                分类:
编程语言   时间:
2020-04-28 14:36:46   
                                阅读次数:
113
                             
                    
                        
                            
                            
                                    1 简介 决策树模型是树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策 ...
                            
                            
                                分类:
其他好文   时间:
2020-04-28 13:04:22   
                                阅读次数:
158