本文主要总结Bagging 和 Boosting 和 Stacking思想的异同点。这三种算法都可以称作为“meta-algorithms”,就是将多个机器学习方法集成到一个模型里面去降低方差,偏差,或者改善模型预测能力。通常bagging可以降低variance,boosting可以降低bias, ...
                            
                            
                                分类:
其他好文   时间:
2018-09-18 19:16:00   
                                阅读次数:
357
                             
                         
                    
                        
                            
                            
                                    问题描述 要求从N个元素中随机的抽取k个元素,其中N无法确定。例如: 这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。 算法思想 假设数据序列的规模为 n,需要采样的数量的为 k。  ...
                            
                            
                                分类:
其他好文   时间:
2018-09-06 19:59:59   
                                阅读次数:
186
                             
                         
                    
                        
                            
                            
                                    知识复习 空间亚线性算法:由于大数据算法中涉及到的数据是海量的,数据难以放入内存计算,所以一种常用的处理办法是不对全部数据进行计算,而只向内存里放入小部分数据,仅使用内存中的小部分数据,就可以得到一个有质量保证的结果。数据流算法:是指数据源源不断地到来,根据到来的数据返回相应的部分结果。适用于两种情 ...
                            
                            
                                分类:
其他好文   时间:
2018-09-02 14:31:49   
                                阅读次数:
169
                             
                         
                    
                        
                            
                            
                                先将视频切分成一帧帧图片,再做后续处理,代码如下: 后边的思路是把问题分类,不同的问题提取不同的视频帧进行训练。如问人穿的衣服是什么颜色,则先判断帧中是否有人,将包含人的帧对问题进行训练。 提取了所有帧,这个量就比较大,而且很多帧之间的差别非常小,是否需要再抽样需要思考。 如问题包含颜色,则不能取灰 ...
                            
                            
                                分类:
其他好文   时间:
2018-09-01 12:15:06   
                                阅读次数:
232
                             
                         
                    
                        
                            
                            
                                1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方 ...
                            
                            
                                分类:
编程语言   时间:
2018-08-30 16:51:47   
                                阅读次数:
276
                             
                         
                    
                        
                            
                            
                                    代码实现: 基于决策树回归: 基于决策树分类: 总结:可知在使用同一数据源抽样训练模型中,使用回归进行拟合比使用分类效果更好! ...
                            
                            
                                分类:
其他好文   时间:
2018-08-30 16:48:06   
                                阅读次数:
138
                             
                         
                    
                        
                            
                            
                                一、概念 蒙特卡洛方法又称统计模拟法、随机抽样技术,是一种随机模拟方法,以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,以获得问题的近似解。为象征性地表明这一方法的概率统计特征,故接用赌城蒙特卡洛命名。 (以 ...
                            
                            
                                分类:
编程语言   时间:
2018-08-29 22:51:06   
                                阅读次数:
303
                             
                         
                    
                        
                            
                            
                                    其实大数据并不是一种概念,而是一种方法论。简单来说,就是通过分析和挖掘全量的非抽样的数据辅助决策。大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。再比如精准营销、百度的推广、淘宝的喜欢推荐,或者你到了一个地方,自动 ...
                            
                            
                                分类:
其他好文   时间:
2018-08-22 17:02:59   
                                阅读次数:
175
                             
                         
                    
                        
                            
                            
                                1. 差分脉冲编码调制 如果两个相邻抽样值之间的相关性很大,那么它们的差值就较小,这样,仅对差值量化可以使用较少的比特数,此即差分PCM,或DPCM。 为了理论方便,我们将采样和量化分开,并用不带上三角的$X_n$和带上三角的$\hat{X} _n$分别表示采样值和量化值。 最直接的想法,量化器的输 ...
                            
                            
                                分类:
其他好文   时间:
2018-08-04 11:32:35   
                                阅读次数:
122
                             
                         
                    
                        
                            
                            
                                    首先三个概念存在于 有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier. Validation set ...
                            
                            
                                分类:
其他好文   时间:
2018-07-31 19:20:10   
                                阅读次数:
125