原文:redis 系列20 服务器下二. serverCron函数 2.3 更新服务器每秒执行命令次数 serverCron函数中的trackOperationsPerSecond函数会以每100毫秒一次的频率执行,这个函数以抽样计算的方式,估算并记录服务器在最近一秒钟处理的命令请求数量,这个值可以... ...
                            
                            
                                分类:
其他好文   时间:
2019-01-06 23:04:18   
                                阅读次数:
341
                             
                         
                    
                        
                            
                            
                                算法概述 随机森林,顾名思义就是由很多决策树融合在一起的算法,它属于Bagging框架的一种算法。 随机森林的“森林”,它的弱模型是由决策树算法训练的(CART算法),CART算法即能做回归也能做分类,“随机”是指构造的模型有一定的随机性。 每一颗决策树模型的训练是通过自助采样法(Boostrap抽 ...
                            
                            
                                分类:
编程语言   时间:
2019-01-06 11:55:32   
                                阅读次数:
355
                             
                         
                    
                        
                            
                            
                                一:开发调优 原则1:对多次使用的RDD进行持久化,共享同一个RDD 原则2:经过filter算子过后使用coalesce优化分区数量。分区少并且数据量大是通过repartition重分区增大并发。 原则3:读取hbase或插入数据库时使用foreachPartition代替foreach并且使用批 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-27 00:28:43   
                                阅读次数:
164
                             
                         
                    
                        
                            
                            
                                一、大数据是什么?大数据,bigdata,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。这句话至少传递两种信息:1、大数据是海量的数据2、大数据处理无捷径,对分析处理技术提出了更高的要求欢迎加入大数据交流群:658558542一起吹水交流学习二、大数据的处理流程下图是数据处理流程:欢迎加入大数据交流群:658558542一起吹水交流学习
                            
                            
                                分类:
其他好文   时间:
2018-12-25 00:57:24   
                                阅读次数:
231
                             
                         
                    
                        
                            
                            
                                    1.蓄水池抽样算法(Reservoir Sampling) https://www.jianshu.com/p/7a9ea6ece2af 2.spark抽样之蓄水池抽样 https://blog.csdn.net/snaillup/article/details/69524931?utm_sourc ...
                            
                            
                                分类:
其他好文   时间:
2018-12-23 22:11:22   
                                阅读次数:
192
                             
                         
                    
                        
                            
                            
                                    二. serverCron函数 2.3 更新服务器每秒执行命令次数 serverCron函数中的trackOperationsPerSecond函数会以每100毫秒一次的频率执行,这个函数以抽样计算的方式,估算并记录服务器在最近一秒钟处理的命令请求数量,这个值可以通过info status命令的in ...
                            
                            
                                分类:
其他好文   时间:
2018-12-07 20:45:31   
                                阅读次数:
181
                             
                         
                    
                        
                            
                            
                                Bagging 典型的代表:随机森林。 从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果: Boosting 典型代表:AdaBoost, Xgboost。 训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策 ...
                            
                            
                                分类:
编程语言   时间:
2018-12-02 13:40:42   
                                阅读次数:
280
                             
                         
                    
                        
                            
                            
                                    数据分析离不开数据采集。数据采集包括历史数据的采集和当前市场数据的采集,是科学进行数据分析的基础。数据采集准确性决定了数据分析的价值。那么数据采集是怎么做的呢?一般来说,是需要制定市场研究的计划、明确数据的来源、明确抽样方案、明确数据采集方法、做好数据处理分析工作这四项工作。 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-26 13:31:40   
                                阅读次数:
390
                             
                         
                    
                        
                            
                            
                                https://zhuanlan.zhihu.com/p/49991313 在将样本数据分成训练集和测试集的时候,应当谨慎地考虑一下是采用纯随机抽样,还是分层抽样。 通常,数据集如果足够大,纯随机抽样的方式,将样本数据分成两个子集是没有太大的问题。 如果不是,纯随机抽样肯可能会导致抽样数据偏差,影响 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-23 16:47:49   
                                阅读次数:
3815
                             
                         
                    
                        
                            
                            
                                前段时间,媒体发布了一则养老服务资源与需求调研成果。我们来仔细研读一下这份调研报告,调研人员与数十位老人进行了深度交流,对调查区域内近千位老人进行了抽样问卷调查。样本受访老人年龄最小55岁,最大95岁,其中65%的老人年龄在60~75岁之间,25%的老人年龄在75岁以上,10%的受访者年龄在55~60岁,调查范围覆盖新型商品住宅区,城中村等具有代表性的居民生活区。调研发现,“养儿防老”的传统理念,
                            
                            
                                分类:
其他好文   时间:
2018-11-21 21:00:13   
                                阅读次数:
140