参考:http://scikit-learn.org/stable/model_selection.html
有待翻译,敬请期待:
3.1. Cross-validation: evaluating estimator performance
3.1.1. Computing cross-validated metrics
3.1.1.1. Obtain...
                            
                            
                                分类:
其他好文   时间:
2015-07-27 23:13:01   
                                阅读次数:
215
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/computational_performance.html
对于有些应用,estimators的计算效能(主要指预测新样本时的延迟和吞吐量)非常关键,我们也考虑训练的效能,但由于训练可以offline,所以我们更关注预测时的效能问题。
预测延迟(Prediction latency):预测一个新样本花...
                            
                            
                                分类:
其他好文   时间:
2015-07-27 23:11:58   
                                阅读次数:
243
                             
                         
                    
                        
                            
                            
                                零、所有项目通用的:
http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)
http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据)
(适合文本分类问题的 整个语料库加载)
http://blog.csdn.net/mmc2...
                            
                            
                                分类:
其他好文   时间:
2015-07-27 09:28:54   
                                阅读次数:
140
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/preprocessing_targets.html
没什么好翻译的,直接给例子。
1、Label binarization
LabelBinarizer is
 a utility class to help create a label indicator matrix from...
                            
                            
                                分类:
其他好文   时间:
2015-07-26 19:18:24   
                                阅读次数:
216
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/metrics.html
The sklearn.metrics.pairwise submodule
 implements utilities to evaluate pairwise distances(样本对的距离) or affinity of sets of samples(样本集的相似度)...
                            
                            
                                分类:
其他好文   时间:
2015-07-26 17:24:43   
                                阅读次数:
167
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/random_projection.html
The sklearn.random_projection module
 通过trading accuracy(可控的范围)来降维数据,提高效率。实现了两类unstructured random matrix:: Gaussian
 random mat...
                            
                            
                                分类:
其他好文   时间:
2015-07-26 14:19:28   
                                阅读次数:
222
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/unsupervised_reduction.html
对于高维features,常常需要在supervised之前unsupervised dimensionality reduction。
下面三节的翻译会在之后附上。
4.4.1. PCA: principal compo...
                            
                            
                                分类:
其他好文   时间:
2015-07-26 12:47:59   
                                阅读次数:
149
                             
                         
                    
                        
                            
                            
                                发现一个外国的学习ML的网站,介绍分类、回归、聚类等等知识,感觉非常不错就记录下,以后遇到好的学校资料,也会整理分享到这里
http://scikit-learn.org/stable/index.html...
                            
                            
                                分类:
其他好文   时间:
2015-07-24 18:29:48   
                                阅读次数:
106
                             
                         
                    
                        
                            
                            
                                参考:http://scikit-learn.org/stable/modules/preprocessing.html
主要讲述The sklearn.preprocessing package的utility
 function and transformer classes,包括standardization、normalization、binarization、encoding...
                            
                            
                                分类:
其他好文   时间:
2015-07-23 09:29:56   
                                阅读次数:
188
                             
                         
                    
                        
                            
                            
                                http://scikit-learn.org/stable/modules/feature_extraction.html
4.2节内容太多,因此将文本特征提取单独作为一块。
1、the bag of words representation
将raw data表示成长度固定的数字特征向量,scikit-learn提供了三个方式:
tokenizing:给每一个token(字、词...
                            
                            
                                分类:
其他好文   时间:
2015-07-22 10:53:22   
                                阅读次数:
191