背景 维数灾难是机器学习中常见的现象,具体是指随着特征维数的不断增加,需要处理的数据相对于特征形成的空间而言比较稀疏,由有限训练数据拟合的模型可以很好的适用于训练数据,但是对于未知的测试数据,很大几率距离模型空间较远,训练的模型不能处理这些未知数据点,从而形成“过拟合”的现象。 方案 既然维数灾难严 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-28 23:13:58   
                                阅读次数:
69
                             
                    
                        
                            
                            
                                    常用的库:Numpy、Pandas、Matplotlib、Scipy等; 编辑器:IPython和Jupyter notebook(Anaconda包含); 1.Numpy:Numerical Python缩写,主要用于数值计算。 2.Pandas:数据分析的主要工具。 3.matplotlib:绘 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-28 17:51:09   
                                阅读次数:
71
                             
                    
                        
                            
                            
                                    机器学习分为四大块,分别是classification (分类),regression (回归), clustering (聚类), dimensionality reduction (降维)。 聚类(clustering) 无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-28 16:14:52   
                                阅读次数:
398
                             
                    
                        
                            
                            
                                    [toc] 一、机器学习是什么 机器学习是计算机基于数据构建 并运用模型对数据进行 的学科。 机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 机器学习是 的核心,从大量现象中提取反复出现的规律与模式,是使计算机具有智能的根本 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-28 13:01:50   
                                阅读次数:
86
                             
                    
                        
                            
                            
                                    概述 命名实体识别在NLP的应用中也是非常广泛的,尤其是是information extraction的领域。Named Entity Recognition(NER) 的应用中,最常用的一种算法模型是隐式马可夫模型(Hidden Markov Modelling)- HMM。本节内容主要是通过介绍 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-28 00:55:33   
                                阅读次数:
67
                             
                    
                        
                            
                            
                                    sklearn PAI:from sklearn.cluster import KMeans 聚类的原理 评价指标:轮廓系数,一般[-1,1]之间,一般超过0-0.1聚类效果已经十分不错 from sklearn.cluster import KMeans # K-means PAI import  ...
                            
                            
                                分类:
其他好文   时间:
2020-03-27 12:47:49   
                                阅读次数:
64
                             
                    
                        
                            
                            
                                安装 sklearn.datasets 这个包提供一些函数用于读取样本数据(数据存在 .csv 或 .csv.gz 文件),比如 酒数据集(用于分类) 13 个特征包括各种成分的含量、酒的颜色等 3 个分类简单的标记为 class_0、class_1、class_2 参数 return_X_y 表示 ...
                            
                            
                                分类:
其他好文   时间:
2020-03-27 01:01:09   
                                阅读次数:
135
                             
                    
                        
                            
                            
                                    直接给代码: 1 # -- coding: gbk -- 2 from sklearn.datasets import load_breast_cancer 3 from sklearn.tree import DecisionTreeClassifier 4 from sklearn.model_ ...
                            
                            
                                分类:
其他好文   时间:
2020-03-27 00:37:45   
                                阅读次数:
170
                             
                    
                        
                            
                            
                                    KNN(K-Nearest Neighbors)算法,又称K近邻算法,单从字面意思我们就能知道,这个算法肯定是和距离有关的。 KNN算法的核心思想: 在一个特征空间中,如果某个样本身边和他最相邻的K个样本大多都属于一个类别,那么这个样本在很大程度上也属于这个类别,且该样本同样具有这个类别的特性。 其 ...
                            
                            
                                分类:
编程语言   时间:
2020-03-26 21:18:36   
                                阅读次数:
71
                             
                    
                        
                            
                            
                                    """ 机器学习算法分类: 监督学习(有目标值) 分类(目标值是离散型数据):K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络 回归(目标值是连续型数据):线性回归、岭回归 无监督学习(无目标值):聚类 K-means 机器学习一般会把数据集划分为训练集(3/4)和测试集(1/4),可 ...
                            
                            
                                分类:
编程语言   时间:
2020-03-26 01:37:29   
                                阅读次数:
103