文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:
其他好文 时间:
2020-05-15 00:17:01
阅读次数:
75
交叉验证 交叉验证可以用来估计一个模型的泛化能力,如果一个模型在训练集上表现良好,通过交叉验证指标却得出其泛化能力很差,那么模型就是 过拟合 了;如果这两个方面表现的都不好,那么它就是 欠拟合 了,这个方法可以告诉我们,模型是太复杂还是太简单了 观察学习曲线 另一种方法就是观察学习曲线,画出模型在训 ...
分类:
其他好文 时间:
2020-05-15 00:06:46
阅读次数:
69
串行生成,只适用二分类(做回归用别的更新公式?) 工作机制: 先从初始训练集中学习一个基学习器 根据基学习器的表现对训练样本分布进行调整,做错的提高权重,对的降低权重 基于调整后的样本分布来训练下一个基学习器 如此反复,直到基学习器数目达到T,最终将这T个基学习器进行加权结合 对训练样本分布调整,主 ...
分类:
其他好文 时间:
2020-05-10 14:50:40
阅读次数:
54
交叉验证 当我们构建分类器时,有可能会存在过拟合现象。如何利用有限的数据降低模型的过拟合?——交叉验证 我们把每个数据集分成两个子集 一个用于构建分类器(模型),称为训练集(training set) 另一个用于评估分类器,称为测试集(test set) 根据训练集和测试集的挑选方法,一般可分为简单 ...
分类:
其他好文 时间:
2020-05-07 17:03:08
阅读次数:
159
一、用自己的话描述出其本身的含义: 1、特征选择 提取到的所有特征中选择和类标签有关的特征作为训练集特征,特征在选择前和选择后不改变值。 2、PCA PCA即主成分技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降唯的思想,把多指标转化为少数几个综合指标一种常见的数据分析方式,常用于高维数据 ...
分类:
其他好文 时间:
2020-05-04 21:13:08
阅读次数:
54
为什么要做 batch normalization 没有加batch normalization,过拟合,也就是训练集的效果还不错,但是测试集的效果真的差 BN的基本思想其实相当直观:因为深层神经网络在做非线性变换前的激活输入值(就是那个x=WU+B,U是输入)随着网络深度加深或者在训练过程中,其分 ...
分类:
其他好文 时间:
2020-05-02 22:30:06
阅读次数:
62
偶然看到一个公众号的文章,对移动目标检测系统的设计,这是一种极为简便,容易实现的目标检测,因为它不需要训练神经网络,也不需要制作训练集,前提是背景不能变化,最适用于固定摄像头的环境,比如说路口的车辆目标检测,智能生产线上对产品的检测等。缺点是针对不同的使用环境需要适当的调整一些参数,找到的轮廓与实际 ...
分类:
移动开发 时间:
2020-05-01 18:50:19
阅读次数:
95
一、用自己的话描述出其本身的含义: 1、特征选择 从多个特征中选择一部分特征作为训练集的特征,特征在选择前后不改变值。 2、PCA PCA是特征降维,降维是从一个维度空间映射到另一个维度空间,也就是高维度数据集映射到低维度空间的同时,尽可能的保留的变量。 二、并用自己的话阐述出两者的主要区别 特征选 ...
分类:
其他好文 时间:
2020-05-01 18:31:25
阅读次数:
53
一、说明 给定训练集train.csv,要求根据前9个小时的空气监测情况预测第10个小时的PM2.5含量。 训练集介绍: (1)、CSV文件,包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见); (2)、每天的监 ...
分类:
其他好文 时间:
2020-05-01 18:27:28
阅读次数:
66
一、用自己的话描述出其本身的含义: 1、特征选择 2、PCA 特征选择 特征选择就是从所有特征中选择部分特征作为训练集,即对现有特征拿好的特征,差的特征就不要,特征在选择前后 可以改变特征部分的值、也可以不改变特征部分的值,只是选择后的特征维数肯定要比选择前小。 PCA PCA是一种分析、简化数据集 ...
分类:
其他好文 时间:
2020-04-30 11:52:06
阅读次数:
71