1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 ...
分类:
其他好文 时间:
2018-12-03 12:01:18
阅读次数:
169
1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 ...
分类:
其他好文 时间:
2018-12-03 12:00:56
阅读次数:
226
Bagging 典型的代表:随机森林。 从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果: Boosting 典型代表:AdaBoost, Xgboost。 训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策 ...
分类:
编程语言 时间:
2018-12-02 13:40:42
阅读次数:
280
三、 垃圾邮件分类 数据准备: 用csv读取邮件数据,分解出邮件类别及邮件内容。 对邮件内容进行预处理:去掉长度小于3的词,去掉没有语义的词等 尝试使用nltk库: pip install nltk nltk.download 不成功:就使用词频统计的处理方法 训练集和测试集数据划分 from sk... ...
分类:
其他好文 时间:
2018-11-29 15:16:44
阅读次数:
218
1. 朴素贝叶斯: 条件概率在机器学习算法的应用。理解这个算法需要一点推导。不会编辑公式。。 核心就是 在已知训练集的前提条件下,算出每个特征的概率为该分类的概率, 然后套贝叶斯公式计算 预测集的所有分类概率,预测类型为概率最大的类型 ...
分类:
系统相关 时间:
2018-11-27 20:59:39
阅读次数:
196
接上一部分,此篇将用tensorflow建立神经网络,对波士顿房价数据进行简单建模预测。 二、使用tensorflow拟合boston房价datasets 1、数据处理依然利用sklearn来分训练集和测试集。 2、使用一层隐藏层的简单网络,试下来用当前这组超参数收敛较快,准确率也可以。 3、激活函 ...
分类:
编程语言 时间:
2018-11-25 17:54:59
阅读次数:
328
https://zhuanlan.zhihu.com/p/49991313 在将样本数据分成训练集和测试集的时候,应当谨慎地考虑一下是采用纯随机抽样,还是分层抽样。 通常,数据集如果足够大,纯随机抽样的方式,将样本数据分成两个子集是没有太大的问题。 如果不是,纯随机抽样肯可能会导致抽样数据偏差,影响 ...
分类:
其他好文 时间:
2018-11-23 16:47:49
阅读次数:
3815
在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时,通常将模型拟合在训练集上,以便对未被训练的数据进行预测。 在统计学和机器学习领域中,我们通常把数据分成两 ...
分类:
编程语言 时间:
2018-11-23 14:20:39
阅读次数:
251
分词结果: 分词结果部分数据: 模型: 结果: 分析: 预测结果与训练集数据紧密相关,Word2Vec会根据训练集中各词之间的紧密程度设置不同的相识度,因此,要想获得较好的预测结果,需要有合适的训练集! ...
分类:
编程语言 时间:
2018-11-21 12:26:23
阅读次数:
318
面积与房价 训练集 (Training Set) Size Price 2104 460 852 178 。。。。。。 m代表训练集中实例的数量x代表输入变量 y代表输出变量 (x,y)代表训练集中的实例 h代表方案或者假设 h = a x + b 输入变量输入给h 得到输出结果 因为只有一个特征 ...
分类:
其他好文 时间:
2018-11-20 18:18:55
阅读次数:
179