一、监督学习 监督学习的概念与数学形式 统计机器学习的三要素 统计学习方法: 模型+策略+算法 监督学习的三个问题 分类、回归、标注 学习过程: 在假设空间执行搜索优化,挑选最好的学习器模型 预测过程: 使用训练好的学习器对未见过得新样本实例作出预测,推断其类别! 学习器的评价指标:精确率、召回率 ...
分类:
其他好文 时间:
2020-06-09 23:23:20
阅读次数:
67
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?】 · 防止过拟合的方法: (1)增加样本量(适用任何模型)。 (2)如果数据稀疏,使用L1正则,其他情况,使用L2。 L1正则,通过增大正则项导致更多参数为0,参数系数化降低模型复杂度,从而抵抗过拟合。 L2正则,通过使得参数都趋于0,变 ...
分类:
其他好文 时间:
2020-06-09 09:55:14
阅读次数:
59
所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 ...
分类:
其他好文 时间:
2020-06-08 22:11:31
阅读次数:
235
1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能:计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等。 机器学习:一种实现人工智能的方法。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世 ...
分类:
其他好文 时间:
2020-06-07 19:36:08
阅读次数:
51
反向传播算法基于多元函数链式法则,以下记录多元函数链式法则的证明与反向传播算法的实例推演。 多元复合函数的求导法则(多元链式法则) 定义 如果函数$u=\varphi(t)$及$v=\psi(t)$都在点$t$可导,函数$z = f(u,v)$在对应点$(u,v)$具有连续偏导数(重点),那么复合函 ...
分类:
编程语言 时间:
2020-06-06 18:33:46
阅读次数:
49
文章迁移说明:此文已由lightinglei于2019-02-18发布,是本人的另外一个账号,现同步迁移至本账号 一、朴素贝叶斯原理介绍 书籍上对概念的介绍,因引入了很多数学符号,看起来比较晦涩难懂,下面我们以案例的形式先带大家回顾下概率的一些基本知识点,下表为互联网行业不同岗位、不同体重是否会被女 ...
分类:
编程语言 时间:
2020-06-06 12:46:14
阅读次数:
71
自迷宫勒索软件帮派开始臭名昭著以来已经一年了。之前被称为“ ChaCha勒索软件”(取自该恶意软件用于加密文件的流密码的名称),Maze“品牌”于2019年5月首次附加到勒索软件上。 迷宫的最初样本被绑定到装有漏洞利用工具包的假网站上。从那时起,通过多种方式提供了Maze:漏洞利用工具包,垃圾邮件, ...
分类:
其他好文 时间:
2020-06-06 11:06:26
阅读次数:
101
图片文字识别-问题描述和流程图 针对识别图片中的文本信息识别,分为文本区域检测,之后是将文本区域的字符分割,分割以后开始进行字符识别。 滑动窗口 滑动窗口是用来定位文字位置、行人位置等。 以行人检测为例子: 1.做滑动窗口前,首先进行预训练(训练样本为固定大小的图片),获得一个能识别行人的模型。 2 ...
分类:
其他好文 时间:
2020-06-06 00:45:06
阅读次数:
54
在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记的训练样本的学习来揭示数据的内在性质和规律,如数据的聚类特征。聚类试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个簇。好的聚类结果呈现同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同,换言之,即簇内相似度高且簇间相似度低。 ...
分类:
其他好文 时间:
2020-06-04 01:48:44
阅读次数:
118
统计学的基本概念(原文链接) 一、 有n个样本的集合: X = {X1,X2,...,Xn} 均值: 标准差: 方差: 有两个数据集,数据集1,X = [0,8,12,20];数据集2,Y = [8,9,11,12]。两者的均值一样都为10。数据集1的标准差8.3,数据集2的标准差为1.8,因为后者 ...
分类:
其他好文 时间:
2020-06-03 20:12:38
阅读次数:
65