一、基本术语 1、标签和特征 标签一般指的是我们要预测的真实事务,在图3中,我们用y坐标的值进行表示。 特征是指用于描述数据的输入变量,一般使用{x1,x2,…,xn}进行表示,在图3所示的线性回归问题中只有一个x轴。 2、样本和模型 样本是指数据的特定实例:x ,有标签样本具有{特征,标签}:{x ...
分类:
其他好文 时间:
2020-10-06 20:30:54
阅读次数:
23
1.原理 K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。 2、api 3、性能评估 越接近1越好,一般不超过0.7 4、优缺点 优点 1)原理比较简单,实现也是很容易,收敛速度快。 2)聚类效果较 ...
分类:
编程语言 时间:
2020-10-05 22:22:47
阅读次数:
31
线性回归的一个问题可能是有可能出现欠拟合(如下图所示样本),因为它求的是具有最小均方误差的无偏估计。如果模型欠拟合将不能取得最好的预测效果。所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。其中的一个方法是局部加权线性回归。在该算法中,我们给待预测点附近的每一个点赋予一定的权重,在这个子 ...
分类:
其他好文 时间:
2020-09-24 22:13:45
阅读次数:
81
分享一个非常好的深度学习项目实战视频课程-人脸检测课程 01-人脸检测项目概述( 02-课程数据,代码下载链接.txt 03-数据收集 04-正负样本裁剪策略 05-Caffe数据源准 06-LMDB脚本文件 07-制作LMDB数据源 08-网络模型配置文件 09-选择合适的参数并训练网络模型 10 ...
分类:
其他好文 时间:
2020-09-24 00:06:12
阅读次数:
43
https://mp.weixin.qq.com/s/w1iN4PgA-cp75lAihcr2awBy超神经GPU和数据库各有所长,GPU擅长处理机器学习等任务,而数据库擅长有特定要求的计算,比如复杂的连接计算。目前有一些提供GPU加速的数据库解决方案产品,其中有大家熟悉的MapD、Kinetica,我们今天要介绍是一款年轻的开源产品BlazingSQL。BlazingSQL是基于RAPIDS构建
分类:
其他好文 时间:
2020-09-21 12:10:06
阅读次数:
49
神盾首创非对称联邦学习范式,在保护弱势方数据样本ID隐私的前提下完成常见的联邦计算任务 ...
分类:
其他好文 时间:
2020-09-18 00:47:20
阅读次数:
26
一、Dataset 对单个样本的处理 1、__getitem__: 返回一条数据或一个样本,obj[index] == obj.__getitem__() 2、__len__: 返回整个数据集中样本的数量,len(obj) == obj.__len__() 二、DataLoader 对batch个样 ...
分类:
其他好文 时间:
2020-09-17 23:20:15
阅读次数:
32
和三个柱子的最初的汉诺塔很类似,只是多了一个柱子,相当于缓存区大了一些,处理的速度自然快了一些。 粗略的C代码(并没有使先移动到第四根柱子上面的圆盘的数量是最优): #include <stdio.h> int count = 0; void hanoi (char s, char t1, char ...
分类:
其他好文 时间:
2020-09-17 20:42:51
阅读次数:
51
PCA算法主要用于降维,就是将样本数据从高维空间投影到低维空间中,并尽可能的在低维空间中表示原始数据。PCA的几何意义可简单解释为: 0维-PCA:将所有样本信息都投影到一个点,因此无法反应样本之间的差异;要想用一个点来尽可能的表示所有样本数据,则这个点必定是样本的均值。 1维-PCA:相当于将所有 ...
分类:
其他好文 时间:
2020-09-17 16:36:11
阅读次数:
28
数据 就目前来说,提升算法性能的更加可靠的方法仍然是训练更大的网络以及获取更多的数据 不要武断地认为测试集分布和训练集分布是一致的,仔细地评估数据集非常重要 开发集和测试集应该与你最终想要解决的数据分布一致,而训练集则未必需要符合这个要求 在训练数据不足的情况下,你可以尝试引入额外的训练数据,只要它 ...
分类:
系统相关 时间:
2020-09-16 12:42:19
阅读次数:
51