Kaggle上的狗品种识别(ImageNet Dogs) 在本节中,我们将解决Kaggle竞赛中的犬种识别挑战,比赛的网址是https://www.kaggle.com/c/dog breed identification 在这项比赛中,我们尝试确定120种不同的狗。该比赛中使用的数据集实际上是著名 ...
分类:
其他好文 时间:
2020-02-24 00:07:01
阅读次数:
123
1. 概念 经典的目标检测如Faster R CNN, YOLOv3等都用到了Anchor, 怎么设计Anchor每个目标检测方法各不相同。Faster R CNN中的Anchor有三种形状,三种长宽比,比如形状有[128, 256, 512]三个,长宽比有[1:1, 1:2, 2:1]三种,这样组 ...
分类:
其他好文 时间:
2020-02-22 19:59:05
阅读次数:
230
1. 计算机视觉的任务 (1)图像分类(Image Classification) ,指的是图像中是否存在某种物体,对图像进行特征描述。通过是CNN网络,结构基本是由卷积层、池化层以及全连接层组成,算法包括AlexNet(2012)、ZFNet(2013)、GoogleNet(2014)、VGGNe ...
分类:
其他好文 时间:
2020-02-22 15:36:41
阅读次数:
90
目标检测和边界框 在图像分类任务里,我们假设图像里只有一个主体目标,并关注如何识别该目标的类别。然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(object detection)或物体检测。 目标检测在 ...
分类:
其他好文 时间:
2020-02-20 20:04:45
阅读次数:
110
编码器—解码器(seq2seq) 在自然语言处理的很多应用中,输入和输出都可以是不定长序列。以机器翻译为例,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如 英语输入:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“ ...
分类:
其他好文 时间:
2020-02-17 12:08:41
阅读次数:
228
softmax和分类模型 softmax的基本概念 分类问题 一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。 图像中的4像素分别记为 $x_1, x_2, x_3, x_4$ 假设真实标签为狗、猫或者鸡,这些标签对应的离散值为 $y_1, y_2, y_3$ 。 我们通常使用离散的 ...
分类:
其他好文 时间:
2020-02-14 22:32:45
阅读次数:
79
多层感知机 1. 多层感知机的基本知识 2. 使用多层感知机图像分类的从零开始的实现 3. 使用pytorch的简洁实现 多层感知机的基本知识 深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。 隐藏层 下图展示了 ...
分类:
其他好文 时间:
2020-02-14 20:48:13
阅读次数:
82
理论部分: softmax的基本概念 分类问题一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。图像中的4像素分别记为x1,x2,x3,x4。假设真实标签为狗、猫或者鸡,这些标签对应的离散值为y1,y2,y3。我们通常使用离散的数值来表示类别,例如y1=1,y2=2,y3=3。 权重矢 ...
分类:
其他好文 时间:
2020-02-14 20:30:48
阅读次数:
62
数字识别是计算机从纸质文档、照片或其他来源接收、理解并识别可读的数字的能力,目前比较受关注的是手写数字识别。手写数字识别是一个典型的图像分类问题,已经被广泛应用于汇款单号识别、手写邮政编码识别,大大缩短了业务处理时间,提升了工作效率和质量。 手写数字识别是每个深度学习者的必经之路,正如学习编程时,我 ...
分类:
其他好文 时间:
2020-02-08 15:22:13
阅读次数:
58
计算机视觉的三大分类任务:图像分类、目标检测、图像分割; 1. 图像分类(Classification),即是将图像结构化为某一类别的信息,用事先确定好的类别(category)或实例ID来描述图片。 2. 目标检测(Detection)。分类任务关心整体,给出的是整张图片的内容描述,而检测则关注特 ...
分类:
其他好文 时间:
2020-02-06 14:36:55
阅读次数:
429