DSOD

时间：2019-08-10 17:46:38 阅读：95 评论：0 收藏：0 [点我收藏+]

标签：work limit 应对问题 abs general ssi 分辨率提前

论文信息
前言
Introduction
DSOD
- DSOD Architecture
Experiments
- Results on MS COCO
Conclusion

论文信息

Zhiqiang Shen, Zhuang Liu, Jianguo Li, Yu-Gang Jiang, Yurong Chen, Xiangyang Xue. DSOD: Learning Deeply Supervised Object Detectors from Scratch. ICCV 2017.

https://arxiv.org/abs/1708.01241

前言

本来打算看DSSD, 结果一字之差先看了DSOD, 本文有一些独特思想, 但本文可能因为是完全中国人著, 至少本文没有此前文章那么容易上手, 配图和各种语法让我读的心力憔悴.

另外我自身的原因除了可能理解能力较差还有一方面是我对本文创作背景有一定断代, 因此读完本文我近期内将会读一读本文涉及的一些背景文章.

在本文以前的所有文章几乎都严重依赖于预训练网络, 其解决问题的一个主要思路是使用预训练网络其后fine-tune, 此做法有诸多缺陷, 我会在正文介绍. 作者主要贡献就是提出了一个从头开始手动训练的网络, 因在原生网络上优化, 因此作者用了更少的参数实现了更好地结果.

Introduction

当时大多数网络一般是在ImageNet预训练, 其后对其fine-tune, 作者提到fine-tune可视为transfer learning, 我认为这个说法很有意思. fine-tune主要有两个优点:

有很多公开模型包括其参数可以直接使用.
fine-tune能快速构建模型, 因为本来就处于一个较优的位置, 并且只需要较少的样本进行训练

然而作者认为这样有几个缺点:

Limited structure design space. 通常预训练模型是应对classification问题构建, 这样网络往往含有大量参数较为复杂, 如果直接将已有的detector套用, 结果就是模型捆绑于预训练模型从而导致灵活性较差.
Learning bias. classification和detection的loss和category distribution不相同, 那么就会导致朝向不同的方向优化, 而且classification优化很可能陷入一个不利于detection的局部极点.
Domain mismatch. 预训练的classification数据集和detection训练的数据集也存在很大差异.

本文简单来说就是根据两个猜想而产生组织的:

如果从一开始就不用套用预训练参数直接从头训练是否可行?
如果可行的话那么设计此网络有什么重要原则?

那么本文就是应对以上两个问题提出了解决方案DSOD.

本问所提出的模型有几个重要的特点, 如deep supervision, feature map融合和复用, 压缩参数等.

DSOD

DSOD Architecture

Overall Framework

DSOD是受SSD启发, 利用其multi-scale和proposal-free的特点, 主要可以分为两部分: 一个是产生feature map的backbone, 另一个是利用multi-scale的prediction网络.

backbone是一个DenseNets的变体, 该网络最大的特点就是deep supervision, 我们以后会介绍此网络, 简单来说就是浅层与深层有连接, 其关键成分dense block和网络结构如下图所示:

技术图片

本文中的网络结构和具体细节如下二图所示:

技术图片

Principle 1: Proposal-free

这里我们要重复说一下当时主流方法:

R-CNN式使用外置proposal的模型.
Faster R-CNN式使用内置proposal的模型.
YOLO式不使用proposal的模型.

作者通过实验发现只有第三种能收敛, 作者提出一种猜想可能是因为前两种方法都使用RoI pooling, 这样可能会导致反向传播时隐藏梯度(我认为或是说使梯度模糊). 而套用预训练模型后取得较好的结果可能因为参数在RoI pooling之前就已经初始化较好了, 最终我们的结论就是只有第三种方法适合从头训练.