码迷,mamicode.com
首页 > 其他好文 > 详细

Visual Question Answering with Memory

时间:2019-10-21 00:17:42      阅读:34      评论:0      收藏:0      [点我收藏+]

标签:相关   rar   shape   visual   梯度下降   lstm   for   ase   arc   

Visual Question Answering with Memory-Augmented Networks

引用论文 Hierarchical Question-Image Co-Attention for Visual Question Answering

在一般的VQA问题中,我们使用梯度下降来更新模型,使用低频截断来减少答案分类数,这样会造成模型对低频答案得到的分数较低,难以得到正确答案。这篇文章介绍了一种新的Memory-Augmented方法来解决这一问题。

模型结构

技术图片

模型主要有三大块

1. 问题及图像特征提取

这里使用了双向LSTM提取问题特征,而对于图像特征,这里是将图片输入CNN网络中,从它的一层池化层中输出,(如VGG-16从pool5层输出,得到矩阵为14 X 14 X 512),再reshape得到(196 X 512)的矩阵,这里的196就是CNN feature中的分区(region)数。

2. Sequential Co-Attention 协同注意力

技术图片

这里用的是Parallel模型,主要是为了做attention提取出question与image的相关的特征。

First, compute a base vector $m_0$:

Visual attention:

where $W_v$, $W_m$, $W_h$ denote hidden states.

Question attention:

3. Memory Augmented Network

这里用到了一个LSTM作为memory controller

将h_t与memory中的所有记忆单元计算余弦相似度,再过softmax得到概率,再与$M_t$相乘得到记忆向量$r_t$,将$h_t$与$r_t$ concatenate到一起输入到分类网络中。

Memory 的更新

Visual Question Answering with Memory

标签:相关   rar   shape   visual   梯度下降   lstm   for   ase   arc   

原文地址:https://www.cnblogs.com/wangziqiang123/p/11711023.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有 京ICP备13008772号-2
迷上了代码!