深度学习中的Attention机制

时间：2020-05-25 15:15:43 阅读：138 评论：0 收藏：0 [点我收藏+]

标签：ddl media vertica 内容 otto initial sgi var padding

转自：https://mp.weixin.qq.com/s/EMCZHuvk5dOV_Rz00GkJMA

【文末有彩蛋！】

推荐阅读时间：8min~13min

主要内容：简介明了的讲解一些Attention Model的套路和理论

---------------------------------------------

作者：YBB

单位：清华大学研究生

Attention 的本质

attention其实就是一个加权平均。

attention处理的问题，往往面临的是这样一个场景：

技术图片

Attention的设计

如何计算得到alpha(i)，一般分为两个步骤：

技术图片

那么如何设计step 1中的打分函数f呢，在论文”Dynamic Attention Deep Model for Article Recommendation by Learning Human Editors’Demonstration”中的Attention Mechanism章节给了较为全面的概括。大体分为三类：

技术图片

其中General Attention并不常见，（可能笔者读的paper不够多，目前还没有遇到过）因此在这里不做介绍。接下来详细介绍下Location-based Attention和Concatenation-based Attention的设计。

2.1 Location-based Attention

技术图片

具体我们来举几个例子，可能具体实现上，有略微区别，不过都大同小异：

Example 1：A Context-aware Attention Network for Interactive Interactive Question Answering_KDD2017

技术图片

Example 2：Dynamic Attention Deep Model for Article Recommendation by Learning Human Editors’ Demonstration_KDD2017

技术图片

2.2 Concatenation-based Attention

技术图片

具体我们来举几个例子，可能具体实现上，有略微区别，不过都大同小异：

Example 1：Attentive Collaborative Filtering Multimedia Recommendation with Item- and Component-Level Attention_sigir17

技术图片

Example 3：Dipole Diagnosis Prediction in Healthcare via Attention-based Bidirectional Recurrent Neural Network_2017KDD

技术图片

Example 4：Enhancing Recurrent Neural Networks with Positional Attention for Question Answering_SIGIR2017

技术图片

Example 5：Learning to Generate Rock Descriptions from Multivariate Well Logs with Hierarchical Attention_2017KDD

技术图片

Example 6：Reasoning about entailment with neural attention_ICLR2016

技术图片

看到这里相信大家对于attention有了较为直观的感觉，其实套路都差不太多，看各家paper给出的公式也都差不多，具体是结合问题，怎么去设计这个attention向量，怎么去说故事罢了。

Attention的扩展（多层attention，常见的是2层）

技术图片

这里举几个例子（不具体展开讲公式），比如：

Example 1：A Context-aware Attention Network for Interactive Interactive Question Answering_KDD2017

技术图片

Example 2：Leveraging Contextual Sentence Relations for Extractive Summarization Using a Neural Attention Model_SIGIR2017

技术图片

Example 3: Learning to Generate Rock Descriptions from Multivariate Well Logs with Hierarchical Attention_2017KDD

技术图片

Example 4:Attentive Collaborative Filtering Multimedia Recommendation with Item- and Component-Level Attention_sigir17

技术图片

总结

目前来看，attention的套路还是很固定的，主要的关键点是如何结合具体问题，设计出你想要关心的attention，既ht，然后将ht加入到model中去，作为计算score的依据。

深度学习中的Attention机制

标签：ddl media vertica 内容 otto initial sgi var padding

原文地址：https://www.cnblogs.com/leebxo/p/12956801.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行