码迷,mamicode.com
首页 > 其他好文 > 详细

NLP特征处理器 Transformer和他的历史

时间:2019-08-11 12:53:10      阅读:72      评论:0      收藏:0      [点我收藏+]

标签:特征处理   计算   模式   梯度   fine   反向   ber   了解   处理器   

 

RNN CNN 人老珠黄。全面拥抱Transformer。

对于自然语言处理领域来说,2018 年无疑是个收获颇丰的年头,

就是Bert 模型了。

一个是 Bert 这种两阶段的模式(预训练 + Finetuning)

必将成为 NLP 领域研究和工业应用的流行方法;

第二个是从 NLP 领域的特征抽取器角度来说,

Transformer 会逐步取代 RNN 成为最主流的的特征抽取器。

RNN 自从引入 NLP 界后,在 NLP 各种任务中被广泛使用。但是原始的 RNN 也存在问题。

它采取线性序列结构不断从前往后收集输入信息,但这种结构在反向传播的时候存在优化困难问题,

因为反向传播路径太长,容易导致严重的梯度消失或梯度爆炸问题。

 为了解决这个问题,后来引入了 LSTM 和 GRU 模型,

通过增加中间状态信息直接向后传播,以此缓解梯度消失问题,

经过不断优化,

后来 NLP 又从图像领域借鉴并引入了 attention 机制
以及引入 Encoder-Decoder 框架,

这些技术进展极大拓展了 RNN 的能力以及应用效果。

RNN 在 NLP 界一直红了很多年(2014-2018?),在 2018 年之前,大部分各个子领域的 State of Art 的结果都是 RNN 获得的。

另外一个严重阻碍 RNN 将来继续走红的问题是:

RNN 本身的序列依赖结构对于大规模并行计算来说相当之不友好。

通俗点说,就是 RNN 很难具备高效的并行计算能力

那问题来了:为什么 RNN 并行计算能力比较差?是什么原因造成的?

 

 

 

参考文献

新智元《Transformer一统江湖:自然语言处理三大特征抽取器比较》

 

NLP特征处理器 Transformer和他的历史

标签:特征处理   计算   模式   梯度   fine   反向   ber   了解   处理器   

原文地址:https://www.cnblogs.com/pocahontas/p/11334364.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!