Transformer和LSTM的对比

作者&投稿:麻终 (若有异议请与网页底部的电邮联系)
~

现在的想法是transformer模型建立依赖关系的能力可能是依旧比较差。

Transformer 长程依赖的捕获能力是比 RNN 类结构差的。

这点在最近 Transformer-XL [1] 的文章中有体现。

可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。

但是,题目叙述中有一个误解,我们可以说 Transformer 建立长程依赖的能力差,但这不是 Self-Attention 的锅。

但summarization(摘要)任务上需要考虑的是成篇章级别,并且长距离依赖,这时单靠self-attention建模依赖关系可能仍显不足,而这时候lstm的优势反而凸显出来

Self-Attention 可以使任意两个 token 间的依赖计算变为常数,长距离依赖上 Self-Attention 是强于 RNN 结构的。要说问题,出也是出在 positional embedding 上,很多最近的 paper 都在尝试调整这一部分,也证明大家确实觉得现在这里是有问题的。

但另一方面, Self-Attention 其实并不是 Transformer 的全部。 个人来看, 从深度 CNN 网络中借鉴而来的 FFN(全连接层) 可能更加重要。 事实上 18 年 ACL [2] 有人做过实验,把 Transformer 里的 Self-Attention 换成 RNN 和 CNN,发现其实性能几乎没降多少。而带来性能提高的,主要是 FFN with residual 和 multiple heads.

最后,不负责任的猜测,Transformer 在 Summarization 上不够好,其实可能更多的是数据量的问题。 Transformer 这个结构最牛逼的地方就在于它第一次做到了在 NLP 中把深度叠上去还能 work, 而 NMT 恰好也是一个目前数据量非常丰富且问题尺度本身不大的一个任务了,充分发挥了 Transformer 的优势。而 Summarization 任务,相对于其 pairphrase 本身的长度,benchmark 的数据样本总量可能就略显不足了。

记得之前在哪看过一个图来着,说是 RNN 在中等数据量(几十万级别以下)下效果是比较好的,忘记出处了,有同学记得的话求评论提醒哈~

Reference
[1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
[2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures




变压器用英语怎么说
变压器是利用电磁感应的原理来改变交流电压的装置,主要功能有电压变换、电流变换、阻抗变换、隔离、稳压等。那么你知道吗?接下来跟着我来学习一下吧。变压器的英语说法1:transformer 变压器的英语说法2:voltage changer 变压器相关英语表达:mains transformer;电源变压器 step-down transformer;降压变压器 step-...

大模型都是基于Transformer堆叠,采用Encoder或者Decoder堆叠,有什么...
大模型架构之争:Transformer的Encoder与Decoder之差异解析 Transformer架构的崛起,已经超越了CNN、RNN、LSTM和GRU的传统界限,引发了深度学习领域的广泛关注。如今,LLM领域正围绕encoder-only、encoder-decoder与decoder-only三种设计展开激烈的讨论。BERT曾引领encoder-only的热潮,然而,T5和GPT系列,特别是GPT...

transformer怎么翻译
transformer翻译是变压器。Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及,它已经成为一类以自注意力为主要部件的特定模型,其原本在机器翻译中的内涵变得不再重要,翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。

为何说Transformer是目前人工智能领域工程落地实践Bayesian理论的典型...
在训练的过程中会使用MAP最大后验概率集成众多的模型参数的概率分布来拟合各种不确定的情况,提供处理数据不确定性的信息表达框架。Transformer是一个符合Bayesian深度学习网络的AI架构,尤其是其经典的multi-head self-attention机制,该机制其实采用模型集成的思想来从工程角度落地贝叶斯深度学习网络;基于Prior...

Transformer常见问题汇总
答: 因为self-attention是位置无关的,无论句子的顺序是什么样的,通过self-attention计算的token的hidden embedding都是一样的,这显然不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息,transformer使用了固定的positional encoding来表示token在句子中的绝对位置信息。答: 相对...

为什么说Transformer的注意力机制是相对廉价的?注意力机制相对更对于RN...
QA形式对自然语言处理中注意力机制(Attention)进行总结,并对Transformer进行深入解析。 二、Transformer(Attention Is All You Need)详解1、Transformer的整体架构是怎样的?由哪些部分组成?2、Transformer Encoder 与 Transformer Decoder 有哪些不同?3、Encoder-Decoder attention 与self-attention mechanism有哪些不同?4、...

transformer是什么
transformer是变压器 电力变压器是一种静止的电气设备,是用来将某一数值的交流电压(电流)变成频率相同的另一种或几种数值不同的电压(电流)的设备。具有两个或多个绕组的静止设备,为了传输电能,在同一频率下,通过电磁感应将一个系统的交流电压和电流转换为另一系统的电压和电流,通常这些电流和电压的...

Transformer最全解析(attention is all you need)
Transformer出自google,被广泛应用于NLP的各项任务中,在transformer基础上改进优化的BERT模型在2019年11项NLP任务中表现SOTA。 论文原文: https:\/\/arxiv.org\/pdf\/1706.03762.pdf 《attention is all you need》在处理变长的序列问题时,一般的做法是利用卷积神经网络或循环神经网络。无论卷积还是循环...

Transformer原理及其应用
transformer 最早使用于NLP模型中,使用了 Self-Attention 机制。相较于RNN结构可以进行并行化训练,能够 拥有全局信息 。scale dot-product attention self-attention 过程图 query q 对 key k做attention:softmax归一化:权重乘value v 输出转化值:合并之前的三个图中操作:Transformer架构 Feed-Forward...

图解什么是 Transformer
Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果,最大的优点是可以高效地并行化。Transformer 是一种基于 encoder-decoder 结构的模型,在Encoder 中,在Decoder 中,下面我们具体看一下其中这几个概念,这里主要参考 Jay Alammar,他在 The Illustrated Transfo...

襄垣县18968439994: transformer是什么意思 -
耿石小儿: transformer 变压器 双语对照词典结果: transformer [英][trænsˈfɔ:mə(r)][美][trænsˈfɔ:rmə(r)] n.变压器; 促使变化的(或人物),改革者; 复数:transformers以上结果来自金山词霸例句:1. It has a transformer box, diesel driven generator, and a boiler-room. 它有一个变压器箱,柴油发电机,还有一个锅炉房.

襄垣县18968439994: 变压器的种类都有哪些啊 -
耿石小儿: 我们一般家里都要用到变压器, 要是家里没电的话,是不是很麻烦了,所以 生活当中都离不开它,那么什么是变压器?而对电来说,它也离不开变压器.接下来我们来看下:它的优势跟作用都在哪里,有什么技巧吗?需要注意几点呢: 温馨提...

襄垣县18968439994: 变压器的定义是什么?它有什么作用? -
耿石小儿: 变压器是一种相对静止的电气设备,由绕在同一个铁心上的两个或两个以上的绕组组成,绕组之间通过交变的磁通的相互联系.为了把发电厂发出的电能经济的传输、合理的分配以及安全的使用,都要用到电力变压器. 变压器的工作原理是“电...

襄垣县18968439994: 变压器运行电压的要求 -
耿石小儿: 对变压器的运行电压有什么规定? 一、简介——变压器 变压器(Transformer)是利用电磁感应的原理来改变交流电压的装置,主要构件是初级线圈、次级线圈和铁心(磁芯).主要功能有:电压变换、电流变换、阻抗变换、隔离、稳压(磁饱...

襄垣县18968439994: SMPS Transformers是什么意思 -
耿石小儿: 转接式电源变压器 SMPS: Switching Mode Power Supply: 转接式电源 transformersn. 变压器(transformer的复数);

襄垣县18968439994: 315变压器能用多大电流 -
耿石小儿: 315变压器高低压侧的额定电流分别为:18.2A、454.7A.建议不要超过450A.变压器: 变压器(Transformer)是利用电磁感应的原理来改变交流电压的装置,主要构件是初级线圈、次级线圈和铁芯(磁芯).主要功能有:电压变换、电流变换、阻抗变换、隔离、稳压(磁饱和变压器)等.按用途可以分为:电力变压器和特殊变压器(电炉变、整流变、工频试验变压器、调压器、矿用变、音频变压器、中频变压器、高频变压器、冲击变压器、仪用变压器、电子变压器、电抗器、互感器等).电路符号常用T当作编号的开头.例: T01, T201等.

襄垣县18968439994: 环形变压器可不可以代替方形的变压器? -
耿石小儿: 不行,环形因为相同功率的变压器环形的体积小,效率高,但是替换后,漏磁率变大.变压器: 变压器(Transformer)是利用电磁感应的原理来改变交流电压的装置,主要构件是初级线圈、次级线圈和铁心(磁芯).在电器设备和无线电路中,常用作升降电压、匹配阻抗,安全隔离等.主要功能有:电压变换、电流变换、阻抗变换、隔离、稳压(磁饱和变压器)等.按用途可以分为:配电变压器、电力变压器、全密封变压器、组合式变压器、干式变压器、油浸式变压器、单相变压器、电炉变压器、整流变压器等.

襄垣县18968439994: Transformer是什么,有什么用 -
耿石小儿: 变压器,调节电压的作用

襄垣县18968439994: 联变是什么意思?起作用是什么?与普通的变压器有什么区别? -
耿石小儿: 1 联络变压器 英文名称:system interconnection transformer :是指在发电厂升压变电站中连接有交换功率的两种电压等级母线的变压器; 2 联络变压器应用 之一,在大容量发电机一般采用发电机一双绕组变压器单元接线,以省去价格昂贵的...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网