Transformer常见问题汇总

作者&投稿：却通（若有异议请与网页底部的电邮联系）

答：多头可以使参数矩阵形成多个子空间，矩阵整体的size不变，只是改变了每个head对应的维度大小，这样做使矩阵对多方面信息进行学习，但是计算量和单个head差不多。

答：请求和键值初始为不同的权重是为了解决可能输入句长与输出句长不一致的问题。并且假如QK维度一致，如果不用Q，直接拿K和K点乘的话，你会发现attention score 矩阵是一个对称矩阵。因为是同样一个矩阵，都投影到了同样一个空间，所以泛化能力很差。

答： K和Q的点乘是为了得到一个attention score 矩阵，用来对V进行提纯。K和Q使用了不同的 , 来计算，可以理解为是在不同空间上的投影。正因为有了这种不同空间的投影，增加了表达能力，这样计算得到的attention score矩阵的泛化能力更高。

答：假设 Q 和 K 的均值为0，方差为1。它们的矩阵乘积将有均值为0，方差为dk，因此使用dk的平方根被用于缩放，因为，Q 和 K 的矩阵乘积的均值本应该为 0，方差本应该为1，这样可以获得更平缓的softmax。当维度很大时，点积结果会很大，会导致softmax的梯度很小。为了减轻这个影响，对点积进行缩放。

参考链接： https://blog.csdn.net/tailonh/article/details/120544719

答：对需要mask的位置设为负无穷，再对attention score进行相加

答：将原有的高维空间转化为多个低维空间并再最后进行拼接，形成同样维度的输出，借此丰富特性信息，降低了计算量

答：输入嵌入-加上位置编码-多个编码器层（每个编码器层包含全连接层，多头注意力层和点式前馈网络层（包含激活函数层））

答： embedding matrix的初始化方式是xavier init，这种方式的方差是1/embedding size，因此乘以embedding size的开方使得embedding matrix的方差是1，在这个scale下可能更有利于embedding matrix的收敛。

答：因为self-attention是位置无关的，无论句子的顺序是什么样的，通过self-attention计算的token的hidden embedding都是一样的，这显然不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息，transformer使用了固定的positional encoding来表示token在句子中的绝对位置信息。

答：相对位置编码（RPE）1.在计算attention score和weighted value时各加入一个可训练的表示相对位置的参数。2.在生成多头注意力时，把对key来说将绝对位置转换为相对query的位置3.复数域函数，已知一个词在某个位置的词向量表示，可以计算出它在任何位置的词向量表示。前两个方法是词向量+位置编码，属于亡羊补牢，复数域是生成词向量的时候即生成对应的位置信息。

答： encoder和decoder的self-attention层和ffn层都有残差连接。反向传播的时候不会造成梯度消失。

答：多头注意力层和激活函数层之间。CV使用BN是认为channel维度的信息对cv方面有重要意义，如果对channel维度也归一化会造成不同通道信息一定的损失。而同理nlp领域认为句子长度不一致，并且各个batch的信息没什么关系，因此只考虑句子内信息的归一化，也就是LN。

答：批归一化是对每一批的数据在进入激活函数前进行归一化，可以提高收敛速度，防止过拟合，防止梯度消失，增加网络对数据的敏感度。

答：输入嵌入-加上位置编码-多个编码器层（每个编码器层包含全连接层，多头注意力层和点式前馈网络层（包含激活函数层））-多个解码器层（每个编码器层包含全连接层，多头注意力层和点式前馈网络层）-全连接层，使用了relu激活函数

答：通过转置encoder_ouput的seq_len维与depth维，进行矩阵两次乘法，即q*kT*v输出即可得到target_len维度的输出

答： Decoder有两层mha，encoder有一层mha，Decoder的第二层mha是为了转化输入与输出句长，Decoder的请求q与键k和数值v的倒数第二个维度可以不一样，但是encoder的qkv维度一样。

答： Transformer的并行化主要体现在self-attention模块，在Encoder端Transformer可以并行处理整个序列，并得到整个输入序列经过Encoder端的输出，但是rnn只能从前到后的执行

答：训练的时候可以，但是交互的时候不可以

答：传统词表示方法无法很好的处理未知或罕见的词汇（OOV问题）
传统词tokenization方法不利于模型学习词缀之间的关系”
BPE（字节对编码）或二元编码是一种简单的数据压缩形式，其中最常见的一对连续字节数据被替换为该数据中不存在的字节。后期使用时需要一个替换表来重建原始数据。
优点：可以有效地平衡词汇表大小和步数（编码句子所需的token次数）。
缺点：基于贪婪和确定的符号替换，不能提供带概率的多个分片结果。

答： LN是为了解决梯度消失的问题，dropout是为了解决过拟合的问题。在embedding后面加LN有利于embedding matrix的收敛。

答： BERT和transformer的目标不一致，bert是语言的预训练模型，需要充分考虑上下文的关系，而transformer主要考虑句子中第i个元素与前i-1个元素的关系。

BEV+Transformer,为“无图大战”再添一把火
这两年，随着AI深度学习的兴起，Transformer被应用在BEV空间转换、时间序列上，形成了一个端到端的模型。Transformer强调注意力法则，在意数据之间的内在结构和相互关系，用于提取多模态数据中的特征，从而有效地识别和定位环境中的障碍物。有这么一个比喻，引入Transformer后，就像做饭请了一位资深的厨师，他就...

transformer是什么意思
n.变压器; 促使变化的（或人物），改革者;复数：transformers 以上结果来自金山词霸例句:1.It has a transformer box, diesel driven generator, and a boiler-room.它有一个变压器箱，柴油发电机，还有一个锅炉房。.很高兴为你解答！如有不懂，请追问。谢谢！

transformer是什么意思
transformer共有两个意思，一是指变压器；二是指促使改变的人，改革者。变压器改革者短语搭配：1.power transformer 电力变压器；功率变压器；电源变压器 2.current transformer 电流变压器；电流互感器；电流变换器 3.transformer substation 变电站 4.voltage transformer 电压互感器；变压器；电压变压器 5.t...

transformer中文名
transformer中文名:n.变压器网络互感器；变形金钢；变换器读音:美 [trænsˈfɔrmər] 英 [trænsˈfɔː(r)mə(r)]例句:1.Bay, who has directed both of the immensely popular Transformer movies said he was working on a thir...

Bert和Transformer有什么不同?
Bert是基于Transformer编码器结构的模型，只有Encoder部分。而Transformer是由Encoder和Decoder组成的完整序列到序列结构的模型。Bert的模型结构更简单，主要用于上下文语义理解任务，如文本分类、文本相似度计算等。Transformer可以应用于更复杂的任务，如机器翻译、摘要生成等需要生成语言序列的任务。2. 预训练语料...

transformer用中文怎么读
transformer 音标：英[trænsˈfɔ:mə(r)] 美[trænsˈfɔ:rmə(r)]意思：n. 变压器; 促使变化的（或人物），改革者;复数：transformers

transformer与cnn相比优缺点
transformer与cnn相比优缺点如下：Transformer优点：（1）突破了RNN模型不能并行计算的限制。（2）相比CNN，计算两个位置之间的关联所需要的操作次数不会随着距离的增长而增加。（3）attention机制可以产生更具可解释性的模型，可以从模型中检查attention分布，各个attention head可以学会执行不同的任务。（4）...

变压器用英语怎么说
变压器的英语说法1：transformer 变压器的英语说法2：voltage changer 变压器相关英语表达：mains transformer;电源变压器 step-down transformer;降压变压器 step-up transformer;升压变压器 output transformer;输出变压器 input transformer 输入变压器变压器的英语例句：1. He switched off the transformer and the...

大模型都是基于Transformer堆叠,采用Encoder或者Decoder堆叠,有什么...
大模型架构之争：Transformer的Encoder与Decoder之差异解析 Transformer架构的崛起，已经超越了CNN、RNN、LSTM和GRU的传统界限，引发了深度学习领域的广泛关注。如今，LLM领域正围绕encoder-only、encoder-decoder与decoder-only三种设计展开激烈的讨论。BERT曾引领encoder-only的热潮，然而，T5和GPT系列，特别是GPT...

transformer怎么翻译
transformer翻译是变压器。Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及，它已经成为一类以自注意力为主要部件的特定模型，其原本在机器翻译中的内涵变得不再重要，翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。

淄川区15185669029： 华硕Transformer Prime Wifi 问题？
缑星盐酸： 最近,XDA论坛上有一位勇敢的大神亲自动手拆解Prime,最终完美地解决了信号问题.Erusman利用两条塑料棒把Prime的铝制后盖打开,发现华硕给Prime配备了两块Wi-Fi天线电路板拾取信号,一块是主要天线,另一块作辅助用.令人愕然...

淄川区15185669029： cognos10.2 transformer 发布完数据包以后,在公共文件夹能看到数据包,点进去以后,看不到report studio - ？
缑星盐酸： 浏览器的问题,我也刚学,这个问题遇到过,就是浏览器的问题,可以试试别的浏览器,ie版本不要太高,也可以试试火狐,希望采纳

淄川区15185669029： CE年审认证,不符合项:说变压器不满足CE认证 - ？
缑星盐酸： 年审出现这种情况是比较少见的. 1,年审时的器械与最初时的器械是否有变化?如果没有变化,那么年审肯定是OK的.如果有变化,主要看看变化的地方是否符合CE. 2,整体已经满足CE,那么部分肯定是满足的哦,这是很明显的. 3,变压器是不是最初认证时使用的变压器? 出现这种情况,楼主只能晓之以理,动之以情,诱之以利,楼主懂的.

淄川区15185669029： 请教,transformer中加权限后打开出错PDS - PPE - 0216 - Cognos论坛 - ？
缑星盐酸： 勾选 Preferences > Save object Unique Identifier values in mdl,您试试,不知道能不能帮到您,我一直用的是FineReport报表.

淄川区15185669029： Office中的ABBYY PDF Transformer+插件为什么无法显示? - ？
缑星盐酸： 关于Office中的ABBYY PDF Transformer+插件无法显示问题,具体要看你用的是哪个office了,office 2003、2007、2010这几款不同的office中关于ABBYY PDF Transformer+插件无法显示的解决方法都是有所不同的.一、对于Microsoft Office ...

淄川区15185669029： 我的华硕TransformerWin8电脑不知道怎么回事桌面上的东西都不见了,只剩下一个回收站,现 - ？
缑星盐酸： 1、首先右击桌面选排列图标/勾选显示桌面图标.2、如果故障依旧,打开任务管理器(按下“Ctrl+Alt+Del”组合键即可打开),点击“文件”→“新建任务”,在打开的“创建新任务”对话框中输入“explorer”,单击“确定”按钮后,稍等一...

淄川区15185669029： simulink中变压器的参数如何设计 - ？
缑星盐酸： 这是双有源桥(DAB)结构,实现你的功能没问题. 简要说一下变压器设置: Pn是额定功率,根据你要出多少功率设置就行. fn是开关频率,也是高频变压器的工作频率,这里你设的50显然不行,基本上得几十kHz或上百kHz. 给你个例子,...

淄川区15185669029： 绕制单端输出变压器如何计算匝数和线径 - ？
缑星盐酸： 设一次侧线径为d1,二次侧线径为d2,匝数比为n, 根据变压器原理n=U1/U2=I2/I1,电... =1.25mm 胆机输出变压器计算问题3.气隙计算甲类单端输出变压器中有直流电流通过即可计算. 变压器: 变压器(Transformer)是利用电磁感应的原理来改变交流电压的装置,主要构件是初级线圈、次级线圈和铁心(磁芯).在电器设备和无线电路中,常用作升降电压、匹配阻抗,安全隔离等.主要功能有:电压变换、电流变换、阻抗变换、隔离、稳压(磁饱和变压器)等.按用途可以分为:配电变压器、电力变压器、全密封变压器、组合式变压器、干式变压器、油浸式变压器、单相变压器、电炉变压器、整流变压器等.

淄川区15185669029： 变压器储能有什么作用 - ？
缑星盐酸： 变压器(Transformer)是利用电磁感应的原理来改变交流电压的装置,主要构件是初级线圈、次级线圈和铁芯(磁芯).主要功能有:电压变换、电流变换、阻抗变换、隔离、稳压(磁饱和变压器)等. 而所说的储能,是指开关电源里的变压器叫储能变压器,也叫脉冲变压器.所谓脉冲变压器是一种宽频变压器.对通信用的变压器而言,非线性畸变是一个极重要的指标,因此要求变压器工作在磁心的起始导磁率处,以至即使像输入变压器那样功率非常小的变压器,外形也不得不取得相当大.除了要考虑变压器的频率特性,怎样减少损耗也是一个很关心的问题.

淄川区15185669029： 我的华硕TransformerWin8电脑不知道怎么回事关不了机了怎么办啊! - ？
缑星盐酸： 新年快乐!可能是你的机器运行时候软件加载导致死机,重新启动下试试.方法很简单:按住开机键 5秒钟,别松手,机器自动关机.然后再开机

你可能想看的相关专题

星空见康网

Transformer常见问题汇总

你可能想看的相关专题