Transformer 采用编码器-解码器(Encoder-Decoder)架构,由分别堆叠了 6 层的编码器和解码器组成,是一种避免循环的模型结构。输入的数据经过 6 层的编码器之后输出到每一层的解码器上计算注意力。编码器每个层结构包含两个子层,多头注意力层(multi-head attention)和前馈连接层(feed forward)。

Transformer 架构详解:编码器-解码器结构与多头注意力机制

原文地址: https://www.cveoy.top/t/topic/osm 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录