Transformer 文本编码器：上下文长度详解

日期: 2025-05-18 17:59:03
标签: 常规

Transformer 的文本编码器上下文长度由其自身的超参数控制。编码器由多个编码器层组成，每个编码器层包含一个多头自注意力机制和一个前馈神经网络。在进行自注意力计算时，每个单词的表示向量都会考虑其前面的 n 个单词和后面的 m 个单词，其中 n 和 m 由超参数控制的上下文长度决定。实践中，通常使用较小的上下文长度，以在保持模型效果的同时减少计算成本。

原文地址: https://www.cveoy.top/t/topic/n7dX 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: ROS/Gazebo车辆仿真现状分析：应用场景、系统架构、模型、数据库、评估与前景
下一篇: 风电场基础类型对比分析：锥柱基础、桩基础和大板基础