BERT 模型参数量计算公式及示例 - 深入了解 BERT 架构
BERT 模型的参数量可以通过以下公式计算:
参数量 = (输入维度 × 隐藏层维度) + 隐藏层维度 + (隐藏层维度 × 4 × 隐藏层维度)
其中,输入维度为词汇表大小,隐藏层维度为模型中每个隐藏层的节点数。
例如,对于 BERT-Base 模型,输入维度为 768,隐藏层维度为 768,共有 12 层隐藏层,因此参数量为:
(768 × 768) + 768 + (768 × 4 × 768) × 12 = 110M
对于 BERT-Large 模型,输入维度为 1024,隐藏层维度为 1024,共有 24 层隐藏层,因此参数量为:
(1024 × 1024) + 1024 + (1024 × 4 × 1024) × 24 = 340M
原文地址: https://www.cveoy.top/t/topic/mQqe 著作权归作者所有。请勿转载和采集!