BERT 模型的参数量可以通过以下公式计算:

参数量 = (输入维度 × 隐藏层维度) + 隐藏层维度 + (隐藏层维度 × 4 × 隐藏层维度)

其中,输入维度为词汇表大小,隐藏层维度为模型中每个隐藏层的节点数。

例如,对于 BERT-Base 模型,输入维度为 768,隐藏层维度为 768,共有 12 层隐藏层,因此参数量为:

(768 × 768) + 768 + (768 × 4 × 768) × 12 = 110M

对于 BERT-Large 模型,输入维度为 1024,隐藏层维度为 1024,共有 24 层隐藏层,因此参数量为:

(1024 × 1024) + 1024 + (1024 × 4 × 1024) × 24 = 340M

BERT 模型参数量计算公式及示例 - 深入了解 BERT 架构

原文地址: https://www.cveoy.top/t/topic/mQqe 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录