StructBERT 公开参数详解：预训练、嵌入和结构化预测参数

日期: 2024-07-03
标签: 常规

StructBERT 的公开参数包括：

预训练参数：

'hidden_size'：Transformer 的隐藏层大小，默认为 768。
'num_hidden_layers'：Transformer 的隐藏层数，默认为 12。
'num_attention_heads'：Transformer 的注意力头数，默认为 12。
'intermediate_size'：Transformer 中间层的大小，默认为 3072。
'hidden_act'：隐藏层激活函数，默认为 'gelu'。
'hidden_dropout_prob'：隐藏层的 Dropout 概率，默认为 0.1。
'attention_probs_dropout_prob'：注意力机制的 Dropout 概率，默认为 0.1。
'max_position_embeddings'：最大位置嵌入长度，默认为 512。
'type_vocab_size'：类型词汇表大小，默认为 2（用于区分句子 A 和句子 B）。
'initializer_range'：参数初始化的范围，默认为 0.02。

嵌入参数：

'vocab_size'：词汇表大小。
'type_vocab_size'：类型词汇表大小。
'embedding_size'：嵌入层大小，默认为 768。

结构化预测参数：

'num_labels'：结构化预测的标签数量。

以上是 StructBERT 的一些公开参数，可以根据具体任务和需求进行调整和使用。

StructBERT 公开参数详解：预训练、嵌入和结构化预测参数

原文地址: https://www.cveoy.top/t/topic/pget 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: 吸收存款：短期负债吗？银行资金来源解析
下一篇: 医疗软件信创政策要求：安全、合规、可靠