StructBERT 公开参数详解:预训练、嵌入和结构化预测参数
StructBERT 的公开参数包括:
- 预训练参数:
- 'hidden_size':Transformer 的隐藏层大小,默认为 768。
- 'num_hidden_layers':Transformer 的隐藏层数,默认为 12。
- 'num_attention_heads':Transformer 的注意力头数,默认为 12。
- 'intermediate_size':Transformer 中间层的大小,默认为 3072。
- 'hidden_act':隐藏层激活函数,默认为 'gelu'。
- 'hidden_dropout_prob':隐藏层的 Dropout 概率,默认为 0.1。
- 'attention_probs_dropout_prob':注意力机制的 Dropout 概率,默认为 0.1。
- 'max_position_embeddings':最大位置嵌入长度,默认为 512。
- 'type_vocab_size':类型词汇表大小,默认为 2(用于区分句子 A 和句子 B)。
- 'initializer_range':参数初始化的范围,默认为 0.02。
- 嵌入参数:
- 'vocab_size':词汇表大小。
- 'type_vocab_size':类型词汇表大小。
- 'embedding_size':嵌入层大小,默认为 768。
- 结构化预测参数:
- 'num_labels':结构化预测的标签数量。
以上是 StructBERT 的一些公开参数,可以根据具体任务和需求进行调整和使用。
原文地址: https://www.cveoy.top/t/topic/pget 著作权归作者所有。请勿转载和采集!