模型训练结果分析：Epoch 10 验证损失未改善及 NaN 值出现

日期: 2026-03-01

标签: 常规

模型训练过程中，在第10个Epoch期间，验证损失（val_loss）没有改善（did not improve from inf）。同时，训练期间，损失（loss）、KL散度损失（kl_loss）、正则化损失（reg_loss）以及验证期间的KL散度损失（val_kl_loss）和正则化损失（val_reg_loss）都变成了'nan'，即'Not a Number'，可能是由于数学运算中出现了无限大或无限小的值，导致计算出错。这可能是由于训练数据异常或者超参数设置不合理导致的，需要进一步调试和优化。每个Epoch耗时92秒，每步耗时272毫秒。

原文地址: https://www.cveoy.top/t/topic/nDVr 著作权归作者所有。请勿转载和采集!