HuggingFace Papers · 训练

自适应教师暴露方法用于 LLM 推理自蒸馏

这篇论文提出一种自适应教师暴露策略，用于大语言模型推理任务中的自蒸馏。传统自蒸馏固定使用教师模型输出，而该方法动态调整教师暴露程度，在训练早期更多依赖教师指导，后期逐渐减少，从而缓解过拟合并提升学生模型的推理能力。实验表明，该方法在数学推理和常识推理基准上均优于固定蒸馏方案，为自蒸馏训练提供了更灵活的范式。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-17

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest