HuggingFace Papers · 训练

自适应教师暴露方法用于 LLM 推理自蒸馏

这篇论文提出一种自适应教师暴露策略,用于大语言模型推理任务中的自蒸馏。传统自蒸馏固定使用教师模型输出,而该方法动态调整教师暴露程度,在训练早期更多依赖教师指导,后期逐渐减少,从而缓解过拟合并提升学生模型的推理能力。实验表明,该方法在数学推理和常识推理基准上均优于固定蒸馏方案,为自蒸馏训练提供了更灵活的范式。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-17
自适应教师暴露方法用于 LLM 推理自蒸馏

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。