监督微调为何诱发幻觉？自蒸馏将 SFT 诱导误差降至 3%

最新研究揭示，大语言模型在通过监督微调（SFT）注入新事实知识时，极易诱发表面合理的错误陈述。耶路撒冷希伯来大学等机构团队指出，该现象本质是持续学习中的“事实遗忘”。团队提出基于自蒸馏的 SFT 优化方法，通过正则化输出分布漂移，将 SFT 诱导幻觉率从约 15% 降至约 3%，同时保持新知识的获取效率。

SFT 诱导幻觉的本质是持续学习中的事实遗忘

论文将 SFT 诱导的幻觉重新定义为事实遗忘现象。监督微调在更新参数以学习下游任务或新事实时，不可避免地改变预训练阶段已编码的知识表征。实验设置沿用 SLiCK 分类框架，将事实划分为高度已知、可能已知、微弱已知与未知四类。训练集同时包含已知事实用于任务学习，以及未知事实用于注入新知识。验证集保留高度已知事实以监控稳定性。随着训练推进且未知事实被吸收，模型在验证集上的准确率出现显著下滑，证实遗忘由新知识获取驱动而非微调动作本身。这种稳定性与可塑性的权衡在持续学习文献中已有广泛研究，而自然语言模型在单轮微调场景中同样面临该结构性挑战。

自蒸馏正则化输出分布漂移将幻觉率降至 3%

为缓解事实遗忘，研究团队引入持续学习中的自蒸馏技术。该方法在微调期间施加正则化约束，迫使模型输出分布贴近初始化阶段的自身分布。实验结果表明，自蒸馏方法在有效保留预训练事实的同时，未显著损害新事实的学习效率。针对需要保留旧知识并学习新事实的通用微调场景，该策略将事实遗忘导致的幻觉比例从基线的 15% 降低至 3%。输出分布漂移指标验证，自蒸馏有效抑制了新实体与保留实体在表征空间中的分离趋势，维持了候选答案的重叠度。

幻觉驱动机制：语义重叠表征的局部干扰

论文测试了三种幻觉生成假说：全局容量限制、行为克隆导致的输出模仿，以及局部干扰 — — 即新事实与旧事实在共享的表征结构中相互覆盖。团队通过合成事实数据，系统改变实体命名的表面形式。结果显示，使用类名实体进行微调会引发显著遗忘，遗忘程度随数据规模扩大而上升；使用随机 UUID 风格标识符时，即便注入一百万条新事实，遗忘率仍接近零。这一发现直接支持局部干扰假说，重叠的语义表征区是新知识破坏旧知识的主要载体。自蒸馏之所以有效，正是因为它在微调过程中锚定了这些重叠区域的表征漂移。

参数冻结与自蒸馏的双路径应用策略

研究提供两条互补的缓解路径。若微调场景不需要引入新事实，通过冻结部分参数组可大幅降低事实可塑性，从而在维持任务性能的同时压制幻觉。若场景需同时兼顾任务学习与新知识注入，则应采用自蒸馏方案。参数组角色分析表明，Transformer 的前馈层在事实存储与任务学习中承担不同功能，选择性冻结或正则化特定层可更精细地控制遗忘边界。

该研究为当前大模型落地前的微调环节提供了可验证的技术干预路径。自蒸馏与参数选择性冻结的结合作用，有望缓解企业级知识库注入与模型指令对齐场景中的准确性退化问题。后续研究可进一步探索自蒸馏调节参数在长尾事实检索任务中的动态配置策略。

监督微调为何诱发幻觉？自蒸馏将 SFT 诱导误差降至 3%

SFT 诱导幻觉的本质是持续学习中的事实遗忘

自蒸馏正则化输出分布漂移将幻觉率降至 3%

幻觉驱动机制：语义重叠表征的局部干扰

参数冻结与自蒸馏的双路径应用策略

推荐阅读

阿里开源 Qwen-Scope 可解释性工具覆盖 7 个 Qwen3/3.5 模型

OpenRouter 响应缓存功能上线测试与代理重试零成本

Google 正在测试 Omni 视频模型或将于 I/O 大会公布

OpenAI Codex 更新：引入动画宠物与配置自动导入功能

评论 ···

SFT 诱导幻觉的本质是持续学习中的事实遗忘

自蒸馏正则化输出分布漂移将幻觉率降至 3%

幻觉驱动机制：语义重叠表征的局部干扰

参数冻结与自蒸馏的双路径应用策略

分享

推荐阅读

评论 ···