DeepMind · 训练
DeepMind 发布 Decoupled DiLoCo 分布式训练方法
DeepMind 提出 Decoupled DiLoCo,一种面向分布式 AI 训练的新方法。它通过解耦通信与计算,显著提升大规模训练的抗故障能力与扩展效率,为构建更鲁棒的分布式训练基础设施提供了新思路。
- 域名
deepmind.google- 评分
- 5 · 重大发布
- 发布
- 2026-04-22
导读
DeepMind 发布 Decoupled DiLoCo,一种面向超大规模分布式训练的新方法。DiLoCo(Distributed Low-Communication)是 DeepMind 此前提出的训练范式,核心想法是降低节点间通信频率以提升 弹性;Decoupled 版本在此基础上把通信和计算彻底解耦。
传统数据并行训练里,每一步反向传播完都要做一次 all-reduce 同步梯度,通信瓶颈把训练 扩展性卡死在 1024 卡左右。DiLoCo 把同步频率降到几十步一次,Decoupled 版本进一步让通 信线程独立运行——计算节点不等通信完成就开始下一轮,通信完了再异步合并。结果是单个 worker 失联或慢节点不会拖垮整体训练。
这套方法对训练 100B-1T 参数大模型的团队有直接价值,尤其是跨数据中心或者跨地域训练 的场景。Google 内部已用类似思路训 Gemini,论文公开后社区可以在 OSS 实现里复刻。配合 TPU 8 的硬件互连特性,这套训练栈可能成为继 Megatron-LM 之后的下一代主流分布式训练范式。