メニュー

戻る

Google DeepMind、LLM向け分散学習「Decoupled DiLoCo」を発表

Google DeepMind、LLM向け分散学習「Decoupled DiLoCo」を発表
アリスAI2026年04月24日(金) 10時03分59秒

Google DeepMindの「Decoupled DiLoCo」とは何か LLM学習を“巨大な一枚岩”から解き放つ新しい設計

2026年4月23日、Google DeepMindとGoogle Researchは、分散学習の新方式「Decoupled DiLoCo」を発表した。位置づけとしては、単なる通信削減アルゴリズムの改良ではない。遠隔地のデータセンター同士をまたいで大規模モデルを訓練するとき、回線帯域が細い、計算機の一部が落ちる、拠点ごとにハードウェア世代が違う、といった現実の制約を前提に、それでも学習全体を止めにくくするための訓練アーキテクチャだ。DeepMind自身も、これはPathwaysの非同期データフロー設計と、DiLoCo系の低通信学習を合流させたものだと説明している。(deepmind.google)

背景には、現在の最先端モデル訓練が抱える「同期の重さ」がある。一般的な大規模事前学習は、SPMD的な強い同期を前提に、各アクセラレータがほぼ足並みをそろえて毎ステップ通信する。そのため、どこか一部で遅延や故障が起きると、全体が待たされやすい。報告書はこの問題を、CAP定理になぞらえて「一貫性(Consistency)を強く優先しすぎると、可用性(Availability)や分断耐性(Partition Tolerance)が犠牲になる」と整理している。クラスタが巨大になるほど、個々の故障が珍しくなくなる以上、この見方はかなり本質的だ。(storage.googleapis.com)

ここで効いてくるのが、DiLoCoの系譜である。2023年のDiLoCoは、複数の“計算の島”がそれぞれローカルに学習を進め、たまにだけ外側の最適化で同期する発想を取り入れた。C4上の実験では、8ワーカー構成で、完全同期型に匹敵する品質を保ちながら通信量を500倍削減できると報告されている。さらに2025年のStreaming DiLoCoでは、モデル全体を一度にではなく断片ごとに順次同期し、通信と計算を重ね、通信データの量子化も導入することで、必要帯域をさらに二桁規模で下げた。ただし、この段階ではまだ、ワーカー同士は基本的に足並みをそろえる必要があった。(arxiv.org)

Decoupled DiLoCoの新しさは、その“最後の同期の壁”を崩した点にある。各学習ノードは独立した learner として自分のデータで学習を続け、モデルは複数のfragmentに分割される。中央の syncer は、それぞれの learner から断片更新を非同期に受け取り、全員分を待つのではなく、最低限の人数がそろった時点で集約を進める。しかも、少しだけ待てば追加の更新を取り込めるときは adaptive grace window で猶予を設け、速い learner と遅い learner の差は token-weighted な重みづけで吸収する。さらに、更新ベクトルの大きさと向きを分けて合成する Radial-Directional Averaging を使い、多数 learner 化で起きやすい不安定さも抑えている。重要なのは、単純な非同期SGDのように「古い重みで計算した勾配をそのまま押し込む」方式ではないことだ。(storage.googleapis.com)

実験結果は、この設計思想が机上の理屈にとどまらないことを示している。報告書の要約では、数百万チップ規模の故障多発環境を模した実験で「グローバルなダウンタイムゼロ」を達成したとされる。より具体的には、チップあたり平均故障間隔を1年、全体を120万チップ相当にした厳しいシミュレーションで、8 learner の Decoupled DiLoCo は goodput 88% を維持した。これに対し、非弾性的な単一 learner 相当のデータ並列は 27%、弾力的に縮退運転する elastic data-parallel でも 58% にとどまる。しかも、Gemma 4系の軽量化レシピを用いたテキスト・ビジョン混合学習では、故障下でもベンチマーク性能は概ね競争的で、2B/5B/9Bのdenseモデルや、2.8B/3.8B有効パラメータのMoEでも、集中型データ並列と同程度の下流性能を示した。(storage.googleapis.com)

実運用面で目を引くのは、広域ネットワーク越しでも成立する点だ。公式ブログによれば、DeepMindは4つの米国リージョンにまたがって120億パラメータのモデルを、2~5GbpsのWAN帯域で事前学習できたとしている。しかも従来型の同期法より20倍超高速だったという。報告書の帯域試算もそれを裏づける。5Bモデル、8データセンター、1秒ステップ、95%の計算利用率という条件では、データ並列が198Gbpsを要するのに対し、Decoupled DiLoCoはint4通信込みで0.84Gbpsまで下がる。ここでのポイントは「少し速い」ではなく、「専用の超高帯域ネットワークを前提にしなくても訓練設計が成立する」ことにある。(deepmind.google)

この方式の産業的な意味は、故障耐性だけではない。報告書は、異なる世代のTPUを混在させても、最小クォーラムとgrace windowを組み合わせれば、遅い側に全体が引きずられず、同期品質も保てると示している。また、空いた計算資源を途中参加させる「scavenging」では、同じ総FLOPs条件で学習時間をより短くできた。要するに、これまで“帯域が足りない”“世代が古い”“一時的にしか空かない”ために使いにくかった計算資源を、訓練全体の戦力に変えやすくなる。さらに、同じ事前学習済み重みを同一の後段チューニングにかけた比較でも、Decoupled DiLoCoはポストトレーニング能力を大きく損なわなかった。(storage.googleapis.com)

今後の見どころは二つある。第一に、これは「通信効率の良い最適化手法」から、「可用性を中心に据えた訓練OS的な設計」への重心移動として見るべきだという点だ。第二に、その発想がGoogle内部の巨大インフラにとどまるのか、それともより広いLLM訓練の標準へ波及するのかである。2025年のDiLoCoスケーリング則研究は、DiLoCoが適切に調整されればモデルサイズ拡大に対して予測可能かつ頑健に伸びうることを示しており、今回のDecoupled化はその先にある「実際に止まらない大規模訓練」への一歩と読める。ただし現時点では、結果の多くはGoogleの自社系スタック上で得られた技術報告ベースだ。真価は、より大きな前線級モデル、異なるクラウド/研究環境、公開実装や追試でどこまで再現されるかで見えてくるだろう。(arxiv.org)

出典: Google DeepMind公式ブログ、技術報告PDF、Pathways論文、DiLoCo原論文、Streaming DiLoCo論文、DiLoCoスケーリング則論文。(deepmind.google)