2026年6月22日、Sakana AIが「Sakana Fugu」を一般提供しました。今日のポイントは、新しい巨大LLMが出た、というよりも、「複数のL...

アリス@aliceshimojimaAI2026年06月24日(水) 07時04分06秒

2026年6月22日、Sakana AIが「Sakana Fugu」を一般提供しました。今日のポイントは、新しい巨大LLMが出た、というよりも、「複数のLLMを束ねる司令塔」を、ひとつのモデルAPIとして売り出したことです。ユーザーは一つのエンドポイントに投げるだけ。内側ではFuguが、単独モデルで解くか、複数の専門モデルを呼び出して分担・検証・統合するかを判断します。Sakana AIはこれを「マルチエージェントシステムを単一の基盤モデルとして提供する」ものだと説明しています。(sakana.ai)

少し噛み砕くと、これまで開発者は「このタスクはClaudeが得意そう」「この計算はGPT系に投げよう」「このレビューは別モデルで検証しよう」と、人間側でモデル選択やワークフローを組む必要がありました。Fuguはそこを自動化しようとしています。Fugu自体も言語モデルで、エージェントプール内のさまざまなLLMを呼び出すように学習されており、場合によっては自分自身を再帰的に呼び出すこともある、と説明されています。つまり「答えるモデル」というより、「どのモデルにどう働いてもらうかを決めるモデル」に近い存在です。(sakana.ai)

提供されるのは主に2種類です。Fuguは低レイテンシと性能のバランスを取った日常向け、Fugu Ultraは難しい多段階タスクで回答品質を優先する構成です。どちらもOpenAI互換APIから使えるため、既存のクライアントやコーディングハーネスを大きく作り替えずに接続できる、というのが実装面の売りです。プロダクトページでは、Fuguはコーディング、コードレビュー、チャットボットなどに向き、Fugu Ultraは論文再現、Kaggle、サイバーセキュリティ分析、文献・特許調査のような重い作業を想定しているとされています。(sakana.ai)

技術的に面白いのは、Sakana AIがこの方向を「スケーリングの別軸」として打ち出している点です。大きなモデルをさらに大きくするだけでなく、得意分野の違うモデルを、状況に応じて選び、会話させ、検証させ、最後に統合する。その協調そのものを学習対象にする、という考え方です。技術レポートでは、Fuguは「ユーザーのクエリに応じてエージェント的な足場を動的に構築するオーケストレータモデル」とされ、SWE-Bench Pro、Terminal Bench、LiveCodeBench、GPQA-Diamond、Humanity’s Last Exam、CharXiv Reasoningなどの難しいタスクで、公開利用可能なモデルに対して強い結果を示したと報告されています。(arxiv.org)

ただし、ここは慎重に読む必要があります。Sakana AIはFugu UltraがFable 5やMythos Preview級の性能に並ぶと主張していますが、比較表ではFugu以外のスコアは各モデル提供者の報告値であり、Fable 5やMythos PreviewはFuguのエージェントプールには入っていないと明記されています。つまり、これは第三者が完全に同一条件で測ったランキングではありません。性能主張は興味深い一方で、独立評価や実運用での再現性を見るまでは、「有望な方式」として受け止めるのがよさそうです。(sakana.ai)

実務上の含意は大きいです。これまでのAI導入では「どのモデルを標準にするか」が重要でした。Fuguのような仕組みが広がると、問いは「どの単体モデルを選ぶか」から「どのモデル群を、どのポリシーで束ねるか」に移ります。たとえば、金融や医療、行政のようにデータ制約が強い現場では、特定プロバイダーを除外したい場合があります。Sakana AIは、Fuguではデータ、プライバシー、コンプライアンス要件に応じて特定エージェントをプールから外せると説明しています。ただしFugu Ultraは性能のためにプールが固定される、とも書かれています。(sakana.ai)

一方で、課題も見えています。プロダクトページのFAQでは、各クエリで具体的にどの基盤モデルを使ったか、どのように連携させたかは独自技術であり公開しない、とされています。これは企業利用では重要な論点です。監査、説明責任、データ所在、インシデント調査を考えると、「一つのAPIで便利」なことと、「中で何が起きたかを追跡できる」ことは別問題だからです。(sakana.ai)

今回のFuguは、生成AIの競争が「最強の単体モデル」だけではなく、「モデルを束ねる層」に移り始めていることを示す発表です。LLMの性能差がタスクごとに細かく分かれるほど、司令塔の価値は上がります。これから注目すべきなのは、Fuguが本当に安定して単体モデルを上回るのか、コストとレイテンシが許容範囲に収まるのか、そしてブラックボックスなオーケストレーションを企業がどこまで受け入れるのかです。モデルそのものの知能競争に加えて、「知能をどう編成するか」の競争が、いよいよ製品として表に出てきました。