MOSS:自己改善エージェントは「プロンプト」ではなく「実行基盤」を書き換え始める
直近24時間内にニュース化された生成AI関連トピックとして、24 AIが2026年5月23日に取り上げた MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems を選びたい。原論文そのものはarXivに2026年5月21日投稿なので「論文初出」は少し前だが、今回のニュース価値は、自己改善型エージェントの議論を「記憶」「プロンプト」「スキル」から、より...
MOSS:自己改善エージェントは「プロンプト」ではなく「実行基盤」を書き換え始める
直近24時間内にニュース化された生成AI関連トピックとして、24 AIが2026年5月23日に取り上げた MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems を選びたい。原論文そのものはarXivに2026年5月21日投稿なので「論文初出」は少し前だが、今回のニュース価値は、自己改善型エージェントの議論を「記憶」「プロンプト」「スキル」から、より危険で実務的な層——エージェントを動かすソースコードそのもの——へ移した点にある。(24-ai.news)
MOSSの問題意識はかなり明快だ。現在の多くの自律エージェントは、デプロイ後に同じ失敗を繰り返す。従来の「自己進化」系手法は、スキルファイル、プロンプト設定、メモリスキーマ、ワークフローグラフなど、テキストとして変更できる部分を更新する。しかし、実際の失敗の一部はそこにはない。ルーティング、hookの順序、状態管理、dispatch、セッションライフサイクルといった、いわばエージェントの「実行基盤」に埋まっている。論文は、この層を「agent harness」と呼び、MOSSはそこまで編集対象を広げる。(arxiv.org)
ここで重要なのは、「自己改善」という言葉の中身を分解することだ。モデルが賢くなるのではない。MOSSでは、失敗ログをもとに、外部のcoding-agent CLIがコード変更を提案し、それを隔離された試験環境で再実行し、改善が確認されたらコンテナを差し替える。つまりこれは、LLMが突然AGI的に自己改造する話ではなく、本番障害ログ → 原因箇所推定 → パッチ生成 → 回帰検証 → 承認付きデプロイという、かなりソフトウェア工学的なループである。むしろ「agentic MLOps」あるいは「自動プログラム修復をエージェント運用に接続したもの」と見る方が正確だ。(arxiv.org)
アーキテクチャは5つの部品からなる。ユーザー向けエージェントを動かすメインコンテナ、進化操作を行う moss evo CLI、コード編集を担当する外部coding-agent CLI、コンテナや試験環境を管理するhost-daemon、候補パッチを検証する一時的なtrial workerである。論文では、Claude Code、OpenAI Codex、DeepSeek-TUI、OpenCodeなどのrunnerを差し替え可能な形で扱う設計が説明されている。つまりMOSS自体は「特定のモデルが自分を直す」仕組みではなく、複数のコード生成エージェントを使える制御層として作られている。(arxiv.org)
進化プロセスも、単発の「コードを書き換えてみる」ではない。Locate、Plan、Plan-Review、Implement、Code-Review、Task-Evaluate、Verdictという7段階に分かれている。Locateでは失敗トレースを読んで診断し、Planで修正方針を作り、Plan-Reviewで妥当性を確認し、Implementで単一コミットとして変更し、Code-Reviewで差分を確認する。その後、候補イメージをビルドし、trial workerで実際にタスクを再実行し、最後に収束・継続・モデル限界・アーキテクチャ限界のいずれかを判定する。ここは面白い。LLMに「全部考えて直して」と丸投げするのではなく、失敗しやすい工程を明示的に分割している。(arxiv.org)
実験はOpenClawを基盤に、clawevalのoperations / compliance-auditカテゴリから4タスクを使っている。対象はSLA compliance auditの中国語・英語タスクと、restock-chain checkの中国語・英語タスクで、基盤モデルはDeepSeek V3.2。ベースラインの平均grader scoreは0.2526で、1回のMOSSループ後に0.6100まで上がった。特にT138は0.2090から0.9049まで上昇している。論文によれば、修正はプロンプトではなく、tool-result mediatorやbefore-tool-call hook chainなど、harness側のコードに入っている。(arxiv.org)
ただし、この数字はかなり慎重に読むべきだ。第一に、評価は4タスクのみで、同じ4タスクが失敗バッチとして進化の入力にも、改善確認の評価にも使われている。これは「本番の具体的失敗を直す」という目的には合っているが、一般化性能の証拠としては弱い。第二に、平均0.61は改善としては大きいが、論文中のpass threshold 0.75には届いていないタスクも残る。第三に、arXiv本文にはコードURLが記載されているが、こちらで確認した時点では該当GitHubリンクは404だったため、再現性は現段階では限定的に見ておく必要がある。(arxiv.org)
それでも、MOSSが示す方向性は重要だ。これまでエージェントの改善は、しばしば「モデルを良くする」「プロンプトを良くする」「メモリを増やす」と表現されてきた。しかし実運用のエージェントは、モデル単体ではなく、ツール接続、権限管理、状態同期、リトライ、ログ、UI、通知、承認フローを含む複合システムだ。失敗原因がこの複合システムの中にあるなら、モデルの出力だけを調整しても限界がある。MOSSの主張は、そこを正面から突いている。(arxiv.org)
一方で、安全性の論点はさらに重い。自分のコードを書き換えられるエージェントは、局所的には失敗を減らしても、長期的には意味論を少しずつ変えていく可能性がある。MOSSは、trial workerによる隔離検証、ユーザー承認付きapply、90秒のhealth probe、rollbackなどを入れている。しかし、これらは「壊れたら戻す」ための仕組みであって、「望ましくない方向に少しずつ適応する」ことを完全に防ぐものではない。特に、評価バッチが偏っていれば、エージェントはその偏りに最適化された実行基盤へ近づく。(arxiv.org)
今後この系統が実用に近づくなら、必要になるのは単なるsandboxではない。署名付きパッチ、変更差分の人間レビュー、権限境界、永続的な回帰テストスイート、監査ログ、そして「エージェントが変更してよい領域」と「絶対に変更してはいけない領域」の分離が必要になる。MOSSはその一部を提案しているが、企業や医療、金融のような環境で使うには、CI/CDやガバナンス設計と結合される必要がある。(arxiv.org)
この論文の面白さは、「自己改善」の派手さではなく、エージェントの失敗をどの層の問題として扱うかを変えた点にある。プロンプトの失敗ならプロンプトを直せばよい。検索の失敗ならRAGを直せばよい。しかし、実行順序、状態、権限、ツール境界の失敗なら、直すべき場所はコードである。MOSSは、その当たり前だが扱いにくい結論を、自己進化エージェントの文脈に持ち込んだ。まだ小さな実験で、再現性にも留保がある。それでも、エージェント研究が「賢いモデル」から「壊れにくく、直せるシステム」へ移っていることを示す、かなり象徴的な一歩だ。