LLMSurgeon：LLMの「訓練データの配合」を、出力だけから推定する試み

今日取り上げたいのは、新モデルではなく、モデル監査の論文です。2026年5月29日のarXiv cs.CL新着に掲載された「LLMSurgeon: Diagnosing Data Mixture of Large Language Models」。論文自体の登録時刻は2026年5月28日17:59 UTCで、ACL 2026 Main採択、コードも公開されています。テーマはかなり直球で、「あるLLMが、どんな種類のデータで事前学習されたのかを、モデルの出力だけから推定できるか」です。(arxiv.org)

まず面白いのは、問いの置き方です。従来の訓練データ監査では、「この特定文書が学習データに入っていたか」を調べるmembership inferenceが中心でした。LLMSurgeonが狙うのはそれより大きな粒度です。CommonCrawl、C4、GitHub、Wikipedia、Books、ArXiv、StackExchangeのようなドメイン配合を、事後的に復元しようとします。つまり、個別文書の有無ではなく、モデルの“食事バランス”を見る技術です。(arxiv.org)

仕組みをざっくり言うと、まず既知ラベル付きの参照データでドメイン分類器を作ります。ただし、分類器は当然まちがえます。CommonCrawlとC4、CとC++のような近いカテゴリは混同されやすい。そこでLLMSurgeonは、分類器の出力をそのまま集計せず、「どのドメインをどれくらい取り違えるか」を表すソフトな混同行列を推定し、そのズレを逆問題として補正します。論文はこのタスクをData Mixture Surgery、略してDMSと定式化しています。(arxiv.org)

この発想の新しさは、「モデルの内部を見ない」点にあります。重みも訓練データも不要で、必要なのは対象LLMが生成したテキストです。公開リポジトリの説明でも、LLMSurgeonは「no weights, no training data」を掲げています。もちろん魔法ではありません。事前に決めた分類体系の範囲で、かつ生成テキストが訓練分布の手がかりを残している、という仮定の上に成立します。(github.com)

評価用にはLLMScanというベンチマークが用意されています。これは、事前学習データの配合が公開・文書化されている8つのオープンモデルを使う評価セットです。粗い粒度ではOLMo-1B、LLaMA-1 7B/65B、Amber-13Bを7ドメインで評価し、中粒度ではGPT-NeoやPythiaをPileの22サブドメインで評価し、細粒度ではStarCoderをThe Stackの86言語分類で評価します。公開リポジトリには、各モデルのground-truth mixtureをYAMLで置く設計も示されています。(github.com)

結果は、粒度によってかなり表情が変わります。GitHubのREADMEに載っている主要値では、粗粒度のoverlap accuracyはOLMo-1Bで94.46、LLaMA-1 7Bで95.14、LLaMA-1 65Bで94.26と高い一方、Amber-13Bでは78.87に下がります。Pile系の中粒度ではGPT-Neo 2.7Bが61.86、Pythia 12Bが65.98。StarCoderの86言語という細粒度では30.37まで落ちます。著者らも、細かい分類になるほど分類器の混同がボトルネックになると説明しています。(github.com)

ここから見えるのは、「訓練データ監査」は単に賢い検出器を作れば終わる話ではない、ということです。分類体系をどう切るか、参照データがどれだけ代表的か、生成プロンプトがどの領域を引き出すか、RLHFや安全調整が出力分布をどれだけ変えるか。これらがすべて推定値に影響します。したがってLLMSurgeonの結果は、閉じた商用モデルの訓練データを断定する“鑑定書”ではなく、まずは再現可能な外部監査の方向を示す道具として読むのが妥当です。(arxiv.org)

それでも、この論文の意味は大きいと思います。モデル開発企業が「何をどれだけ学習したか」を完全には開示しない状況で、外部の研究者や評価機関が、モデルの振る舞いから訓練配合を推定する方法を持ち始めているからです。これは透明性の議論を、「信じる／信じない」から「どの仮定なら、どの粒度で検証できるか」へ進める一歩です。(openreview.net)

ポッドキャスト風にまとめるなら、今日のポイントはこうです。LLMSurgeonは、LLMの中身を暴く万能メスではありません。でも、モデルの出力に残った訓練データの影を、統計的に読み解こうとする顕微鏡ではあります。今後、モデルカードやデータカードが自己申告にとどまるのか、それともこうした外部推定と突き合わせられるのか。生成AIの透明性は、だんだん「説明を求める段階」から「検証する段階」へ移っていきそうです。(arxiv.org)

# LLMSurgeon：LLMの「訓練データの配合」を、出力だけから推定する試み 今日取り上げたいのは、新モデルではなく、モデル監査の論文です。2026...

LLMSurgeon：LLMの「訓練データの配合」を、出力だけから推定する試み

# LLMSurgeon：LLMの「訓練データの配合」を、出力だけから推定する試み今日取り上げたいのは、新モデルではなく、モデル監査の論文です。2026...