合成事前学習データはどう作るべきか

FinePhrase論文が示した「高品質な合成データ」の実践的レシピ

大規模言語モデルの性能は、計算資源だけでなく、何をどのような形で読ませるかに強く左右される。近年は「高品質な自然由来ウェブデータ」が限られてきたことから、合成データを事前学習に使う流れが加速しているが、どの設計が本当に効くのかは意外なほど整理されていなかった。2026年4月15日に公開された Hugging Face 系の論文 How Can We Synthesize High-Quality Pretraining Data? は、その空白に真正面から取り組んだ研究である。著者らは、プロンプト設計・生成モデル・元データの選び方をまたいで統制実験を行い、90実験・1兆超トークン生成・12.7 GPU年というかなり大規模な検証から、合成事前学習データの「効く作り方」を具体化した。(arxiv.org)

この研究の中心的な結論は明快だ。単純な言い換えよりも、表・FAQ・数学文章題・チュートリアルのような「構造化された再構成」が強い。論文要旨では、こうした出力形式が、厳選ウェブデータのベースラインや既存の合成法を一貫して上回ったと報告している。しかも、その知見をもとに構築された公開データセット FinePhrase は4860億トークン規模で、既存の合成データ基盤を上回りつつ、生成コストを最大30分の1まで下げられるという。(arxiv.org)

なぜ「構造化」が効くのか。公開されたプロンプトを見ると、FinePhrase は元のウェブ文書を、読者の疑問を先回りして答える FAQ、数値関係を使った文章題、主要情報を整理した表＋QA、手順化されたチュートリアルへと再構成している。要するに、情報量そのものを増やすというより、情報の並び方を学習しやすい形へ変える発想だ。これは「教材風に整えると小型モデルでも学びやすくなる」という Phi 系列の発想を、より一般的なウェブ文書の再構成へ広げたものと読める。(github.com)

もう一つ重要なのは、生成器を大型化すれば自動的に良くなるわけではない、という点である。論文は、生成モデルを1Bパラメータ超へ大きくしても追加の利益は見られなかったと報告する。実際、公開された FinePhrase データセットは SmolLM2-1.7B-Instruct を使い、元データとして FineWeb-Edu を再構成している。これは、合成データ生成の価値が「最強の教師モデル」よりも、「適切なテンプレートと元データ選定」に強く依存することを示唆する。EMNLP 2025 の体系研究でも、生成器の大規模化は必ずしも事前学習データ品質に直結しないと報告されており、FinePhrase の結論はその流れと整合的だ。(arxiv.org)

本論文のもう一つの貢献は、元データの質と混ぜ方の重要性をはっきり示したことだ。要旨には、再構成前の原文データの選択が性能へ大きく効くとある。これは、合成データを単独で大量投入するより、自然データとの混合比やソース品質が鍵になるという最近の知見ともつながる。たとえば Kang らは、言い換え型合成データを単独で使っても自然ウェブ文書より速くは学習できず、自然データとの混合で初めて効果が出やすいと報告した。Nemotron-CC もまた、過度にデータを捨てるのではなく、分類器による選別と再構成を組み合わせて、質と量の両立を狙っている。FinePhrase はその路線を、より低コストで再現可能なレシピに落とし込んだ点が大きい。(arxiv.org)

この位置づけを少し広い文脈で見ると、2023年の Phi-1 / Phi-1.5 は「教科書品質」の合成データが小型モデルを強く押し上げることを示し、2024年の Cosmopedia はその発想を大規模公開データセットへ拡張した。ただし Cosmopedia 自身も、生成品質や幻覚の課題を認めていた。さらに 2025年の BeyondWeb は、どの文書をどう再構成するか、どの生成器を選ぶかまで含めて最適化しないと本当の改善は出ないと論じている。FinePhrase の新しさは、こうした流れを受けて、「教材らしさ」を少数の強い形式へ絞り、しかも小型オープンモデルで回る現実的な工程にしたところにある。(huggingface.co)

もちろん、話はこれで終わらない。FinePhrase のデータカードには、出力がモデル生成である以上、幻覚や長文切り詰めがありうることが明記されている。さらに公開後の Hugging Face 上の議論では、外部ユーザーが LLM-as-judge で一部サンプルの内在品質を低めに評価し、これに対して著者側も「見た目の出来」と事前学習後のベンチマーク改善がきれいには相関しない」と応答している。これはかなり示唆的で、事前学習データの良さは、単発サンプルの自然さだけでは測れないことを意味する。データ工学としてはまだ荒削りでも、学習上は有効な「圧縮された教育的表現」がありうる、ということだろう。(huggingface.co)

今後の展望としては、少なくとも三つある。第一に、複数候補生成と品質選別を組み合わせること。第二に、同一文書から複数の再構成を束ねる「megadoc」型の設計で長文学習効率を高めること。第三に、単なる言い換えではなく、文書間の関係まで学んで新しい文書を作る bootstrapped pretraining の方向である。2026年の別研究では、再構成を長大文書としてまとめると効率がさらに上がり、また Synthetic Bootstrapped Pretraining は単なるパラフレーズを超えた概念的再合成の可能性を示している。FinePhrase は、その先の時代に向けた「まず何が効くか」の土台を与えた研究として読むのがいちばん正確だ。合成データの未来は、魔法の教師モデルよりも、文書をどう組み替えれば学習信号になるのかという、地味だが本質的な設計論にかかっている。(arxiv.org)

主な出典
- Niklaus ら, How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data（arXiv, 2026） (arxiv.org)
- Hugging Face FinePhrase データセットカード／リポジトリ／公開プロンプト (huggingface.co)
- Kang ら, Demystifying Synthetic Data in LLM Pre-training（EMNLP, 2025） (aclanthology.org)
- Su ら, Nemotron-CC（ACL, 2025） (arxiv.org)
- Maini ら, BeyondWeb（arXiv, 2025） (arxiv.org)

メニュー

How Can We Synthesize High-Quality Pretraining Data? A Systematic Study of Prompt Design, Generator Model, and Source Data

合成事前学習データはどう作るべきか

FinePhrase論文が示した「高品質な合成データ」の実践的レシピ