LLMは、なぜ「違う話」を書いているのに似てしまうのか
今日取り上げる一本
今日は、2026年6月17日のarXiv cs.CL新着に掲載された論文 「Do Large Language Models Always Tell The Same Stories?」 を取り上げます。arXiv上の投稿時刻は2026年6月15日 22:52:02と表示されていますが、cs.CLの新着一覧では2026年6月17日掲載分として確認できます。著者はThennal DK氏とHans Ole Hatzel氏です。 (arxiv.org)
この論文の問いは、とてもシンプルです。大規模言語モデルは、本当に多様な物語を書けているのか。それとも、表面上は違う名前、違う舞台、違う文体に見えても、物語の芯では似たような筋に集まってしまうのか。対象は、LLMが生成するストーリーの「うまさ」ではなく、「多様さ」です。ここが面白いところです。 (arxiv.org)
何を調べたのか
研究チームは、人間が書いた物語とプロンプトを含む r/WritingPrompts 由来のデータを使い、10種類の代表的なLLMが生成した物語を比較しています。そして、人間による評価と、3種類の自動アノテーション手法を組み合わせ、物語同士がどれくらい似ているかを測っています。論文の結論はかなり明確で、LLMが生成した物語は、人間が書いた物語同士よりも、互いに似やすいというものです。 (arxiv.org)
ここで大事なのは、「LLMの文章が下手だ」と言っているわけではない点です。むしろ最近のモデルは、読みやすい散文や整った展開をかなり高い水準で作れます。問題は、個々の作品としては自然に見えるのに、集合として見ると似た方向へ収束してしまうことです。論文では特に、フロンティアモデルが「平均的で汎用的な物語」に寄っていく傾向があると説明されています。 (arxiv.org)
「温度を上げれば解決」ではない
創作でLLMを使う人なら、こう思うかもしれません。では、temperatureを上げればよいのではないか。あるいは、「ありきたりな展開を避けて」と強く指示すればよいのではないか。
ところが、この論文はそこにも冷静な水を差します。著者らは、negative prompting、つまり「こういう展開は避けて」と指示する方法や、temperature scalingのような一般的な多様化手法では、この同質化を十分には解消できないと報告しています。つまり、単にランダム性を足すだけでは、物語の構造的な似通いまでは崩しにくい可能性があります。 (arxiv.org)
これは、創作支援AIを見るうえでかなり重要です。文体の揺れ、比喩の派手さ、登場人物名の珍しさは変えられても、「主人公が葛藤し、転機があり、無難に成長し、きれいに着地する」といった深い型が似てしまうなら、読者の体験としては「別の作品なのに既視感がある」状態になります。
なぜ重要なのか
生成AIのクリエイティブ利用は、すでに文章作成、広告、ゲームシナリオ、漫画原案、動画脚本、教育教材などに広がっています。ここで求められるのは、単に破綻しない文章ではありません。むしろ大量に出力するほど、「似ていないこと」「予想外であること」「作家ごとの偏りや癖が残ること」が価値になります。
この論文が示しているのは、LLMの創作能力を評価するときに、1本の出力だけを読んで「自然かどうか」を見るだけでは足りない、ということです。複数の出力を並べたとき、どれくらい物語空間を広く探索できているのか。人間の作者群が持つばらつきに近づいているのか。そこを測らないと、創作支援ツールとしての実力を見誤るかもしれません。 (arxiv.org)
技術的に見ると何が新しいのか
この研究の新しさは、「LLMは創造的か」という大きな問いを、物語同士の類似性という測定可能な形に落としているところです。従来の生成品質評価では、流暢性、整合性、好ましさ、指示追従などが中心になりがちでした。しかし創作では、「平均的によくできている」ことと「作品群として豊かである」ことは別物です。
たとえば、学校の作文で全員が満点に近い整った文章を書いたとしても、全員が同じ構成、同じ感情曲線、同じ結末だったら、それは豊かな創作とは言いにくい。LLMにも同じ問題があります。個別にはよく書ける。しかし、集合として見ると、モデルが学習してきた「もっとも受け入れられやすい物語の中心」に引き寄せられる。この論文は、その現象を定量的に扱おうとしています。 (arxiv.org)
実務への示唆
創作現場でLLMを使うなら、モデルに「完成原稿」を一発で出させるよりも、人間側が物語の分岐、価値観、構造上の制約を先に設計する使い方のほうが重要になりそうです。
たとえば、「意外な結末にして」では弱いかもしれません。代わりに、主人公が成長しない物語、問題が解決しない物語、読者の同情が途中で反転する物語、脇役の選択が主筋を壊す物語、というように、構造レベルで異なる足場を与える必要があります。LLMに自由に書かせるほど自由になるのではなく、むしろ人間が強い設計変数を入れたほうが、結果として多様になる可能性があります。
注意点
もちろん、この論文はarXivプレプリントとして読むべきです。査読済みの最終結論ではありません。また、どのモデル、どのプロンプト、どのジャンル、どの言語で評価するかによって、多様性の見え方は変わります。今回の結果を「LLMは創造性がない」と短絡するのは行き過ぎです。
ただし、「LLMは自然な文章を書く」から「LLMは人間並みに多様な物語空間を探索できる」へは、まだ距離がある。この区別をはっきり示した点で、この論文は読む価値があります。
今日のまとめ
今日のポイントは、LLMの創作能力を「1本の作品の完成度」だけで見ないことです。問題は、1つの物語が読めるかどうかではなく、100本並べたときに本当に違う世界が立ち上がっているかどうかです。
LLMは、きれいな文章を書くのが得意になりました。しかし、きれいさはしばしば平均へ向かいます。創作における次の課題は、破綻を避けることではなく、似すぎることをどう避けるか。その意味で、この論文は、生成AI時代の「創造性の評価」を考えるうえで、とてもよい入口になります。