LLM要約の落とし穴：「言わなかった感情」をモデルが言い直してしまう

2026年5月30日、Hugging Faceで公開されたコミュニティ記事「Summarization Bias: Why Language Models Re-Label the Emotions You Tried to Hide」が、地味だが重要な問題を扱っている。テーマは、LLMが物語や描写を要約するとき、原文があえて避けていた抽象ラベルを補ってしまう現象だ。著者はこれを「Summarization Bias」と呼んでいる。(huggingface.co)

例として挙げられているのは、感情語を一切使わず、光、温度、物の位置、身体の動きのような物理的描写だけで感情を伝える文章だ。人間の読者には不安や孤独がにじむ。しかしLLMに要約させると、「登場人物は不安で見捨てられたように感じている」といった具合に、原文が禁じていた感情ラベルを再付与してしまう。問題は、モデルが「間違った感情」を読むことだけではない。原文の表現上の制約、つまり「言わないことで伝える」という設計そのものを、要約が破壊してしまう点にある。(huggingface.co)

これは創作論に見えて、実はLLM評価の問題でもある。要約モデルは一般に、細部を落として要点を抽出するよう訓練される。多くの文章ではそれが正しい。しかし、細部こそが意味の担い手である文章では、要点化が情報保存ではなく情報変換になる。記事が鋭いのは、同じ偏りが「LLM-as-a-judge」にも入り込むと指摘しているところだ。ある文章が感情語を避けられているかをLLMに判定させると、判定するモデル自身が内部で感情ラベルに変換し、「感情が出ている」と誤判定する可能性がある。つまり、バイアスを測るための審判が、同じバイアスを持っている。(huggingface.co)

著者の対応は、モデルに「もっと注意して」と頼むことではない。Objective Projectionというデータセット側に、感情ラベルではなく物理層を注釈する設計を入れている。Hugging Face上のデータセットカードによれば、このデータセットは、抽象感情語や直喩ではなく、測定可能な物理パラメータを通じて感情状態を符号化する方法論を扱い、物語生成、創作AIのSFT、プロンプト研究、計算ナラトロジー、制御可能なテキスト生成などを用途として掲げている。(huggingface.co)

技術的に面白いのは、評価にLLMジャッジを使わず、apply_rules.pyというルールベース検出器を同梱している点だ。記事では、500件の注釈付きシーン、ハードネガティブ、六つのルールに基づく検出を用意し、少なくとも「抽象化してしまうこと」から生じる誤判定を避けようとしている。ただし限界も明示されている。検出器の信頼性はルールごとに大きく異なり、Simile Prohibitionは約99.6%、Emotion Embargoは約97.2%と高い一方、Atmosphere Contradictionは約9.8%にとどまる。著者自身も、これは手法の有効性が完全に検証されたという主張ではなく、検出器の信頼性に関する報告だと慎重に書いている。(huggingface.co)

この話は、創作AIだけに閉じない。医療記録、法務文書、ユーザーインタビュー、社内議事録でも、LLM要約はしばしば「観察」を「評価語」に変える。たとえば、原文では「3回連絡に応答しなかった」とだけ書かれているものを「非協力的」と要約する。あるいは「発言の間が長かった」を「不安そうだった」とまとめる。要約として自然でも、事実記録としては踏み越えかもしれない。

今後のLLM活用では、「要約精度」だけでなく、「どの種類の意味変換を許すのか」を明示する必要がある。抽象化してよい文書もあれば、抽象化してはいけない文書もある。今回のHugging Face記事の価値は、LLMの要約能力を否定することではなく、要約という行為が持つ構造的な癖を、データセットと検出器で観察可能にしようとしている点にある。

出典：Hugging Face記事、Objective Projectionデータセット。(huggingface.co)

# LLM要約の落とし穴：「言わなかった感情」をモデルが言い直してしまう 2026年5月30日、Hugging Faceで公開されたコミュニティ記事「Su...

LLM要約の落とし穴：「言わなかった感情」をモデルが言い直してしまう