ChatGPTの安全対策が「1発言」から「会話の時間軸」へ移った

OpenAIは2026年5月14日、ChatGPTがセンシティブな会話でリスクの兆候をより文脈的に認識するための安全アップデートを発表した。対象は主に自傷・自殺、他者危害のような急性リスクで、単一メッセージだけではなく、会話の途中で少しずつ現れる兆候をつなげて判断することが狙いだ。重要なのは、これは新しい大型モデル発表ではなく、LLMの安全性を「その場の発話分類」から「時間をまたぐ文脈理解」へ広げる更新だという点にある。(openai.com)

従来の安全対策は、多くの場合、ユーザーの直近入力に危険な依頼が含まれるかを判定し、必要なら拒否・代替案・支援先案内を返す設計だった。しかし実際の会話では、危険性は明示的な一文として現れるとは限らない。最初は曖昧な相談や感情の吐露に見え、後の依頼と組み合わさって初めて意味が変わることがある。OpenAIは今回、こうした「周辺文脈によって後続リクエストの意味が変わる」ケースをモデルがより慎重に扱えるよう、ポリシーと訓練を更新したとしている。(openai.com)

技術的に注目すべきは、複数会話をまたぐ安全文脈の扱いだ。OpenAIは、過去の安全関連文脈を短く事実ベースで記録する safety summaries を導入した。これは一般的なパーソナライズや長期記憶ではなく、深刻な安全上の懸念に関係する場合に限って使う、狭い範囲のメモとして説明されている。保存期間も限定され、モデルが安全推論のために使う文脈として設計されている点が特徴だ。(openai.com)

この設計は、LLMの安全性における難題をよく表している。会話履歴を広く参照すればリスク検出は改善しうるが、過剰に記憶すればプライバシーや過剰介入の問題が生じる。逆に、直近発話だけを見る設計では、兆候が分散しているケースを見落としやすい。今回の safety summaries は、この二つの極の間に置かれた折衷案と読める。つまり、「全部覚える」のではなく、「安全上必要な最小限の文脈だけを、限定的に保持する」という方向である。(openai.com)

評価結果も公表されている。OpenAIによれば、長い単一会話の評価では、自殺・自傷ケースで安全応答性能が50%改善し、他者危害ケースでは16%改善した。また、複数会話をまたぐ評価では、GPT‑5.5 Instantで他者危害ケースが52%、自殺・自傷ケースが39%改善したという。さらに、4,000件超の評価で safety summaries は安全関連性4.93/5、事実性4.34/5の平均スコアを得たとされる。ただし、これらはOpenAIの内部評価であり、独立第三者による再現評価ではない点は留保して読むべきだ。(openai.com)

また、普通の会話への副作用についても触れられている。OpenAIは、日常的なチャットに安全文脈を追加しても、内部テストでは応答品質が概ね同等で、ユーザー選好に意味のある差は見られなかったとしている。これは重要な観点だ。安全側に倒しすぎると、無害な会話まで警戒的になり、ユーザー体験を損なう可能性がある。今回の発表は、リスク検出の感度を上げつつ、通常利用で過剰反応しないことを同時に目指している。(openai.com)

この動きは、5月7日に発表された Trusted Contact ともつながっている。Trusted Contact は、成人ユーザーが信頼できる連絡先を任意で登録し、深刻な自傷リスクが疑われる場合に、訓練された人間のレビューを経て通知する仕組みだ。今回の文脈認識アップデートは、モデル側がリスクの兆候を見つける能力に関わる。一方、Trusted Contact は、検出後に現実世界の人間関係へ橋をかける製品機能に近い。両者を合わせると、ChatGPTの安全設計が「拒否応答」だけでなく、「検出・文脈化・人間への接続」へ広がっていることが分かる。(openai.com)

ただし、この方向性には難しい問いも残る。第一に、どの情報を safety summary に含めるべきか。少なすぎれば文脈を失い、多すぎればユーザーの内面を過剰に要約する危険がある。第二に、要約の誤りが後続会話に影響する問題がある。OpenAIは事実性スコアを示しているが、4.34/5という数値は「完全ではない」ことも同時に示している。安全目的の要約であっても、誤ったラベル付けや過剰な懸念が続く会話に影響する可能性は慎重に扱う必要がある。(openai.com)

第三に、こうした文脈安全の仕組みは、今後ほかの高リスク領域へ広がる可能性がある。OpenAI自身も、将来的には生物安全やサイバー安全のような領域で類似手法を検討する可能性に触れている。これは自然な拡張だが、同時に難度も上がる。自傷や他者危害では「支援につなげる」方向が比較的明確だが、サイバーやバイオでは研究・教育・防御目的の正当利用と、悪用準備の境界がさらに曖昧になる。文脈を見る能力が強くなるほど、その判断の説明責任も重くなる。(openai.com)

今回の発表を一言でまとめるなら、LLM安全性が「危険語を検出して止める」段階から、「会話の流れの中で意味が変わる瞬間を読む」段階へ進んだ、ということだと思う。これは派手なモデル性能競争ではないが、実利用のAIにとってはかなり本質的な更新である。人は一文だけで危機に至るのではなく、時間の中で揺れ、迷い、サインを出す。AIがその時間軸をどこまで、どの範囲で、どれほど慎重に扱うべきか。今回のOpenAIの発表は、その設計問題がいよいよ製品レベルのテーマになってきたことを示している。

出典：OpenAI公式発表「Helping ChatGPT better recognize context in sensitive conversations」、OpenAI公式発表「Introducing Trusted Contact in ChatGPT」、OpenAI「GPT‑5.5 Instant System Card」。(openai.com)

メニュー

# ChatGPTの安全対策が「1発言」から「会話の時間軸」へ移った OpenAIは2026年5月14日、ChatGPTがセンシティブな会話でリスクの兆候...

ChatGPTの安全対策が「1発言」から「会話の時間軸」へ移った