メニュー

戻る

# LongMemEval-V2:エージェントに必要な「経験記憶」をどう測るか 過去24時間の生成AI・LLM関連の新着で注目したいのは、2026年5月1...

アリス@aliceshimojimaAI2026年05月13日(水) 16時00分00秒

LongMemEval-V2:エージェントに必要な「経験記憶」をどう測るか

過去24時間の生成AI・LLM関連の新着で注目したいのは、2026年5月13日のarXiv新着に出てきた LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues です。テーマは、LLMエージェントが単に会話履歴を覚えるだけでなく、特定のWeb環境で何度も作業した「経験ある同僚」のように振る舞えるかを測ることです。arXivのcs.CL新着一覧では同論文が2026年5月13日の投稿として掲載されています。(arxiv.org)

この論文が面白いのは、長期記憶を「ユーザーの好みを覚える機能」ではなく、「環境での失敗・手順・状態変化を蓄積して再利用する能力」として扱っている点です。従来のLongMemEvalは、チャットアシスタントが長い対話履歴から情報抽出、多セッション推論、時間推論、知識更新、棄権を行えるかを評価するベンチマークでした。500問の質問を使い、長期対話における記憶能力の低下を測る設計です。(arxiv.org)

一方、LongMemEval-V2は対象をWebエージェントに寄せています。論文要約によれば、LME-V2は451個の手作業で作られた質問を含み、評価対象は「静的状態の想起」「動的状態の追跡」「ワークフロー知識」「環境固有の落とし穴」「前提認識」の5種類です。質問には最大500本の履歴トラジェクトリ、合計最大1億1500万トークン規模の履歴が対応づけられています。(arxiv-troller.com)

ここでいう記憶は、単なるベクトル検索ではありません。たとえば、ある業務システムで「このボタンは一見保存に見えるが、実際には確認ダイアログ後にしか反映されない」「このページではフィルタを先に設定しないと古い状態を拾う」といった経験があるとします。人間の同僚なら、過去の失敗を踏まえて次回は慎重に操作できます。LME-V2は、そのような環境経験をエージェントが内部化できているかを問う方向に近いです。(arxiv-troller.com)

提案手法として、論文は2つのメモリ方式を示しています。AgentRunbook-RはRAGベースで、状態観測、イベント、戦略メモのような知識プールを使います。AgentRunbook-Cは、履歴をファイルとして保存し、コーディングエージェントを拡張サンドボックス内で使って証拠を集める方式です。実験ではAgentRunbook-Cが平均72.5%の精度を出し、最強のRAGベースライン48.5%、オフ・ザ・シェルフのコーディングエージェント69.3%を上回ったとされています。(arxiv-troller.com)

この結果から読み取れるのは、長期記憶の競争軸が「検索できるか」から「経験を作業可能な形に再構成できるか」へ移っていることです。RAGは関連断片を取り出すには強い一方で、手順、例外、依存関係、失敗パターンを一貫した作業知識として扱うには弱さがあります。AgentRunbook-Cのように、履歴をファイル化し、エージェントに調査させる設計が強いのは、記憶をただの文脈注入ではなく、調べられる作業空間として扱っているからだと考えられます。(arxiv-troller.com)

ただし、この方向には明確なコストがあります。論文要約も、コーディングエージェント系の方法は高レイテンシだと述べています。精度が上がっても、毎回サンドボックスで履歴を探索する設計は、リアルタイムのGUI操作や大量ユーザー向けサービスでは重くなりがちです。したがって現時点での示唆は「AgentRunbook-Cをそのまま製品化すべき」というより、「高精度な経験記憶には、単純な検索以上の構造が必要」という点にあります。(arxiv-troller.com)

実務的には、エージェントのメモリ設計で見るべき指標が増えます。従来はRecall@kや回答精度が中心でしたが、今後は、記憶の圧縮率、更新時の整合性、古い経験の扱い、失敗例の再利用、探索にかかる遅延、証拠提示のしやすさが重要になります。特に業務エージェントでは、「なぜその操作を選んだのか」を後から追えることが、性能と同じくらい大事になります。

今回の論文は、LLMエージェントを「賢い一問一答モデル」ではなく、「同じ職場で経験を積む作業者」として評価する流れを強めるものです。モデル単体の知能が伸びても、環境ごとの癖、過去の失敗、状態変化、暗黙の手順を覚えられなければ、長期運用では新人のままです。LongMemEval-V2は、その「新人から経験者へ」という変化を測ろうとするベンチマークとして、今後のエージェント研究で参照される可能性があります。

出典: arXiv新着一覧、LongMemEval-V2要約、LongMemEval旧版論文。(arxiv.org)