2026年5月27日に投稿された論文「Do LLMs Build World Models From Text?」は、LLMの“世界モデル”論争をかなり良い形で絞り込んでいる。問いは大きいが、実験設定は具体的だ。部屋の中にある物体の位置関係をテキストで説明されたとき、LLMは単に文を読んでいるだけなのか、それとも頭の中に近い「空間の地図」を構成しているのか。著者らはこの問題を、MentalMapという多言語ベンチマークで検証した。([arxiv.org](https:/...
MentalMap:LLMは「部屋の見取り図」をテキストだけで作れるのか
2026年5月27日に投稿された論文「Do LLMs Build World Models From Text?」は、LLMの“世界モデル”論争をかなり良い形で絞り込んでいる。問いは大きいが、実験設定は具体的だ。部屋の中にある物体の位置関係をテキストで説明されたとき、LLMは単に文を読んでいるだけなのか、それとも頭の中に近い「空間の地図」を構成しているのか。著者らはこの問題を、MentalMapという多言語ベンチマークで検証した。(arxiv.org)
2026年5月25日に公開された「Automated Benchmark Auditing for AI Agents and Large Language Models」は、モデルそのものではなく、モデルを測るベンチマークの欠陥を自動監査する研究だ。提案された Auto Benchmark Audit(ABA)は、LLM・AIエージェント向けベンチマークをタスク単位で点検し、曖昧な指示、実行環境の不整合、壊れた採点ロジック、誤った正解などを洗い出す。論文は1...
Auto Benchmark Audit:LLM評価の「ものさし」を監査する時代へ
2026年5月25日に公開された「Automated Benchmark Auditing for AI Agents and Large Language Models」は、モデルそのものではなく、モデルを測るベンチマークの欠陥を自動監査する研究だ。提案された Auto Benchmark Audit(ABA)は、LLM・AIエージェント向けベンチマークをタスク単位で点検し、曖昧な指示、実行環境の不整合、壊れた採点ロジック、誤った正解などを洗い出す。論文は168件のベンチマーク、9領域を対象に監査を行い、評価対象タスクの約4分の1に重大な問題を見つけたと報告している。公開サイト側では、35,205件のタスク監査に対してMajor findingsが25.5%、Minor findingsが15.2%と示されている。(arxiv.org)
2026年5月26日のarXiv cs.CL新着で、深掘り調査型エージェントに関する注目論文「QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks」が公開された。著者らは、2B〜35B規模のオープンなDeep Researchエージェント群QUESTを提示し、長時間の検索、根拠付き事実確認、引用、レポート生成を横断する汎用調査能力を狙っている。arXivの新着欄では...
QUEST論文:Deep Researchエージェントを「合成タスクだけ」で鍛える試み
2026年5月26日のarXiv cs.CL新着で、深掘り調査型エージェントに関する注目論文「QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks」が公開された。著者らは、2B〜35B規模のオープンなDeep Researchエージェント群QUESTを提示し、長時間の検索、根拠付き事実確認、引用、レポート生成を横断する汎用調査能力を狙っている。arXivの新着欄では、この研究は「Work in Progress」と明記されており、現時点では完成された標準手法というより、公開検証を前提とした研究提案として読むのがよい。(arxiv.org)
OpenAIは2026年5月25日、ブラジルのGrupo FolhaおよびGrupo UOLとの戦略的コンテンツ提携を発表した。OpenAIによれば、これは同社にとってブラジル初のメディア提携であり、Folha de S.PauloとUOLの報道をChatGPT上で利用できるようにするものだ。発表では、世界のChatGPTユーザーがFolhaとUOLの報道に基づく要約へアクセスできるようになること、また出典表示・透明性・元記事へのリン...
OpenAIは2026年5月25日、ブラジルのGrupo FolhaおよびGrupo UOLとの戦略的コンテンツ提携を発表した。OpenAIによれば、これは同社にとってブラジル初のメディア提携であり、Folha de S.PauloとUOLの報道をChatGPT上で利用できるようにするものだ。発表では、世界のChatGPTユーザーがFolhaとUOLの報道に基づく要約へアクセスできるようになること、また出典表示・透明性・元記事へのリンクを重視すると説明されている。(openai.com)
エージェント時代の部品は、モデル、ツール、メモリ、ワークフロー、スキルに分解されていく。そのとき本当に難しいのは、部品を集めることではなく、どの部品がどの条件で効くのかを継続的に測ることだ。OpenSkillEvalは派手なモデル発表ではないが、エージェント開発が「作る」段階から「検査して選ぶ」段階へ移りつつあることを示している。出典:arXiv「OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents」。(arxiv.org)
直近24時間内にニュース化された生成AI関連トピックとして、24 AIが2026年5月23日に取り上げた MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems を選びたい。原論文そのものはarXivに2026年5月21日投稿なので「論文初出」は少し前だが、今回のニュース価値は、自己改善型エージェントの議論を「記憶」「プロンプト」「スキル」から、より...
MOSS:自己改善エージェントは「プロンプト」ではなく「実行基盤」を書き換え始める
直近24時間内にニュース化された生成AI関連トピックとして、24 AIが2026年5月23日に取り上げた MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems を選びたい。原論文そのものはarXivに2026年5月21日投稿なので「論文初出」は少し前だが、今回のニュース価値は、自己改善型エージェントの議論を「記憶」「プロンプト」「スキル」から、より危険で実務的な層——エージェントを動かすソースコードそのもの——へ移した点にある。(24-ai.news)
今回取り上げたいのは、NVIDIA系の研究者らによる Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention。Hugging Face Daily Papersでも5月22日の注目論文として掲載されていた、線形注意機構の新しい提案だ。見出しだけ見ると地味だが、長文コンテキスト時代のLLMで何がボトルネックになるかを考えると、かなり本質的な方向を向いている。([huggingfa...
Gated DeltaNet-2:長文LLMの「記憶」を、消す操作と書く操作に分ける
今回取り上げたいのは、NVIDIA系の研究者らによる Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention。Hugging Face Daily Papersでも5月22日の注目論文として掲載されていた、線形注意機構の新しい提案だ。見出しだけ見ると地味だが、長文コンテキスト時代のLLMで何がボトルネックになるかを考えると、かなり本質的な方向を向いている。(huggingface.co)
現在主流のTransformerは、過去トークンの情報をKVキャッシュとして保持する。これは強力だが、文脈が長くなるほどキャッシュも大きくなり、推論時のメモリ・帯域・レイテンシに効いてくる。線形注意はこの問題に対し、無制限に伸びるキャッシュではなく、固定サイズの recurrent state に文脈を圧縮する。理想的には、系列混合は線形時間、デコードは定数メモリに近づく。ただし難点は、「圧縮された記憶をどう更新するか」だ。古い情報を雑に消せば必要な手がかりまで壊れ、新しい情報を雑に書けば既存の関連づけを汚染する。(arxiv.org)
2026年5月22日のarXiv新着で目を引いたのは、MIT、MIT-IBM Computing Research Lab、Sakana AIなどの著者による Vector Policy Optimization: Training for Diversity Improves Test-Time Search だ。テーマは一見すると強化学習の細部だが、実際には「LLMをどう訓練すべきか」という前提を少しずらす論文である。従来のRLHFやGRPO的なポストトレーニン...
VPO:「良い答えに収束する」だけでは、探索時代のLLMには足りない
2026年5月22日のarXiv新着で目を引いたのは、MIT、MIT-IBM Computing Research Lab、Sakana AIなどの著者による Vector Policy Optimization: Training for Diversity Improves Test-Time Search だ。テーマは一見すると強化学習の細部だが、実際には「LLMをどう訓練すべきか」という前提を少しずらす論文である。従来のRLHFやGRPO的なポストトレーニングは、基本的に一つのスカラー報酬を高くする方向へモデルを押す。しかし、いまのLLM利用は単発回答だけでなく、best-of-N、pass@k、自己整合性、進化的探索のように、複数候補を出して後段で選ぶ形へ広がっている。VPOはこの状況に対し、「訓練では一つの最適解に潰すのではなく、後段探索が拾える多様な有能解の集合を作るべきだ」と主張する。(arxiv.org)
面白いのは、単に「新しい小型LLMが出た」という話ではないことだ。通常のLLMはautoregressive、つまり左から右へ1トークンずつ生成する。これは安定しており、既存の推論基盤とも相性がよい。一方で、次のトークンを出すたびにモデルを1回通す必要があり、特に低バッチ・低遅延の場面ではGPUが計算よりメモリ読み出しに縛られやすい。NVIDIAの説明では、Nemotron-Labs-Diffusionはこの制約を、複数トークンを並列に下書きし、反復的に精緻化するdiffusion language modelとして扱う。(huggingface.co)
今後の注目点は三つある。第一に、独立した評価で本当に同等品質・高速が再現されるか。第二に、長文生成やツール呼び出しを含むエージェント実行で、並列ドラフトがどれだけ実効的に効くか。第三に、SGLangやvLLMなどの推論基盤が、こうした非AR的な生成様式をどこまで標準機能として吸収するかだ。ブログではSGLang main branchでの対応予定にも触れており、現時点では実装エコシステム側の成熟も含めて見ていく必要がある。(huggingface.co)
2026年5月21日にarXivへ投稿された論文「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」は、RAGや検索システムの土台になっている埋め込みモデル評価に、かなり実務的な疑問を投げかけている。主張はシンプルだ。Instruction-tuned embedding modelを、タスクごとに固定された単一プロンプトだけで評価すると、そのスコアは...
「埋め込みモデルの順位」は、プロンプト一つで入れ替わるかもしれない
2026年5月21日にarXivへ投稿された論文「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」は、RAGや検索システムの土台になっている埋め込みモデル評価に、かなり実務的な疑問を投げかけている。主張はシンプルだ。Instruction-tuned embedding modelを、タスクごとに固定された単一プロンプトだけで評価すると、そのスコアはモデルの安定した能力ではなく、「たまたま選ばれた言い回し」に大きく依存してしまう。(arxiv.org)
出典:
arXiv「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」(arxiv.org)
GitHub repository「centre-for-humanities-computing/instruction-sensitivity-evaluation」(github.com)
MTEB / Hugging Face organization page(huggingface.co)