今日は、コード生成AIの「記憶」に関する、かなり重要な論文を取り上げます。2026年6月11日にarXivへ投稿された「Detecting Functional Memorization in Code Language Models」です。テーマは一言でいうと、コードモデルは訓練データを“そのまま暗記している”だけでなく、“同じ働きをするロジック”として覚えているのではないか、という問題です。(arxiv.org)
これまでLLMの記憶問題では、モデルが訓練データの文章やコ...
今日は、コード生成AIの「記憶」に関する、かなり重要な論文を取り上げます。2026年6月11日にarXivへ投稿された「Detecting Functional Memorization in Code Language Models」です。テーマは一言でいうと、コードモデルは訓練データを“そのまま暗記している”だけでなく、“同じ働きをするロジック”として覚えているのではないか、という問題です。(arxiv.org)
出典:arXiv「Detecting Functional Memorization in Code Language Models」、Ai2「Olmo 3」、Carlini et al.「Extracting Training Data from Large Language Models」、Biderman et al.「Emergent and Predictable Memorization in Large Language Models」。(arxiv.org)
2026年6月12日のarXiv cs.CL新着に、Zilin Xiaoらによる論文「Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning」が掲載された。提案手法はRA-RFT、つまりRetrieval-Augmented Reinforcement Fine-Tuning。ざっくり言えば、RAGを「答えの根拠を探す仕組み」から、「解き方の似た過去問を探し、...
RAGが「似た文書」ではなく「似た解き方」を探し始めた
何が発表されたか
2026年6月12日のarXiv cs.CL新着に、Zilin Xiaoらによる論文「Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning」が掲載された。提案手法はRA-RFT、つまりRetrieval-Augmented Reinforcement Fine-Tuning。ざっくり言えば、RAGを「答えの根拠を探す仕組み」から、「解き方の似た過去問を探し、強化学習に使う仕組み」へずらす研究だ。(arxiv.org)
2026年6月12日のarXiv cs.CL新着に、SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents が掲載された。著者はZiyi Wangらで、対象は「ツールを使うLLMエージェント」を強化学習でどう効率よく育てるか、という問題だ。arXivの新着一覧では同論文が `arXiv:2606.12908...
失敗ログが次の教材になる:SENTINELが示すエージェントRLの新しい循環
何が発表されたか
2026年6月12日のarXiv cs.CL新着に、SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents が掲載された。著者はZiyi Wangらで、対象は「ツールを使うLLMエージェント」を強化学習でどう効率よく育てるか、という問題だ。arXivの新着一覧では同論文が arXiv:2606.12908 として確認できる。(arxiv.org)
2026年6月10日、清華大学系の研究者らが arXiv に「Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models」を投稿した。提案手法は SKIM、つまり SKIll coMpression。一言でいえば、AIエージェントが使う自然言語の「スキル文書」を、そのまま毎回コンテキストに入れるのではなく、タスク遂行能力をできるだけ保ったまま短く圧縮する方法だ。論...
SKIMを読む:AIエージェントの「スキル」は、次に圧縮される
2026年6月10日、清華大学系の研究者らが arXiv に「Adaptive Multi-Resolution Procedural Knowledge Compression for Large Language Models」を投稿した。提案手法は SKIM、つまり SKIll coMpression。一言でいえば、AIエージェントが使う自然言語の「スキル文書」を、そのまま毎回コンテキストに入れるのではなく、タスク遂行能力をできるだけ保ったまま短く圧縮する方法だ。論文によれば、SKIMはスキルを元の30〜60%のトークン長に圧縮しつつ、既存の圧縮手法よりタスク性能を保ちやすいと報告している。(arxiv.org)
Google Cloudが2025年に発表したAgent Payments Protocolも、まさにこの問題を「認可」「真正性」「説明責任」として整理している。人間が直接「購入」をクリックする前提が崩れると、ユーザーが特定の購入を許可したこと、エージェントの要求がユーザーの真の意図を反映していること、不正・誤取引時の責任を追跡できることが必要になる。(cloud.google.com)
決済会社が競争しているのは「財布」ではなく「信頼の層」
同じ6月10日には、MastercardもAgent Pay for Machinesを発表している。こちらは、AIエージェントや機械同士が継続的・高頻度・低額の取引を行うための仕組みに焦点を当て、エージェントの資格付与、権限設定、取引、複数レールでの決済を説明している。(mastercard.com)
VisaとOpenAIの提携、MastercardのAgent Pay for Machines、GoogleのAP2、OpenAIとStripeのACPは、少しずつ対象が違う。消費者がChatGPTから買い物をする体験、企業エージェント同士のマイクロペイメント、加盟店とウォレットをまたぐ認可プロトコル、ChatGPT内チェックアウト。だが共通しているのは、AIエージェントが経済活動に参加するなら、モデルの外側に「信頼の層」が必要だという認識である。
今日の一本は、6月9日にarXivへ投稿された「Attention Amnesia in Hybrid LLMs」です。テーマは一言でいうと、推論力を上げるためのChain-of-Thought微調整が、長文を覚えて探す力を壊しているかもしれない、という話です。Hugging Face Daily Papersの6月10日欄にも掲載されています。(arxiv.org)
今日の一本は、6月9日にarXivへ投稿された「Attention Amnesia in Hybrid LLMs」です。テーマは一言でいうと、推論力を上げるためのChain-of-Thought微調整が、長文を覚えて探す力を壊しているかもしれない、という話です。Hugging Face Daily Papersの6月10日欄にも掲載されています。(arxiv.org)
arXiv: Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields: https://arxiv.org/abs/2606.11042。(arxiv.org)
Hugging Face Daily Papers 2026-06-10: https://huggingface.co/papers/date/2026-06-10。(huggingface.co)
この発表で新しいのは、能力そのものよりも「能力の配線」である。Fable 5は、通常の知識作業、コーディング、視覚理解、長時間タスクではAnthropic史上もっとも強い一般提供モデルとして出される。一方で、サイバー、バイオ、化学、モデル蒸留などの高リスク領域に関わるリクエストは、分類器で検知されるとClaude Opus 4.8へ自動的にフォールバックする。Anthropicは、このフォールバックが平均で5%未満のセッションで発生し、95%以上のセッションではFable 5がそのまま使われると説明している。(anthropic.com)
もう一つ見逃せないのがデータ保持だ。AnthropicはMythos-classモデルについて、プロンプトと出力を30日間保持し、信頼・安全目的で分析するとしている。これは特にZero Data Retentionを前提にしてきた企業利用者には大きい変更だ。Anthropicは、保持データを新モデル訓練には使わず、アクセスは深刻な害の可能性がある場合などに限定し、アクセス記録も残すと説明している。それでも、最先端モデルを使うには一時的な監視可能性を受け入れる必要がある、という取引条件が明確になった。(support.claude.com)
Gemini 3.5 Live Translateを読む:翻訳AIは「文章」から「会話の時間」へ移る
過去24時間の生成AI関連発表で注目したいのは、Googleが2026年6月9日に公開した Gemini 3.5 Live Translate です。これは、70以上の言語を自動検出し、音声をほぼリアルタイムで別言語の音声へ変換するモデルとして発表されました。Googleは、従来の「話し終わるのを待ってから訳す」方式ではなく、話者が話している最中に継続的に翻訳音声を生成し、数秒遅れで追従する設計だと説明しています。([blog.goo...
Gemini 3.5 Live Translateを読む:翻訳AIは「文章」から「会話の時間」へ移る
過去24時間の生成AI関連発表で注目したいのは、Googleが2026年6月9日に公開した Gemini 3.5 Live Translate です。これは、70以上の言語を自動検出し、音声をほぼリアルタイムで別言語の音声へ変換するモデルとして発表されました。Googleは、従来の「話し終わるのを待ってから訳す」方式ではなく、話者が話している最中に継続的に翻訳音声を生成し、数秒遅れで追従する設計だと説明しています。(blog.google)
面白いのは、これが単なる「翻訳精度の改善」ではなく、AIが扱う対象をテキストの意味から会話の時間構造へ広げている点です。リアルタイム翻訳では、文の最後まで待てば正確になる一方、待ちすぎると会話として成立しません。逆に早く訳しすぎると、語順や文脈の取り違えが起きる。Gemini 3.5 Live Translateの発表が強調しているのは、この「文脈を待つこと」と「同期すること」のトレードオフをモデル側で調整するという方向です。翻訳AIの主戦場が、辞書的な対応から、遅延・自然さ・話者性を含む体験設計に移っている。
展開先も広いです。開発者向けにはGemini Live APIとGoogle AI Studioでパブリックプレビュー、企業向けにはGoogle Meetで今月からプライベートプレビュー、一般ユーザー向けにはGoogle TranslateのAndroid/iOSアプリで提供が始まります。Google Meetでは、従来の5言語中心の制約から、70以上の言語、2,000以上の言語組み合わせへ広げるとされています。(blog.google)
6月8日、Anthropicが公開した「Paving the way for agents in biology」は、派手な新モデル発表ではありません。けれど、AIエージェントが科学研究に入っていくうえで、かなり重要な論点を突いています。テーマは一言でいうと、生物学のデータ基盤は、まだAIエージェントが安全に走れる道路になっていない、という話です。([anthropic.com](https://www.anthropic.com/...
6月8日、Anthropicが公開した「Paving the way for agents in biology」は、派手な新モデル発表ではありません。けれど、AIエージェントが科学研究に入っていくうえで、かなり重要な論点を突いています。テーマは一言でいうと、生物学のデータ基盤は、まだAIエージェントが安全に走れる道路になっていない、という話です。(anthropic.com)
開発者向けの変化も大きい。Foundation Models frameworkは、Apple Foundation Modelsだけでなく、ClaudeやGeminiのようなクラウドモデル、Language Model protocolに準拠する任意のプロバイダも扱えるようになる。画像を含むマルチモーダルプロンプト、OCRやバーコードリーダーのようなVisionツール呼び出し、会話中にモデル・ツール・指示を切り替えるDynamic Profilesも説明されている。一定条件を満たす小規模アプリ開発者は、PCC上の次世代Apple Foundation ModelsをクラウドAPI費用なしで使えるともされている。(developer.apple.com)
今後の焦点は三つある。第一に、PCC on Google CloudがAppleの説明通り検証可能な透明性を保てるか。第二に、開発者がApp IntentsとFoundation Models frameworkを使い、実際にアプリ体験を作り替えるか。第三に、Siri AIが「賢いデモ」ではなく、日常の失敗しにくい操作インターフェースになれるか。
そのため、この更新はOpenAIの「Apps in ChatGPT」全体の設計と合わせて読む必要がある。OpenAIのヘルプでは、ChatGPT内のAppsは外部ツールやデータに接続し、検索・参照だけでなく、一部ではユーザーの代わりにアクションを実行できると説明されている。また、メール、メッセージ、コメント、投稿、予定などの送信・編集は、許可管理の対象となるアクションとして扱われている。つまり、今回のメール送信は突然の単発機能ではなく、ChatGPTを外部業務アプリの操作面にしていく大きな流れの一部と見るべきだ。(help.openai.com)