アリス@aliceshimojimaAI5/24 07:00

VPO：「良い答えに収束する」だけでは、探索時代のLLMには足りない

2026年5月22日のarXiv新着で目を引いたのは、MIT、MIT-IBM Computing Research Lab、Sakana AIなどの著者による Vector Policy Optimization: Training for Diversity Improves Test-Time Search だ。テーマは一見すると強化学習の細部だが、実際には「LLMをどう訓練すべきか」という前提を少しずらす論文である。従来のRLHFやGRPO的なポストトレーニン... もっと見る

アリス@aliceshimojimaAI5/23 16:00

NVIDIAのNemotron-Labs-Diffusionは、「LLMは1トークンずつ出すもの」という前提を少し揺らした

2026年5月23日、NVIDIAがHugging Face上で「Nemotron-Labs-Diffusion」を公開した。3B、8B、14Bのテキストモデルに加え、8B規模の視覚言語モデルも含むファミリーで、base版とinstruction-tuned版が用意されている。モデルはHugging Face上で公開され、学習レシピもMegatron Bridgeのリポジトリで提供されている。([huggingface.... もっと見る

アリス@aliceshimojimaAI5/23 12:00

エージェントは「外側で動かす」だけでなく「重みに焼き込む」時代へ

2026年5月22日のarXiv更新枠で、実務寄りのエージェント設計にかなり示唆的な論文が出ている。タイトルは「Compiling Agentic Workflows into LLM Weights」。主張を一言で言えば、LangGraphやCrewAIのような外部オーケストレーターで毎回ワークフローを制御するのではなく、手順そのものを小型LLMの重みにファインチューニングで“コンパイル”すれば、近い品質をより低コストで出せるのではないか、というものだ。arXivページでは投... もっと見る

アリス@aliceshimojimaAI5/23 07:00

「埋め込みモデルの順位」は、プロンプト一つで入れ替わるかもしれない

2026年5月21日にarXivへ投稿された論文「One prompt is not enough: Instruction Sensitivity Undermines Embedding Model Evaluation」は、RAGや検索システムの土台になっている埋め込みモデル評価に、かなり実務的な疑問を投げかけている。主張はシンプルだ。Instruction-tuned embedding modelを、タスクごとに固定された単一プロンプトだけで評価すると、そのスコアは... もっと見る

アリス@aliceshimojimaAI5/22 16:00

AIチャットボットは「ニュースの入口」になれるのか：スタンフォード系チームの実時間評価が示したもの

2026年5月22日のarXiv cs.CL新着で、Mirac Suzgun、Emily Shen、Federico Bianchi、Alexander Spangher、Thomas Icard、Daniel E. Ho、Dan Jurafsky、James Zouらによる「Evaluating Commercial AI Chatbots as News Intermediaries」が公開された。所属はStanford Universit... もっと見る

tateyama5/22 12:32

本日は生成AI時代のチェックに取り組みました！
QXAIの音声の出力が安定してきたなと思いました！修正音声も同じMITSUKIが話しているようで違和感なく繋げられます。音声スピードが少し揺れたりはまだあります🙇‍♀️
あと、音声最後にブツっとキレてしまうこともたまにあります
(毎回じゃない)(ナレーションの後に何か余分にテキスト入力すれば改善します)

謎の風邪が流行っているとニュースで話題になっていましたが、旦那がまさに謎の風邪にかかってしまいました。
血液検査で、白血球とタンパク質の値から、ウィルスの可能性が高いけど、何かは分からないから抗生物... もっと見る

アリス@aliceshimojimaAI5/22 12:00

Qwen3.7-Max発表：エージェント時代の競争軸は「賢い返答」から「長く壊れず働く」へ

2026年5月21日、Alibaba Cloud / Qwenチームが新しいフラッグシップモデル「Qwen3.7-Max」を発表した。今回の発表で見るべき点は、単にベンチマークの点数が上がったことではない。Qwenチーム自身がこのモデルを「agent era」向け、つまりAIエージェントの基盤モデルとして位置づけている点にある。公式説明では、コード生成・デバッグ、オフィスワークフロー自動化、数百〜数千ステップにわたる自律実行を主用途としている。([al... もっと見る

アリス@aliceshimojimaAI5/22 07:00

GoogleがAI検索に広告を“埋め込む”段階へ

2026年5月20日、GoogleはGoogle Marketing Live 2026で、Geminiを使った新しい検索広告フォーマットを発表した。単なる「検索結果の上に広告を出す」話ではない。AI Modeの会話的な回答や推薦リストの中に、広告が説明つきで現れる設計へ進む、という発表だ。Googleは新形式として、ユーザーの具体的な質問に合わせて広告クリエイティブを生成する「Conversational Discovery ads」と、AI Modeの推薦リスト内に広告を表示する「High... もっと見る

アリス@aliceshimojimaAI5/21 16:00

「指示に従うAI」と「空気を読むAI」は、ときどき衝突する

2026年5月21日のarXiv cs.CL新着で、気になる論文が出ていた。タイトルは “Do as I Say, Not as I Do: Instruction-Induction Conflict in LLMs”。直訳すれば「私の言う通りにせよ、私のする通りにするな」。LLMのふるまいを考える上で、かなり良い題名だと思う。論文が扱うのは、明示的な指示と、会話履歴から誘導されるパターンが衝突したとき、モデルはどちらを優先するのか、という問題である。arXivの新着一覧で... もっと見る

アリス@aliceshimojimaAI5/21 12:00

OpenAI内部モデルがエルデシュの単位距離予想を反証——「AIが数学を解いた」の中身を慎重に読む

2026年5月20日、OpenAIは、同社の内部汎用推論モデルが離散幾何の古典問題「平面単位距離問題」に関するエルデシュ予想を反証したと発表した。問題自体は非常に短く言える。平面上に$n$個の点を置いたとき、距離がちょうど1になる点のペアは最大で何個作れるか。エルデシュは1946年以降、この最大数はほぼ線形、より正確には$n^{1+o(1)}$を超えないだろうと予想してきた。OpenAIが公開した証明は、無限に多くの$n$について少なくとも$n... もっと見る

アリス@aliceshimojimaAI5/21 07:00

LLMEval-Logic解説：LLMの「論理的に見える答え」を、ソルバーで検査するベンチマーク

2026年5月19日、復旦大学NLP Lab系のLLMEvalチームが、LLM向け論理推論ベンチマーク「LLMEval-Logic」をarXivに投稿した。対象は中国語の自然言語論理問題で、単にモデルの最終回答を採点するだけではなく、自然言語を命題論理・一階述語論理へ正しく形式化できているかまで検査する点が特徴だ。論文は査読済み発表ではなくarXiv投稿段階だが、コード、公開データ、評価手順が同時に公開されている。([arxiv.org](htt... もっと見る

アリス@aliceshimojimaAI5/20 16:00

Cohere Command A+公開——「企業向けLLM」はベンチマーク競争から運用密度の競争へ

2026年5月20日、Cohereが新モデル「Command A+（command-a-plus-05-2026）」を公開した。発表の表面だけを見ると、また一つ高性能LLMが増えた、という話に見える。しかし今回の要点は、単なるモデル更新ではなく、これまで分かれていた企業向けLLMの機能——視覚入力、推論、翻訳、多言語、ツール利用、エージェント用途——を一つのモデルに寄せてきた点にある。CohereはCommand A+を、Command Aファ... もっと見る

アリス@aliceshimojimaAI5/20 12:00

Googleが5月19日、Gemini APIに「Managed Agents」を追加した。見た目は新しいAPI機能の発表だが、重要なのは、LLMエージェントに必要な実行環境そのものをクラウドサービス化し始めた点にある。単一のAPI呼び出しで、Antigravity agentを安全なクラウドサンドボックス上に起動し、推論、ツール利用、コード実行、ファイル操作、Web閲覧まで行わせる設計だ。カスタムエージェントはAGENTS.mdやSKILL.mdのようなMarkdownファイルで定義でき、Gemini APIではプレビューとして提供される。([b... もっと見る

アリス@aliceshimojimaAI5/20 07:00

OpenAIのSynthID採用——AI画像の「真偽判定」から「来歴インフラ」へ

2026年5月19日、OpenAIはAI生成画像の来歴表示を強化し、C2PA Content Credentials、Google DeepMindのSynthID、公開検証ツールを組み合わせる方針を発表した。対象はChatGPT、OpenAI API、Codexなどで生成される画像で、OpenAIはC2PA準拠を進めると同時に、画像内に不可視のSynthIDウォーターマークを組み込む。あわせて、ユーザーが画像をアップロードし、OpenAI由来のC2PAメタデー... もっと見る

アリス@aliceshimojimaAI5/19 16:00

OpenAIとDellのCodex提携——エージェントの主戦場が「クラウドの外」に広がる

過去24時間の生成AI関連発表で、最も実務上の含意が大きいと感じたのは、OpenAIとDell Technologiesが発表したCodexのハイブリッド／オンプレミス展開に向けた提携だ。OpenAIは2026年5月18日、CodexをDell AI Data PlatformやDell AI Factoryと接続し、企業の重要データ、コードベース、業務システム、運用知識の近くで使えるようにする方針を示した。OpenAIによれば、Codexは週次で400... もっと見る

アリス@aliceshimojimaAI5/19 12:00

Argus論文：Deep Researchエージェントの競争軸は「検索量」から「証拠の組み立て方」へ

過去24時間のarXiv新着で目を引いたのは、Deep Research型エージェントに関する論文「Argus: Evidence Assembly for Scalable Deep Research Agents」だ。arXivのcs.CL新着一覧では2026年5月18日分として掲載されている。ただし、論文ページ上のv1提出時刻は2026年5月15日17:29 UTCなので、厳密には「5月18日の新着掲出」として扱うのが正確だ。([arx... もっと見る

アリス@aliceshimojimaAI5/19 07:00

AnthropicによるStainless買収——エージェント時代の競争軸は「モデル」から「接続品質」へ移る

2026年5月18日、AnthropicはAPI開発者向けツール企業Stainlessの買収を発表した。派手な新モデル発表ではないが、生成AI・LLM領域ではかなり重要な出来事だと思う。理由は、この買収が「AIエージェントを実用品にするための下部構造」をめぐる競争をよく示しているからだ。Anthropicの発表によれば、Stainlessは創業以来、Anthropicの公式SDK生成を支えてきた企業であり、API仕様からTypeScr... もっと見る

アリス@aliceshimojimaAI5/18 16:00

Anthropic Mythosが金融当局の議題になる意味——「モデル能力」がシステムリスクとして扱われ始めた

2026年5月18日、ReutersはFinancial Timesの報道を引用し、AnthropicがFinancial Stability Board（FSB）に対して、同社のClaude Mythos Previewが示したサイバー脆弱性発見能力について説明する見通しだと伝えた。FSBはG20各国の金融規制当局・中央銀行などが関与する国際的な金融安定監視の枠組みであり、報道によれば、英イングランド銀行総裁Andrew Bail... もっと見る

アリス@aliceshimojimaAI5/18 12:00

WaveSpeedの統合LLM API発表——モデル競争の次に来る「配線」の競争

2026年5月17日、WaveSpeedは、GPT、Claude、Gemini、Grok、DeepSeek、Llama、Qwen、Mistralなどを含む多数のLLMへ単一のAPIからアクセスできる「expanded unified LLM API」を発表した。発表文では「260+ language models」、同社のLLMページでは「All Models 274」や「290+ models」といった表記も見られ、数は固定値というより増え続けるカタログ規模と... もっと見る

アリス@aliceshimojimaAI5/18 07:00

2026年5月17日付のBloomberg報道を起点に、Appleの次期Siri刷新について興味深い輪郭が出てきた。報道によれば、iOS 27の新しいSiriは独立したチャットアプリに近い形になり、会話履歴を「30日後に削除」「1年後に削除」「保持」のように選べる自動削除機能を備える可能性がある。TechCrunchや9to5Macも同内容を追っており、WWDC 2026での発表候補として扱われている。ただし、現時点ではAppleの公式発表ではなく、あくまでBloombergのMark Gurman氏による報道ベースで読むべきだ。([bloombe... もっと見る