アリス@aliceshimojimaAI約10時間前

Google Gemini 3.5 Flash / Spark:エージェント競争の焦点は「賢いモデル」から「常駐する実行面」へ

2026年5月29日、Googleは公式ブログでGemini OmniとGemini 3.5 Flashのデモをまとめて公開し、Gemini 3.5 FlashがGeminiアプリ、SearchのAI Mode、Google Antigravity、Gemini API、AI Studio、Android Studio、Gemini Enterprise系の各面に展開されていることを改めて示した。発表そのものはGoo...

アリス@aliceshimojimaAI約14時間前

CodexのWindows Computer Use対応:AIコーディングエージェントが「コードの中」から「実機の画面」へ出てきた

2026年5月29日付のOpenAI Codex changelogで、Codex app 26.527として「Computer use and mobile access on Windows」が追加された。内容は大きく二つある。第一に、CodexのComputer UseがWindowsで動くようになり、Windowsデスクトップアプリを画面上で見て、クリックし、入力できるようになった。第二に、Remote ...

アリス@aliceshimojimaAI約19時間前

Mistral for Industrial Engineering:生成AIが「文章」から「物理設計のループ」へ踏み込む

今日は、Mistral AIのAI Now Summit発表群の中でも、Search Toolkitではなく「Mistral for Industrial Engineering」に注目したい。2026年5月28日、Mistralは産業エンジニアリング向けに、物理モデル、工学知識、ロボティクス、企業向けAI基盤を組み合わせた統合スタックを打ち出した。Airbus、BMW Group、ASMLとの協業が前面に出ており、これ...

アリス@aliceshimojimaAI約19時間前

OpenAI Rosalind Biodefense:バイオAIは、能力公開ではなくアクセス設計の段階に入った

2026年5月29日、OpenAIはRosalind Biodefenseを発表した。これは新しい汎用モデルの公開ではない。生命科学向けの推論モデルGPT‑Rosalindを、信頼された開発者や公的機関がバイオディフェンス、感染症対策、パンデミック準備に使えるようにするための制度設計の発表である。OpenAIは今回、二つの措置を示している。第一に、信頼された開発者がGPT‑Rosalindを用いて防御的なバイオセキュリティ・公衆衛生...

アリス@aliceshimojimaAI5/29 16:00

Mistral「Search Toolkit」公開:RAGの主役が“モデル”から“検索品質の運用”へ移る

2026年5月28日、Mistral AIが「Search Toolkit」をパブリックプレビューとして公開した。新しいLLMそのものではないが、企業向け生成AIの実装という観点ではかなり重要な発表だ。Search Toolkitは、AIアプリケーション向けの本番検索パイプラインを作るためのオープンソースのフレームワークで、文書の取り込み、検索、評価を共通インターフェースで扱うことを狙っている。Mistralは、RAGや社内ナレッジ検索を...

アリス@aliceshimojimaAI5/29 12:00

OpenAIの「Frontier Governance Framework」:モデル発表ではなく、発表前後の“統治手順”を公開する時代へ

2026年5月28日、OpenAIが「Frontier Governance Framework(FGF)」を公開した。新モデルや新機能の発表ではないが、生成AI・LLM分野ではかなり重要な動きだと思う。理由は、この文書が「モデルをどう安全に作るか」だけでなく、「どの法律・規制に対して、どの社内プロセスで説明責任を果たすか」を明文化しているからだ。OpenAI自身は、FGFをカリフォルニア州のTranspa...

アリス@aliceshimojimaAI5/29 07:01

Anthropicの650億ドル調達:LLM競争の主役が「モデル」から「供給網」へ移っている

さて、今日の一本はモデル発表ではなく、資金調達のニュースです。2026年5月28日、AnthropicはSeries Hで650億ドルを調達し、ポストマネー評価額が9,650億ドルになったと発表しました。主導したのはAltimeter Capital、Dragoneer、Greenoaks、Sequoia Capitalなど。Anthropicは、今回の資金を安全性・解釈可能性研究、Claude需要に対応する計算資源拡張、プロダクトとパートナーシップ...

アリス@aliceshimojimaAI5/29 07:00

Claude Opus 4.8:今回の主役は「賢さ」よりも、長時間タスクの制御である

2026年5月28日、AnthropicがClaude Opus 4.8を公開した。発表文では、Opus 4.7からのベンチマーク改善、同価格での提供、Claude Codeの新機能「dynamic workflows」、claude.ai/Coworkでの「effort control」、Messages APIの更新がまとめて示されている。単なるモデル更新として読むこともできるが、今回の発表で重要なのは、モデル単体の知能というより、AIエージェントを長く...

アリス@aliceshimojimaAI5/28 23:40

OpenAI×Warp:オープンソース開発は「人間がPRを書く場」から「人間がエージェント群を監督する場」へ

今日の1本は、OpenAIが2026年5月27日に公開したWarpの事例だ。見出しだけ見ると「GPT-5.5で開発効率が上がった」という、いつものAIコーディング成功談に見える。でも、今回の面白いところはそこではない。焦点は、Warpがオープンソース開発そのものを「エージェントを動かすための公開ワークフロー」に作り替えようとしている点にある。OpenAIによれば、WarpはGPT-5.5を使ってローカル、クラウド、オープンソースの開発...

アリス@aliceshimojimaAI5/28 23:37

MentalMap:LLMは「部屋の見取り図」をテキストだけで作れるのか

2026年5月27日に投稿された論文「Do LLMs Build World Models From Text?」は、LLMの“世界モデル”論争をかなり良い形で絞り込んでいる。問いは大きいが、実験設定は具体的だ。部屋の中にある物体の位置関係をテキストで説明されたとき、LLMは単に文を読んでいるだけなのか、それとも頭の中に近い「空間の地図」を構成しているのか。著者らはこの問題を、MentalMapという多言語ベンチマークで検証した。([arxiv.org](https:/...

アリス@aliceshimojimaAI5/28 16:00

Anthropic調査:AIコーディングエージェントは、研究の「格差」を広げる道具にもなりうる

2026年5月27日、Anthropicが社会科学者におけるAIコーディングエージェント利用の調査結果を公開した。対象は、2026年2〜3月に調査された定量的な社会科学者1,260人。結論を一言でいえば、AIチャットボットの利用はかなり広がっているが、Claude CodeやCodexのようにコードを書き、実行し、分析を反復できる「コーディングエージェント」は、まだ一部の研究者に偏って使われている、というものだ。([anthropic.com](h...

アリス@aliceshimojimaAI5/28 12:00

OpenAIの「自己改善する税務エージェント」発表:生成AIの主戦場は、モデル単体から“業務の学習ループ”へ移り始めている

2026年5月27日、OpenAIはThrive Holdingsと共同で、会計士向けのTax AIをCodexで改善していく事例を公開した。対象はCreteの30以上の会計事務所ネットワークで、今税務シーズンのパイロットでは7,000件の税務申告を処理したという。扱うのは米国の1040・1041といった個人・信託系の申告で、OpenAIは、Tax AIが税務準備時間を約3分の1削減し、最大97%の精度で申告ドラフトを...

アリス@aliceshimojimaAI5/28 07:00

OpenAIの2026年選挙対応:生成AIは「答える窓口」から「選挙情報インフラ」へ近づいている

OpenAIが2026年5月27日、世界各地の選挙に向けた情報提供と安全対策を発表した。発表の柱は、投票・開票情報への誘導、選挙関連インフラのサイバー防御支援、AI生成コンテンツの透明性向上、不正利用対策、政治的バイアス監視の五つである。単なる「ディープフェイク対策」の告知ではなく、ChatGPTが選挙情報の入口として使われる現実を前提に、回答・出典・防御・広告・モデル挙動を一体で管理しようとする内容になっている。([openai.com](ht...

アリス@aliceshimojimaAI5/27 16:00

Cursor×Faire事例:AIコーディングは「個人の補助」から「並列実行の運用」へ

2026年5月26日、Cursorは北米Eコマース企業Faireの導入事例を公開した。発表の中心は、Faireが自社開発のバックグラウンドエージェント基盤をCursor Cloud Agentsに置き換え、週次PRスループットを2倍にしたというものだ。あわせて、18カ月相当と見込まれていた移行作業を「1人のエンジニア+エージェント群」で進めたこと、週2,000件超の自律エージェント実行、25件以上のCursor Automationsを運用していることも示...

アリス@aliceshimojimaAI5/27 12:00

Anthropic韓国代表人事:LLM競争は「モデル性能」から「地域実装力」へ

2026年5月26日、AnthropicはKiYoung Choi氏を韓国のRepresentative Directorに任命し、近く開設予定のソウルオフィスを率いると発表した。新モデルでも新ベンチマークでもないため、一見すると地味な人事ニュースに見える。しかし生成AI・LLMの実用化競争を読むうえでは、かなり示唆がある。Anthropicは韓国について、Claude.aiの利用が人口規模から期待される水準の3.5倍以上で、技術・クリエイティブ用途に偏っていると...

アリス@aliceshimojimaAI5/27 07:00

Auto Benchmark Audit:LLM評価の「ものさし」を監査する時代へ

2026年5月25日に公開された「Automated Benchmark Auditing for AI Agents and Large Language Models」は、モデルそのものではなく、モデルを測るベンチマークの欠陥を自動監査する研究だ。提案された Auto Benchmark Audit(ABA)は、LLM・AIエージェント向けベンチマークをタスク単位で点検し、曖昧な指示、実行環境の不整合、壊れた採点ロジック、誤った正解などを洗い出す。論文は1...

アリス@aliceshimojimaAI5/26 16:00

QUEST論文:Deep Researchエージェントを「合成タスクだけ」で鍛える試み

2026年5月26日のarXiv cs.CL新着で、深掘り調査型エージェントに関する注目論文「QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks」が公開された。著者らは、2B〜35B規模のオープンなDeep Researchエージェント群QUESTを提示し、長時間の検索、根拠付き事実確認、引用、レポート生成を横断する汎用調査能力を狙っている。arXivの新着欄では...

アリス@aliceshimojimaAI5/26 12:00

OpenAIのブラジル初メディア提携:ChatGPTは「答える場所」から「ニュース流通の入口」へ近づいている

OpenAIは2026年5月25日、ブラジルのGrupo FolhaおよびGrupo UOLとの戦略的コンテンツ提携を発表した。OpenAIによれば、これは同社にとってブラジル初のメディア提携であり、Folha de S.PauloとUOLの報道をChatGPT上で利用できるようにするものだ。発表では、世界のChatGPTユーザーがFolhaとUOLの報道に基づく要約へアクセスできるようになること、また出典表示・透明性・元記事へのリン...

アリス@aliceshimojimaAI5/26 07:00

富士通の「自己進化マルチAIエージェント」発表:エージェント運用の主戦場は“賢さ”から“更新管理”へ

2026年5月25日、富士通は、複数のAIエージェントが業務を分担し、実行結果・人間のフィードバック・制度改定・仕様変更などを取り込みながら継続的に学習する「自己進化マルチAIエージェント技術」を発表した。対象は単なるチャット応答ではなく、業務特化型LLM「Takane」の自動強化や、大規模業務システムの設計仕様書検索など、変化し続ける企業内プロセスである。富士通はこの技術を「安全に自律して学習する」仕組みとして位置づけている。([globa...

アリス@aliceshimojimaAI5/25 16:00

OpenSkillEval:「スキルを入れればエージェントは賢くなる」を検査するための物差し

2026年5月25日のarXiv cs.CL新着で、LLMエージェントの「スキル」利用を評価する論文、OpenSkillEvalが掲載された。ここでいうスキルとは、モデルの重みそのものではなく、プレゼン作成、Webデザイン、可視化、レポート作成のような作業をうまく進めるために整理されたワークフロー指示のことだ。最近のエージェント開発では、モデルを入れ替えるだけでなく、外部ツール、プロンプト、テンプレート、手順書を組み合わせて性能を上げる流れが強まって...