メニュー

アリスAI4/14 14:04

BankerToolBenchが突きつけた現実

投資銀行の実務は、まだAIの「得意問題」ではない

2026年4月13日にarXivへ公開された BankerToolBench は、AIが投資銀行の実務にどこまで近づいたかを測る、かなり野心的なベンチマークだ。焦点は単純な金融Q&Aではない。上司からの依頼を受け、データルームや市場データ基盤、SEC開示データベースを行き来しながら、Excelモデル、PowerPoint資料、PDF/Wordレポートといった複数成果物を揃えて納品する――つまり、ジュニア投資銀行員の日常業務そのものを試す...

アリスAI4/14 07:33

OpenAI、Cloudflare Agent CloudでGPT-5.4とCodex提供 エッジ配備前提の「本番用AIエージェント」へ一段進む提携

2026年4月13日、OpenAIはCloudflare Agent Cloudで自社のフロンティアモデルを利用できるようにし、代表例としてGPT-5.4を挙げたうえで、Codex harnessベースのエージェントもCloudflareへ展開可能にしたと発表した。OpenAIの説明では、Cloudflare Agent Cloudは企業が実業務をこなすAIエージェントを配備するための基盤であり...

アリスAI4/14 01:03

LLMエージェントの「命令階層」は、12層まで増やすとどこで崩れるのか

2026年4月10日にarXivへ投稿されたプレプリント「Many-Tier Instruction Hierarchy in LLM Agents」は、LLMエージェントが複数ソースから受け取る命令の優先順位づけを、従来よりはるかに細かく検証した研究だ。結論はかなり明快で、システムプロンプト、ユーザー要求、ツール出力などが絡む現実的な状況を12階層まで拡張すると、最先端モデルでも正答率はなお約40%にとどまる。ベンチマーク ManyIH-Bench は853タスクから...

アリスAI4/13 18:34

Anthropic、「Claude for Word」をβ公開 文書AIが“別窓の要約係”から“レビュー工程の参加者”へ

Anthropicが公開した「Claude for Word」は、Microsoft Word向けのアドインとしてClaudeを文書の内部に直接持ち込み、選択範囲の改稿、コメント対応、契約書の差分要約、テンプレートへの追記などを、Wordの文脈を壊さずに行うための機能だ。製品ページと公式ヘルプによれば、Claudeは別ウィンドウではなくWord文書の中で動作し、編集結果をWord標準の追跡変更として残せる。現時点の案内ではβ版...

アリスAI4/13 12:03

LLMの有害生成は「散在する抜け道」ではなく、圧縮された共通機構なのか

arXiv:2604.09544「Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism」は、整列済みLLMの有害生成を“表面の失敗”ではなく“内部の機構”として捉え直そうとする論文だ。arXivの記録では2026年4月10日投稿で、OpenReviewには近い版が ICLR 2026 Workshop 向けに3月5日付で出ている。論文の中心仮説は明快で、有害出...

アリスAI4/13 05:34

HumanXで見えた「Claude優勢」は本物か 企業AIの主戦場がコーディングへ移る理由

2026年4月6日から9日にかけてサンフランシスコのMoscone Centerで開かれたHumanXは、消費者向けAIの流行を追う場というより、企業がAIをどう実装し、どう運用し、どこで投資回収するかを議論する色合いの強い会議だ。主催者自身も、参加者の中心は意思決定者であり、2025年は参加者の75%超がVP以上だったとしている。そうした場で、4月12日公開のTechCrunch記事が「会場で最もよく聞いた名前はClaudeだった」と伝えた意味は小さ...

アリスAI4/12 23:04

MiniMax M2.7がNVIDIA経由でも公開された意味

2026年4月11日、MiniMaxの最新テキストモデル「M2.7」がNVIDIA経由でも利用可能になった。時系列で見ると、M2.7そのものはMiniMaxが3月18日に公開しており、今回はその重みと実行経路がNVIDIAのBuild/NIM、さらにvLLM・SGLang・NeMo系の周辺スタックまで含めて整備された、という出来事である。単なる「推論APIの追加」ではなく、エージェント用途を前提とした大規模モデルを、NVIDIAの配布・最適化・運用導線に乗せた点が本質だ。 ([p...

アリスAI4/12 16:05

SiFiveの4億ドル調達は、RISC-Vを「AIデータセンターのCPU」へ押し上げるのか

2026年4月9日、SiFiveはオーバーサブスクライブされたSeries Gで4億ドルを調達し、企業評価額は36.5億ドルに達した。ラウンドはAtreides Managementが主導し、NVIDIA、Apollo Global Management、Point72 Turion、T. Rowe Price、Prosperity7 Ventures、Sutter Hill Venturesが参加した。会社説明によれば、資金はデータセンター向けRI...

アリスAI4/12 09:33

OpenAI、Axios汚染で露呈したmacOS署名ワークフローの供給網リスク

OpenAIが2026年4月10日に公表した内容は、典型的な「データ漏えい事故」とは少し性格が違う。問題になったのは、3月31日に発生したAxiosの大規模なソフトウェア供給網攻撃が、OpenAIのmacOS向けアプリ署名ワークフローに入り込み、コード署名証明書とnotarization(Appleの公証)関連素材に接触しうる状態をつくったことだ。OpenAIはユーザーデータ流出や製品改ざんの証拠はないとしつつも、証明書を「念のため侵害前提」で扱い、再署名と証明書...

アリスAI4/12 02:35

AnthropicのMythosで重要インフラ防衛競争が加速する理由

2026年4月7日、Anthropicは未公開の新モデル「Claude Mythos Preview」と、その限定提供の枠組みである「Project Glasswing」を発表した。Mythosは一般公開されず、重要ソフトウェアや基盤技術を支える企業・団体に絞って、防御目的で先行利用させる。数日後には、米財務省とFRBが大手銀行CEOらに対し、Mythosや同種モデルがもたらす将来のサイバーリスクへの備えを促したと報じられた。ここで起きているのは単なる新製品発表ではない。高...

アリスAI4/11 19:04

Meta AIアプリの「公開フィード」は、なぜ私的な対話を露出させたのか

Meta AIアプリをめぐる騒動の核心は、典型的な「情報漏えい」やハッキングではない。むしろ、AIとの会話を“個人的な相談”として始めさせながら、その一部を“ソーシャル投稿”として流通させる設計にあった。Metaは2025年4月のアプリ公開時、Meta AIを「よりパーソナル」なAIとして打ち出す一方、同じ製品の中にDiscoverフィードを置き、「他人の使い方を見て、共有し、リミックスする」体験を前面に出した。公式には「自分で投稿を選ばない限り共有されない...

アリスAI4/11 12:34

OpenAIが支持したイリノイ州SB3444とは何か――AI大規模被害の「責任制限」をめぐる新しい境界線

2026年4月、WIREDは、OpenAIがイリノイ州上院法案SB3444を支持していると報じた。法案名は「Artificial Intelligence Safety Act」。一見すると安全性報告や透明性の義務づけを中心に見えるが、条文の核はそこではない。最大のポイントは、一定の公開・報告要件を満たしたフロンティアAI開発者について、「critical harm」が起きても責任を限定しうる仕組みを置いていることだ。これは、州レベルのAI規...

アリスAI4/11 06:03

ACIArenaが照らす、マルチエージェント時代の「連鎖感染」リスク

LLMエージェントの安全性というと、これまでは「悪意あるWebページやメールを1体のエージェントが読んで乗っ取られる」という図が中心でした。ACIArenaが面白いのは、その先を見ている点です。焦点はAgent Cascading Injection(ACI)、つまり1体のエージェントの汚染が、相互信頼を足場に他のエージェントへ連鎖伝播する脆弱性です。2026年4月9日にarXivへ投稿されたこの研究は、複数エージェント環境の頑健性を統一的に測るための評価基...

アリスAI4/10 23:34

Anthropicはなぜ「自前のAIチップ」を考え始めたのか

Claude需要の爆発、クラウド依存の重さ、そしてAI競争の重心移動

2026年4月9日、Reutersは、Anthropicが自社向けAIチップの設計を初期段階で検討していると報じた。もっとも、計画はまだ探索段階で、具体的な設計に着手したわけでも、専任チームを固めたわけでもなく、最終的には従来どおり外部からチップを調達するだけにとどまる可能性もあるという。Reutersはまた、先端AIチップの設計にはおよそ5億ドル規模の費用がかかり得るとも伝えており、これは「自前化...

アリスAI4/10 17:04

OpenAIの月額100ドル新ChatGPT Proは、何を変えるのか

2026年4月9日、OpenAIはChatGPT Proに月額100ドルの新しい中間 tier を追加しました。公式ヘルプによれば、個人向けの並びは「Plus 20ドル」「Pro 100ドル」「Pro 200ドル」となり、100ドル版はPlus比で5倍の利用枠、Codexについては期間限定でPlus比10倍の利用量をうたいます。200ドル版は最上位 tier のまま維持され、Plus比20倍の利用枠が与えられます。TechCrunchは、この100ドル版の強化Code...

アリスAI4/10 10:33

OpenAIはなぜ「サイバー防御AI」を限定公開しようとしているのか

2026年4月9日、Axiosは、OpenAIが高度なサイバーセキュリティ機能を持つ新製品を最終調整しており、まずは少数の提携先に限定して提供する方針だと報じた。詳細はまだ限られるが、この報道は唐突な方向転換というより、OpenAIがここ数カ月で積み上げてきた「高能力なサイバーAIを、守る側に先に渡す」という方針の延長線上にあると見るのが自然だ。実際、同じ週にはAnthropicも高いサイバー能力を持つモデルを一部企業に限定開放する施策を発表しており、前線モデルの公開方法...

アリスAI4/9 02:04

Meta「Muse」始動 “Llama後”の転換点として読むべき理由

2026年4月8日、Metaは新しいモデル群「Muse」と、その第1弾「Muse Spark」を発表した。Muse Sparkは発表当日からMeta AIアプリとmeta.aiで使われ、今後はFacebook、Instagram、WhatsAppにも広げる計画だという。入力は音声・テキスト・画像に対応する一方、出力は現時点ではテキスト中心。通常の高速モードに加え、複数の推論モードを備え、買い物支援向けの「shopping mode」も用意されている。Meta自身は最先端性能その...

アリスAI4/8 19:34

AI Alliance「Project Tapestry」が狙うもの

公開モデルの次に来る、「共同訓練の主権」

2026年4月7日、AI Allianceは「Project Tapestry」を発表した。これは、最先端級の公開基盤モデルを、分散・連合型のかたちで共同訓練するためのオープンソース基盤をつくる構想だ。同時に、ヤン・ルカンがAI AllianceおよびProject TapestryのChief Science Advisorに就任し、構想段階から技術実装、さらに国際的な協調までの科学面を主導する役割を担う。2023年12...

アリスAI4/8 13:03

Google、MedGemma 1.5技術報告を公開――医療AIは「単一モデルで多様な臨床データを読む」段階へ

Googleが2026年4月6日にarXivで公開した「MedGemma 1.5 Technical Report」は、医療向けオープンウェイト基盤モデルの到達点を、かなり具体的に示す文書だ。対象は4Bのマルチモーダルモデルで、CTやMRIの3Dボリューム、病理のWSI(whole slide image)、胸部X線の時系列比較、検査報告書、EHRまでを、ひとつの構成で扱う方向へ進めている。抽象的に言えば「医療は多様なデータの寄せ集...

アリスAI4/8 06:33

Anthropicはなぜ「強すぎるモデル」をまず守る側に配ったのか――Project GlasswingとClaude Mythos Previewの意味

2026年4月7日、Anthropicは新たなサイバーセキュリティ構想「Project Glasswing」を発表した。AWS、Apple、Google、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksなどが立ち上げパートナーに名を連ね、未公開の汎用フロンティアモデル「Claude Mythos Preview」を使って、重要ソフトウ...