QXAI

推論の主戦場は「演算」から「メモリ」へ
GoogleとMarvell協議報道が示す、次のAI半導体競争

2026年4月19日、ReutersはThe Information報道を引用し、GoogleがMarvell Technologyと、AIモデルをより効率よく動かすための2種類の新チップを協議していると伝えた。1つはGoogleのTPUと組み合わせる「メモリ処理ユニット」、もう1つはAIモデル実行向けの新しいTPUだという。報道では、前者の設計は早ければ2027年にも固め、試作段階に進めることが目指されている。ここで重要なのは、Googleがすでに推論向けに最適化したTPUを持ちながら、さらに別種の推論用チップを検討している点だ。単に「より速いAIチップ」を求めているのではなく、推論処理を細かく分業し、仕事ごとに最適な半導体を当てる方向が見えてくる。 (investing.com)

この話が重い意味を持つのは、生成AIの収益性を決める重心が、学習よりも推論へと移っているからだ。Google自身、2025年に発表したIronwoodを「推論の時代のための最初のGoogle TPU」と位置づけ、2026年3月31日にはその最初の製品群TPU7xを一般提供にした。Alphabetの2025年第4四半期決算でも、Google Cloudの成長は企業向けAI需要に支えられ、GCPのAIインフラ売上はTPUとGPUの展開が牽引したと説明されている。一方で同社は、需要に対して供給が逼迫しており、制約は電力、土地、サプライチェーンにまたがるとも述べた。要するに、これからの競争は「最高性能の訓練クラスター」を作ることだけではなく、「限られた電力と設備で、どれだけ安く大量のトークンを返せるか」に移っている。 (blog.google)

その文脈で浮かび上がるのが、メモリの問題だ。GoogleのTPUはもともと、2015年からデータセンターで推論を加速するための専用ASICとして運用されてきたが、現代の大規模言語モデルでは、計算能力そのもの以上に、重み・活性・そして長い文脈を支えるKVキャッシュをどう保持し、どう高速に取り回すかが効率を左右する。GoogleのIronwoodは1チップ当たり192GBのHBMと7.37TB/sの帯域を前面に押し出しており、Google自身がメモリ容量と帯域を推論性能の核心として説明している。Marvell側も、独自のHBMコンピュート技術で標準HBMインターフェース比で最大70%のインターフェース電力削減をうたい、2026年3月にはCXLスイッチで「AIのメモリウォール」を破ると打ち出した。そこでは、モデルの巨大化、コンテキスト長の拡大、KVキャッシュ需要がメモリ容量の爆発的増加を招いていると明言されている。 (research.google)

したがって、今回報じられた「メモリ処理ユニット」は、まだ公式仕様が出ていない以上断定はできないものの、推論のうちメモリ律速になりやすい部分をTPU本体から切り出し、HBMや外部メモリ、あるいはKVキャッシュ処理をより電力効率よく扱うための補助チップだと考えるのが自然だ。これは推測にとどまるが、Marvellがすでに近接メモリアクセラレータ、メモリ拡張コントローラ、メモリプーリング用CXLスイッチ、カスタムHBM、先進パッケージングを揃えていることを考えると、GoogleがMarvellに期待しているのは「TPUの代替」よりも、TPUの周辺でボトルネックになっているメモリ／接続／電力効率の最適化である可能性が高い。The Informationの抜粋も、単一プロセッサですべてを処理するのではなく、タスク別に異なる推論チップを使い分けることが効率化の鍵になりつつあると示している。 (theinformation.com)

しかも、これはGoogleだけの発想ではない。AWSはInferentiaを「生成AI推論向けに高性能・低コスト」を掲げる専用チップとして展開し、Microsoftは2026年1月にMaia 200を「推論のために作られたAIアクセラレータ」として発表、MetaもMTIAを推論ファーストで拡張し、今後2年で4世代のチップを投入するとしている。各社の表現は違っても、共通しているのは、訓練と推論を同じ半導体で無理に賄うより、推論の現場で支配的なコスト要因に合わせて専用化する方が得だという判断だ。今回のGoogle・Marvell協議報道は、その流れの中で読むべきだろう。 (aws.amazon.com)

さらに面白いのは、これが単純な「BroadcomからMarvellへ」という話とも限らない点だ。実際、Broadcomは2026年4月6日付のSEC開示で、Google向け将来世代TPUの開発・供給と、次世代AIラック向けネットワーク部品の供給について、2031年までの長期契約を結んだと公表している。公開情報だけを見る限り、Googleは一社依存をやめて協業先を増やしているというより、TPU本体、I/O、メモリ、インターコネクトを含む設計スタック全体を、用途ごとに多層化・複線化しているとみる方が自然だ。今回のMarvell案件は、その中でも特に「推論で金と電力を食う部分」を切り出して最適化する試みとして理解すると、最も整合的に見える。これは公開情報からの推論だが、少なくとも急な全面リプレースを示す材料は現時点ではない。 (sec.gov)

今後の注目点は三つある。第一に、このメモリ処理ユニットがHBM最適化寄りなのか、CXLによるメモリ拡張・プーリング寄りなのか。第二に、新しい推論TPUがGoogle内部向けだけでなくGoogle Cloudの商品になるのか。第三に、XLAやクラウド運用まで含めたGoogleのソフトウェア・データセンター最適化が、専用ハードの細分化に追いつけるのかだ。TPUの歴史は、Googleが早くから「推論は専用ハードでこそ効率が出る」と見抜いていたことを示している。今回の報道が正しければ、その思想は次の段階へ進みつつある。これからのAI半導体競争は、演算器の派手なスペック競争というより、メモリ、接続、電力、ソフトウェアを含む“推論システム全体”の設計競争になる。GoogleとMarvellの協議は、その輪郭をかなりはっきり映している。 (research.google)

主な出典: Reutersによる協議報道要約、The Information記事見出し・抜粋、Google公式のIronwood/Cloud TPU情報、Alphabet決算説明、Marvell公式のHBM/CXL関連発表、AWS・Microsoft・Metaの公式チップ発表。 (investing.com)

メニュー

Google、Marvellと推論向けAIチップ協議と報道