1.15GBの8Bは何を変えるのか――PrismML「1-bit Bonsai 8B」が示すエッジAIの新局面
2026年3月31日、PrismMLはステルス状態を解いて1-bit LLM群「Bonsai」を公開した。主役の「1-bit Bonsai 8B」は、同社の説明では“商用実用可能な初の1-bit LLM”で、重みの展開サイズは1.15GB。あわせて4Bと1.7Bの小型版も公開され、モデル重みはApache 2.0で配布されている。注目すべきなのは、単に「小さくなった」ことではない。8B級のモデルを、スマートフォンやノートPC、ロボティクス、セキュアなローカル環境に持ち込めるかもしれない、という配備条件そのものの変化だ。 (prismml.com)
Bonsai 8Bの技術的な核は、PrismMLが「true 1-bit」と呼ぶ設計にある。公式発表とモデルカードによれば、埋め込み、Attention、MLP、LM headまでネットワーク全体が1-bitで構成され、高精度重みに逃がす“抜け道”はないという。モデルの骨格はQwen3-8B dense系で、総パラメータ数は8.19B、コンテキスト長は65,536トークン。つまりこれは、既存の8Bモデルを雑に極低ビット化した、というより、8B級の言語モデルを1-bit前提で成立させた実装として提示されている。 (prismml.com)
その1-bit表現も、いわゆる「1個の重み=完全に1ビットで終わり」という単純な話ではない。GGUF版のQ1_0_g128形式では、各重みは1ビットで符号だけを持ち、128重みごとにFP16のスケール係数を共有する。モデルカードでは実効ビット幅を1.125 bit/weightとしており、その結果として8.19Bパラメータが1.15GBの重みメモリに収まる。ディスク上のGGUFファイルはトークナイザやメタデータ込みで約1.16GBだ。ここで重要なのは、4bit量子化の延長線上というより、「どこまで1-bitをエンドツーエンドで成立させられるか」という設計思想の違いだろう。 (huggingface.co)
では性能はどうか。PrismMLのモデルカードでは、EvalScope v1.4.2とvLLM 0.15.1を用いたH100上の比較として、Bonsai 8Bは6項目平均70.5を記録している。同じ表ではQwen 3 8Bが79.3、Mistral3 8Bが71.0、Llama 3.1 8Bが67.1で、Bonsai 8Bはトップではないが、1/14前後のサイズで8B級の比較表に食い込んでいる。PrismMLはこれを「intelligence density(能力/サイズ)」で再整理し、Bonsai 8Bを1.062/GB、Qwen 3 8Bを0.098/GBと示す。もちろん、この指標自体は同社独自の定義だが、配備可能性まで含めてモデルを評価しようとする発想は、エッジAI時代には確かに筋が通っている。 (huggingface.co)
このモデルが面白いのは、性能表そのもの以上に、メモリ帯域と消費電力のボトルネックに真正面から切り込んでいる点だ。公式資料では、Bonsai 8Bはフル精度8B級と比べて14倍小さく、8倍高速、4〜5倍高効率だとされる。GGUF/llama.cpp系の公開ベンチではRTX 4090で368 tok/s、M4 Proで85 tok/sという値が示され、別の公式デモではiPhone 17 Pro Maxで約44 tok/s動作すると説明されている。クラウド側の推論コスト削減にも意味はあるが、より本質的なのは、低遅延・オフライン・プライバシー保護を要する現場で、ようやく「そこそこ賢いモデルを端末側に置く」現実味が出てきたことだ。 (prismml.com)
ただし、1.15GBという数字は見出しとしては強いが、実運用上の総メモリではない。この値はあくまで重み部分のメモリで、PrismML自身のBonsai-demoリポジトリでも、Bonsai-8Bは8,192トークン文脈で約2.5GB、32,768トークンで約5.9GB、65,536トークンで約10.5GBのメモリ使用量を見積もっている。KVキャッシュやアクティベーションまで含めれば、長文脈では当然ながら必要メモリは増える。つまり「1GBで8Bが動く」は厳密には重み側の話であり、それでも十分にすごいのだが、見出しだけで“フル実行環境が1GB”と読むのは正確ではない。 (huggingface.co)
もうひとつの現実的な論点は、エコシステムの成熟度だ。公開はオープンだが、現時点の導線はまだ一般化しきっていない。GGUF版のクイックスタートはPrismMLフォークのllama.cppを前提とし、MLX版は1-bitカーネル対応のPrismMLフォークMLXを要求する。Bonsai-demoのREADMEでも、主なターゲットはMacのMetal、Apple Silicon向けMLX、そしてLinux/WindowsのCUDA環境として整理されている。つまり今回の公開は「誰でも既存の標準ツールで即座に使える完成品」というより、「1-bit推論スタックを実物で見せる先行公開」と見るのが妥当だ。 (huggingface.co)
歴史的な文脈で見ると、1-bit LLM研究そのものはPrismMLが最初ではない。2024年のBitNet b1.58論文は、重みを{-1,0,1}の三値で扱う1.58-bit LLMを提案し、2025年のBitNet b1.58 2B4T技術報告は、2B規模のオープンなnative 1-bit LLMを公開した。またFBI-LLMは、130M、1.3B、7Bで完全二値化LLMを学習する研究を示している。そう考えると、PrismMLの新しさは「1-bitという概念の発明」ではなく、8B級・公開配布・Apple/GPU/モバイル実行系まで含めた“配備可能なパッケージ”として市場に出してきた点にある。 (arxiv.org)
さらに重要なのは、公式資料自身が「まだネイティブな1-bitハードウェアは存在しない」と認めていることだ。現状の利得は主として、重みの小型化によるメモリ転送削減と、専用カーネルによる一般ハードウェア上の最適化から来ている。裏を返せば、もし将来1-bit推論を前提にした専用ハードウェアが普及すれば、Bonsai型のモデルは単なる省メモリ技法ではなく、アーキテクチャとハードウェアの再設計を促す起点になりうる。PrismMLが前面に出す「エッジAI」競争の本質は、モデルサイズ競争というより、電力・帯域・常時接続への依存をどこまで下げられるか、という問いに移っている。 (huggingface.co)
最終的に、Bonsai 8Bが本当に転換点になるかは、第三者検証、上流ランタイムへの統合、そして実アプリでの堅牢性にかかっている。現時点で広く参照されているベンチマークは、基本的にPrismML自身がH100上で行った比較だ。それでも、2026年4月時点でここまで具体的に「8B級を端末ネイティブに近づける」試作品を、重み・実装・デモ込みで公開した意味は小さくない。クラウドAIの代替がただちに生まれたわけではないが、エッジAIの競争軸が「もっと小さい3B/4B」から「8B級をどこまで軽く、安く、近くに持ってこられるか」へ移り始めたことは、Bonsai 8Bがはっきり示している。 (huggingface.co)
主な出典は、PrismML公式発表、Hugging Faceのモデルカード、PrismML-EngのBonsai-demo、BitNet/FBI-LLMの一次論文、およびThe Registerの関連記事。 (prismml.com)