1.58ビットLLMは「作り直す」から「圧縮する」へ：CAT-Qが示した低コスト量子化の転換点

きょう取り上げる論文

きょうは、arXivの2026年6月26日新着に掲載された CAT-Q: Cost-efficient and Accurate Ternary Quantization for LLMs を取り上げます。ICML 2026のoral採択論文で、テーマはLLMを極端に軽くする「三値量子化」です。要するに、モデルの重みを高精度の数値のまま持つのではなく、ほぼ -1 / 0 / +1 のような三つの値に落として、メモリと計算を減らす技術です。(arxiv.org)

ポイントは、単に「小さいモデルを作った」という話ではありません。これまで1.58ビット級のLLMは、BitNet系のように量子化を前提に大規模な再訓練、つまりQATを行うのが主流でした。CAT-Qはそこに対して、既存の事前学習済みLLMを、少量の校正データだけで三値化する PTQ、Post-Training Quantization の方法として提案されています。論文によれば、1.7B〜8B規模の事前学習済みLLMを、512個の校正サンプルだけで三値モデルに変換し、100Bトークンで訓練されたBitNet 1.58-bit系と同等以上の結果を示したとされています。(arxiv.org)

何が新しいのか

CAT-Qの中核は二つあります。

一つ目は Learnable Modulation。これは、重みをそのまま三値に丸めるのではなく、事前学習済み重みの分布と三値化のしきい値を、少量の校正データに合わせて調整する仕組みです。乱暴に言えば、「どの値を0にし、どの値を+1や-1として残すか」を固定ルールで決めるのではなく、モデルごと・層ごとに少し賢く合わせ込むわけです。(arxiv.org)

二つ目は Softened Ternarization。三値化は本来、連続的な重みを不連続な値に切り落とすため、最適化が難しくなります。CAT-Qでは、最初から硬く三値化するのではなく、連続的な写像から徐々に三値化へ近づけ、最後にハードな三値化へ移る二段階の流れを使います。これにより、量子化の途中で最適化が壊れにくくなる、という設計です。(arxiv.org)

さらに、CAT-Qは一層ずつ孤立して量子化するのではなく、近接する複数層をまとめた「sliding-layer」型の再構成を使います。これは、ある層の誤差が次の層でどう見えるかを少し考慮する方向で、単純なレイヤー単位の丸めより実用寄りの設計です。(arxiv.org)

数字で見るインパクト

論文では、Qwen3、Llama2、MoEモデルを含む10種類のLLM、1.7Bから235Bパラメータまでを対象に評価しています。特に大きい主張は、235Bパラメータ級のモデルまで、8枚のA100-80GB GPUで8〜60時間の範囲で三値化できたという点です。これは「新しく三値モデルを何百億、何千億トークンで訓練する」のとは、かなり違うコスト感です。(arxiv.org)

ただし、ここは冷静に聞く必要があります。CAT-Qで三値化したモデルは、FP16の元モデルと完全に同じ性能を保つわけではありません。たとえばQwen3-235B-A22Bでは、論文中の5つの常識推論ベンチマーク平均で、FP16の79.59に対してCAT-Q版は69.09です。大幅に軽くなる一方で、性能低下は確かに残っています。(arxiv.org)

それでも重要なのは、既存の2ビットPTQやdual 1-bit系の手法と比べたときに、CAT-QがLlama2-7BとLlama2-70Bの比較で平均精度を上回っている点です。特にLlama2-70Bでは、SliderQuantの71.08に対してCAT-Qは72.72と報告されています。小さな差に見えるかもしれませんが、1.58ビットというさらに低い表現でこの結果を出していることが論文の主張です。(arxiv.org)

なぜ重要なのか

最近のLLM競争では、モデルそのものの性能だけでなく、どう安く・速く・広く配るかが大きな焦点になっています。専用チップを作る、推論サーバーを最適化する、KVキャッシュを圧縮する。そうした流れの中で、CAT-Qは「モデルの重みそのものを極端に軽くする」方向の研究です。

もし三値化が安定して使えるようになれば、推論に必要なメモリ帯域が下がり、より大きなモデルを限られたGPUメモリに載せやすくなります。また、三値重みは乗算より単純な加算・減算に寄せやすく、将来的な専用カーネルやハードウェアとの相性も期待できます。論文も、三値量子化はFP16に比べてメモリ消費を大きく減らし、ゼロ状態による疎性も持つと説明しています。(arxiv.org)

ただし、まだ「すぐ実用完成」ではない

この論文でいちばん誠実に読むべき部分は、付録の制約です。著者らは、数学やコード生成のような難しいタスクでは、素のCAT-Qを直接適用すると深刻な性能劣化が出ると報告しています。たとえばMATH-500やHumanEval+では、CAT-Q単体の結果がほぼ崩れており、別途CAT-Q+という校正データ生成戦略が必要だとされています。(arxiv.org)

さらに、1.58ビットモデルを本当に速く動かすには、量子化アルゴリズムだけでは足りません。著者ら自身も、公開されている1.58ビット向けGPU・CPUカーネルは特定モデルに限られており、多様な1.58ビットLLM向けの最適化カーネルはまだ不足していると述べています。つまり、論文上の圧縮率が、そのまま実運用の速度向上になるとは限りません。(arxiv.org)

なお、arXiv上ではコードがGitHubで利用可能と記されていますが、確認できるREADMEではCAT-Qは「open-sourcing中」とされており、現時点では実装公開の状態にも注意が必要です。(arxiv.org)

今日のまとめ

CAT-Qの面白さは、1.58ビットLLMを「最初から作る」ものではなく、「既存のモデルから作る」ものとして扱った点にあります。

これは、LLMの進歩がモデルサイズやベンチマークだけでなく、配布・推論・圧縮の設計へ広がっていることを示す研究です。ただし、常識推論では有望でも、数学・コードのような高精度推論タスクではまだ課題が残ります。

今後見るべき点は三つです。第一に、CAT-Q+の詳細が公開されたとき、難しい推論タスクでどこまで回復するか。第二に、1.58ビット向けの汎用カーネルがどこまで整うか。第三に、QwenやLlama以外の現代的な実運用モデルで、同じ傾向が再現するか。

モデルを賢くする競争の横で、モデルを「扱える形に変える」競争も進んでいます。CAT-Qは、その後者をかなりはっきり見せてくれる一本だと思います。

# 1.58ビットLLMは「作り直す」から「圧縮する」へ：CAT-Qが示した低コスト量子化の転換点 ## きょう取り上げる論文 きょうは、arXivの20...