メニュー

戻る

Tether、端末上で動く医療LLM「QVAC MedPsy」を公開

Tether、端末上で動く医療LLM「QVAC MedPsy」を公開
アリスAI2026年05月08日(金) 04時31分56秒

Tetherの医療LLM「QVAC MedPsy」は、医療AIをクラウドから端末へ動かす試みだ

Tether DataのAI Research Groupは2026年5月7日、医療・ヘルスケア向けの小型LLMファミリー「QVAC MedPsy」を公開した。特徴は明確だ。1.7Bと4Bという比較的小さなテキスト専用モデルを、スマートフォン、ウェアラブル、院内端末、ラップトップなどのローカル環境で動かすことを狙っている。Tetherは、遠隔クラウドに患者情報や診療メモを送らず、低遅延かつプライベートに医療AIを実行する構想を前面に出している。(tether.io)

MedPsyの核にあるのは「大きければ強い」という医療LLMの前提への挑戦である。Tetherの技術レポートによれば、MedPsy-1.7Bは7つのクローズドエンド医療ベンチマーク平均で62.62を記録し、GoogleのMedGemma-1.5-4B-itの51.20を11.42ポイント上回ったとされる。4B版は同平均で70.54を記録し、MedGemma-27B-text-itの69.95をわずかに上回ったと報告されている。(huggingface.co)

比較対象として重要なのがMedGemmaだ。GoogleのMedGemmaは、Gemma 3を基盤にした医療テキスト・画像理解向けのオープンモデル群で、4Bマルチモーダル、27Bテキスト専用、27Bマルチモーダルなどを含む。Google自身も、MedGemmaは医療アプリ開発の出発点であり、特定用途への検証や適応が必要だと説明している。つまり、MedPsyの主張は「画像も扱う総合医療AIで勝った」というより、テキストベースの医療推論・QA領域で、小型モデルが大きな競合に迫る、または一部で上回るというものだ。(developers.google.com)

技術的には、MedPsyはQwen3系をバックボーンにしている。1.7B版はQwen3-1.7Bをthinking modeで、4B版はQwen3-4B-Thinking-2507を基盤にし、広範な医療SFT、推論特化SFT、AlphaMedQAを使った2段階の強化学習を組み合わせた後学習パイプラインで作られている。長い推論教師にはBaichuan-M3-235Bを用い、30M行超の合成医療・ヘルスケア監督データを実験的に生成したという。(huggingface.co)

評価対象は、MedQA-USMLE、MedMCQA、MMLU Health、MMLU-Pro Health、MedXpertQA、PubMedQA、AfriMedQA、HealthBench/HealthBench Hardなどである。特にHealthBenchは、医師が作成したルーブリックを用いて医療LLMの安全性と有用性を測るオープン評価セットで、5,000件のマルチターン会話と48,562個の評価基準を含む。MedPsyのレポートでは、HealthBench Hardで4B版が58.00、1.7B版が54.33を記録し、MedGemma-27B-text-itの42.00を上回ったとされる。(arxiv.org)

もう一つの焦点は、推論コストである。Tetherは、MedPsy-4Bが平均約909トークンで回答するのに対し、比較対象のQwen3-4B-Thinking-2507は約2,953トークン、つまり約3.2倍長いと説明している。1.7B版でも約1,110トークン対約1,901トークンで、約1.7倍の短縮になる。端末上AIでは、モデルサイズだけでなく、生成トークン数が消費電力、発熱、待ち時間に直結するため、この点は実用上かなり大きい。(huggingface.co)

端末実行を支えるのがGGUF量子化版だ。MedPsy-1.7B-GGUFはBF16で約4.07GBだが、推奨のQ4_K_M版は約1.28GBまで縮小される。MedPsy-4B-GGUFはBF16で約8.83GB、Q4_K_M版で約2.72GBとなる。Tetherのモデルカードでは、1.7BのQ4_K_Mは平均スコア低下が0.73ポイント、4BのQ4_K_Mは0.81ポイントにとどまると報告されている。一方で、1.7Bの3ビット版は品質低下が大きく、医療用途には推奨されていない。(huggingface.co)

この発表は、Tetherが2026年4月に公開したQVAC SDKの延長線上にある。QVAC SDKは、iOS、Android、Windows、macOS、LinuxなどでローカルAIを動かすためのクロスプラットフォームSDKで、Tetherは「AIは借りるサービスではなく、利用者の手元にあるべきもの」という思想を掲げている。MedPsyは、その思想を医療というプライバシー要求の高い領域に適用した最初の大きな実例と見られる。(tether.io)

ただし、注意点も多い。MedPsyは英語で訓練・評価されたテキスト専用モデルであり、X線、CT、MRI、写真、PDF画像などは理解できない。また、モデルカードは、診断や治療判断の代替ではなく、幻覚、不完全な助言、古い医療知識、バイアスの可能性があると明記している。さらに、4Bモデルカードでは、現時点で専用のレッドチーミングや敵対的安全性テストは未実施とされている。(qvac.tether.io)

総合すると、QVAC MedPsyの意義は「医療LLMの最高性能を更新した」ことだけではない。むしろ重要なのは、医療AIの配置場所をクラウドから端末・院内システムへ移す設計を、具体的なモデル、量子化ファイル、SDK、ベンチマーク付きで提示した点にある。今後の焦点は、第三者による再現評価、実臨床ワークフローでの安全性検証、多言語対応、規制要件への適合、そして端末実行時の実測レイテンシと電力効率だ。小さなモデルが医療AIの入口を広げる可能性はあるが、医療では「動く」ことと「使ってよい」ことの間に大きな距離がある。MedPsyは、その距離を測るための興味深い新しい試金石である。