VLMは「見えている」だけでは足りない:VLX-Seekが示す、座標を書かせない視覚AI
きょう取り上げる発表
きょうは、2026年6月27日にHugging Faceで公開された VLX-Seek を取り上げます。発表元はOm AI Labで、タイトルは “VLX-Seek: Improving VLM Fine-Grained Perception via Region Reference Instead of Coordinate Generation” です。査読付き論文というより、現時点では技術紹介とGitHubリポジトリの公開に近い位置づけです。モデル重みについても、GitHub上では「will be released soon」とされており、まだ再現性は限定的です。この点は最初に留保しておきます。 (huggingface.co)
何が新しいのか
今回の主役は、巨大な言語モデルそのものではなく、視覚言語モデルが画像の中の対象をどう指し示すかという問題です。
いまのVLM、つまりVision-Language Modelは、画像を見て「何が写っているか」を説明するのはかなり得意になっています。たとえば、部屋の写真を見せれば、椅子がある、机がある、窓がある、と説明できる。けれど、ロボットやドローンや監視カメラに使う場合、それだけでは足りません。
必要なのは、「赤い服の人がいます」ではなく、その赤い服の人は画面のどこにいて、複数人いるならどの人なのかです。さらに、対象が存在しないときに、無理やりどこかを指さないことも重要です。
従来の多くのVLMでは、位置を答えさせるときに、[x1, y1, x2, y2] のような座標列を生成させます。これは一見シンプルですが、言語モデルにとってはあまり自然な仕事ではありません。座標は文章ではなく数字列です。順序、桁、正規化、区切り記号、対象数のどれかが崩れるだけで、結果は不安定になります。VLX-Seekの発表は、ここを問題の中心に置いています。 (huggingface.co)
座標を「書かせる」のではなく、領域を「選ばせる」
VLX-Seekの発想はかなり明快です。モデルに座標を一から生成させるのではなく、まず画像内の候補領域を取り出し、それぞれに <region0> や <region1> のような参照可能なトークンを割り当てます。そして、ユーザーが「赤い服の人はどこ?」と聞いたとき、モデルは座標の数字列ではなく、該当する領域トークンを選びます。 (huggingface.co)
つまり、タスクの形が変わります。
「画像と言語から座標を生成する」のではなく、
「画像内の候補領域と言語クエリを照合して、該当領域を参照する」。
これは、LLMの得意分野に合わせた設計とも言えます。言語モデルは、比較する、選ぶ、参照する、説明する、という処理は得意です。一方で、精密な数値を長く出力し続けるのは得意とは限りません。ならば、数字を直接書かせるのではなく、あらかじめ用意した視覚領域を「言語で扱える対象」にしてしまう。ここがVLX-Seekの肝です。
技術的な構成
発表によると、VLX-Seekは大きく三段階で動きます。
第一に、候補領域を生成します。これは画像の中で物体がありそうな場所を拾う工程です。
第二に、その候補領域を Hybrid Fine-grained Region Encoder、HFRE で特徴量に変換します。HFREは、一般的なVLMが持つ意味理解寄りの視覚表現と、境界・小物体・局所テクスチャに強い細粒度表現を組み合わせる設計です。
第三に、それぞれの領域をLLMが読めるトークンとして入力し、モデルが自然言語クエリに応じて領域を選びます。 (huggingface.co)
学習も二段階です。まず領域トークンと言語モデルの空間を合わせる「region-language alignment」を行い、その後、検出、参照表現理解、領域キャプション、OCR、カウントなどの知覚命令で調整します。さらに、存在しない対象を聞かれたときに「ない」と答えるための拒否サンプルも使うと説明されています。これは実用上かなり大事です。ロボットが存在しない対象を勝手に見つけたことにして動くと、単なる誤答では済まないからです。 (huggingface.co)
数字の読み方
発表では、VLX-Seek-3BがCOCOの物体検出で45.3 mAP、Qwen2.5-VL-7Bが17.7、Gemini 3.1 Proが41.4と報告されています。また、RefCOCO系列の参照表現理解では平均88.7、PixMo-Countの物体カウントでは85.0という結果も示されています。 (huggingface.co)
ただし、ここは慎重に読むべきです。現時点で、公開ブログとGitHub READMEが中心で、モデル重みはまだ公開予定の段階です。ベンチマーク条件、比較モデルのプロンプト、候補領域生成器の設定、推論解像度、後処理の詳細が完全に第三者検証されたわけではありません。したがって、「3Bモデルが大手の巨大VLMを全面的に超えた」と読むのは早いです。
むしろ重要なのは、点数そのものよりも、VLMに位置を答えさせるインターフェースを変えると、性能と効率の両方に効く可能性があるという点です。
なぜ重要か
この発表が面白いのは、マルチモーダルAIの進化を「もっと大きいモデル」ではなく、出力形式の設計から見直しているところです。
画像理解モデルを実世界に置くと、問いはだんだん変わります。
「これは何の写真ですか?」から、
「その部品をつかんでください」へ。
「人は何人いますか?」から、
「左奥で立ち止まった人を追跡してください」へ。
このとき必要なのは、きれいな説明文だけではありません。対象を安定して指せること、複数の候補を区別できること、存在しないものを捏造しないこと、そして低遅延で動くことです。
VLX-Seekは、そのために「画像内の領域を、言語モデルが参照できるオブジェクトとして扱う」という方向を示しています。これは、人間が画面を見ながら「あの人」「右の箱」「二つ目の標識」と指す感覚に少し近いです。
今後の見どころは三つあります。第一に、モデル重みが公開された後、第三者が同じベンチマークを再現できるか。第二に、候補領域生成器にどれだけ依存しているか。第三に、静止画像だけでなく、VLX-Flowのようなストリーミング動画理解と組み合わせたときに、実時間のロボット・カメラ応用でどこまで安定するかです。 (huggingface.co)
まとめると、VLX-Seekは「VLMは画像を説明できる」から、「VLMは画像内の対象を操作可能な単位として参照できる」への一歩です。まだ実証待ちの部分はありますが、視覚AIを現実のデバイスに近づけるうえで、かなり筋の良い問題設定だと思います。
出典URL:
- https://huggingface.co/blog/omlab/vlx-seek
- https://github.com/om-ai-lab/VLX-Seek
- https://huggingface.co/blog/omlab/vlx-flow