Gemini-SQL2がBIRDで80.04%:LLMは「SQLを書く」から「データに正しく触る」段階へ
過去24時間の生成AI・LLM関連の話題から、今回は Google Research & Cloud の Gemini-SQL2 が Text-to-SQL ベンチマーク BIRD の Single Trained Model Track で Test 80.04% を記録した件を取り上げる。複数媒体が6月13日に報じているが、同一発表として統合して見るべきニュースだ。一次的に確認できる重要情報は、BIRD公式リーダーボード上で Gemini-SQL2 が「Jun 3, 2026」「Google Research & Cloud」「Self Consistency: Many」「Dev 74.12 / Test 80.04」と掲載されている点である。(bird-bench.github.io)
何が新しいのか
Text-to-SQLは、自然言語の質問をSQLに変換する技術だ。たとえば「先月、地域別に売上が最も伸びた商品カテゴリは?」という質問から、適切なテーブル、列、条件、集計、並び替えを選び、実行可能なSQLを生成する。
この領域は、LLM導入の実務価値と直結している。チャットボットが文章を返すだけなら、誤りは読めば気づける場合もある。しかしSQL生成では、誤ったクエリが一見もっともらしい数値を返すことがある。つまり問題は「SQLらしい文字列を書けるか」ではなく、正しいデータに、正しい条件でアクセスし、正しい答えを返せるかに移る。
BIRDはこの点で重要なベンチマークだ。公式説明によれば、BIRDは12,751件以上のquestion-SQLペア、95個の大規模データベース、合計33.4GBのデータ、37以上の専門領域を含む。単なる構文変換ではなく、実際のデータベース内容、汚れた値、外部知識、効率的なSQL生成まで問う設計になっている。(bird-bench.github.io)
80.04%という数字の読み方
Gemini-SQL2の80.04%は、BIRDのSingle Trained Model Trackで人間性能92.96%に次ぐ上位スコアとして掲載されている。直前のGoogle系エントリであるGemini-SQLは77.14%なので、単純な差分では約+2.9ポイントの改善になる。エラー率で見ると、22.86%から19.96%への低下なので、概算で約13%の相対的なエラー削減だ。(bird-bench.github.io)
ただし、ここで重要な留保がある。BIRDの該当トラックではSelf-Consistencyが許可されており、Gemini-SQL2の欄には「Many」と記載されている。BIRD公式は、Manyを8〜32候補の多数決・選択に相当するカテゴリとして説明している。つまり、この80.04%は必ずしも「1回だけSQLを生成したときの素の精度」ではない。実務でも複数候補生成と検証は有効だが、レイテンシ、コスト、監査ログの設計まで含めて評価する必要がある。(bird-bench.github.io)
なぜ実務への影響が大きいのか
このニュースの本質は、LLMがBIやデータ分析の入口に近づいていることだ。
従来、業務部門がデータを見たい場合、次のような流れが多かった。
- 担当者が自然言語で依頼する
- データアナリストがSQLを書く
- 結果をダッシュボードや表にする
- 条件変更があるたびに往復する
Text-to-SQLの精度が上がると、この往復の一部が短縮される。特に、読み取り専用の分析、定型的な集計、探索的な質問では効果が大きい。自然言語インターフェースがデータベースに直結することで、非エンジニアが自分で問いを試せるようになる。
一方で、80%は「かなり良い」が「任せきれる」数字ではない。5回に1回程度は誤る可能性がある水準だ。しかもSQLの誤りは、チャット回答の誤字より危険になりうる。間違ったJOIN、条件漏れ、日付範囲の解釈違い、権限外カラムへの参照、過大なクエリによるコスト爆発など、失敗の種類が実務的だからだ。
技術的には何が難しいのか
Text-to-SQLが難しい理由は、自然言語理解だけでは完結しない点にある。
まず、スキーマ理解が必要になる。ユーザーは「顧客」と言うが、データベース上では accounts、users、buyers、organizations に分かれているかもしれない。次に、値の解釈が必要になる。「先月」「アクティブ顧客」「大口案件」のような言葉は、組織ごとの定義に依存する。さらに、SQLは実行される言語なので、構文上は正しくても意味上は誤りうる。
BIRDが「dirty values」や外部知識、効率的SQLを重視しているのはこのためだ。実データはきれいな教科書ではない。略称、欠損、表記揺れ、業務ルール、暗黙の条件が入り込む。LLMが本当にデータ分析のインターフェースになるには、単にSQL文を生成するだけでなく、データベースの現実に合わせて推論する必要がある。(bird-bench.github.io)
導入するなら必要になるガードレール
この種のモデルを企業で使う場合、鍵になるのは「精度が高いから使う」ではなく、誤る前提で安全に使う設計だ。
少なくとも次のような仕組みが必要になる。
- 読み取り専用権限を原則にする
- ユーザーごとの行・列レベル権限をSQL生成前後で検証する
- 生成SQL、実行結果、参照テーブルをログ化する
- 高コストなクエリや全表スキャンを制限する
- 重要な意思決定では人間のレビューを挟む
- クエリ結果だけでなく、前提条件と解釈を説明させる
- 既知の業務定義をメタデータとして与える
特に怖いのは、モデルが「間違った答え」を自信ありげに返すことではなく、ユーザーがその数値をそのまま意思決定に使うことだ。Text-to-SQLの進歩は、データチームを不要にするというより、データチームの仕事を「毎回SQLを書く」から「信頼できる意味層と検証環境を作る」方向へ移す。
今後の見通し
Gemini-SQL2の80.04%は、Text-to-SQLが研究デモから実務基盤へ近づいていることを示す強いシグナルだ。ただし、ここから先の競争はベンチマーク点数だけでは決まらない。
重要になるのは、企業固有のスキーマにどれだけ早く適応できるか、権限管理と監査をどう組み込むか、曖昧な質問に対して勝手にSQLを書くのではなく確認質問を返せるか、そして誤答時に原因を追跡できるかだ。
LLMの進化は、文章生成からコード生成へ、そしていまデータ操作へ広がっている。Gemini-SQL2のニュースが面白いのは、モデルが「答えるAI」から「業務データに働きかけるAI」へ移る境界線を示しているからだ。ここでは能力の高さと同じくらい、失敗時の設計が重要になる。
出典:BIRD公式リーダーボード、BIRD公式ベンチマーク説明、Google DeepMind Gemini 3.1 Pro model card、Gemini-SQL2に関する6月13日の報道。(bird-bench.github.io)