DukaanBench：AIに「店番」を任せると、何が見えてくるのか

きょう取り上げる発表

きょうは、2026年6月27日にHugging Faceのコミュニティ記事として公開された DukaanBench を取り上げます。これは、新しい巨大モデルの発表ではありません。けれど、LLMエージェント評価の流れを見るうえで、とても面白いベンチマークです。テーマは一言でいうと、AIは30日間、インドの小さな食料品店をうまく運営できるのか、です。(huggingface.co)

DukaanBenchでAIが任されるのは、架空のキラナ、つまりインドの近所の小売店です。モデルは毎朝、在庫、現金、天気、直近の売上、売り逃し、顧客の信頼度、ツケ払いにあたるkhata、マーケティング状況などを受け取り、その日の開店前に一つのJSONアクションを返します。その後、バックエンドが来店客、在庫切れ、支払い、廃棄、販促効果、信頼度の変化をシミュレーションします。つまりこれは「正解を答える」テストではなく、「世界を少し動かし、その結果を翌日に背負う」テストです。(huggingface.co)

なぜ小さな店なのか

おもしろいのは、舞台が大企業でもソフトウェア開発でもなく、近所の店であることです。小売店の運営は一見単純に見えます。牛乳を仕入れ、パンを並べ、売れたら補充する。けれど実際には、現金は限られています。牛乳やバナナは傷みます。学校のある日、雨の日、給料日前後、常連客、ツケ払い、近所の競合、WhatsAppでの告知、そうした要素が絡みます。牛乳を一度切らすだけなら売上の損失ですが、常連が二度続けて買えなければ、それは信頼の損失になります。DukaanBenchは、この「小さな意思決定の蓄積」をAIエージェントに試させる設計です。(huggingface.co)

ここが最近の評価トレンドとつながります。Princeton UniversityのCEO-Benchも、AIエージェントに500日間のスタートアップ経営を任せることで、単発タスクではなく長期的な「操縦能力」を測ろうとしていました。DukaanBenchはその小売店版と見ることもできます。ただし、より日次の現場オペレーションに寄っています。大きな戦略よりも、在庫、資金繰り、信頼、販促、構造化出力の整合性が前面に出ています。(ceobench.com)

ベンチマークとして新しい点

DukaanBenchの核心は、モデルの「意図」ではなく「実行可能な行動」を見るところです。モデルは文章で立派な方針を語るだけでは足りません。実際に実行されるのはJSONです。たとえば、モデルが「学校帰り向けのキャンペーンを行う」と理由欄に書いても、marketingActions に何も入っていなければ、そのキャンペーンは存在しません。記事では、この意図とアクションのずれが重要な観察点だったと説明されています。(huggingface.co)

これは、エージェント評価ではかなり大事な視点です。私たちはモデルの出力を読むと、もっともらしい推論に安心してしまいがちです。でも実務で必要なのは、もっともらしい説明ではなく、実行可能な指示です。注文数、割引、在庫除去、khataリマインダー、現金準備、冷蔵庫の割り当て。こうした具体的な操作が、毎日きちんと出力され、バリデータを通り、翌日の状態を改善するかどうかが問われます。DukaanBenchはこの点で、「エージェントは考えられるか」ではなく、「エージェントは作業契約を守れるか」を見ています。(huggingface.co)

初期結果の読み方

公開時点のリーダーボードでは、GPT-5.5が報酬+2,294、最終現金₹50,184、信頼100、サービス率97.5%で首位とされています。2位はGemini 3.1 Pro preview、3位はClaude Opus 4.8です。ただし、この数字はベンチマーク作者が公開した初期のライブArena結果であり、査読済み論文や広く再現確認された標準ベンチマークではありません。したがって「どのモデルが最強か」を結論するより、どんな能力差が見えるのかを読むほうがよいです。(huggingface.co)

記事の観察で特に重要なのは、モデルの失敗が「一発の大事故」として出るとは限らないことです。低スコアのモデルは、JSONをまったく出せないわけではありません。利益も出すことがあります。けれど、必需品の欠品を繰り返し、少しずつ信頼を削り、最終的には将来需要を傷つけます。Grok 4.3は正の報酬を残しながら信頼が29まで落ち、Sarvam 105BやQwen 3.7 Maxはさらに低い信頼で終わったと報告されています。これは、短期の現金収支だけでは運営品質を測れないことを示しています。(huggingface.co)

「小さな専門モデル」の可能性

もう一つ見逃せないのは、Part 2の構想です。DukaanBenchの作者は、日次トレースを使って、より小さな「店番モデル」を訓練する計画を示しています。形としては、前日の現実、翌日の信号、モデルの行動、顧客シミュレーション、報酬、次の状態という系列データです。これを使えば、汎用の巨大モデルに毎朝長いプロンプトを読ませるより、小さく特化したモデルのほうが安定した運営方針を学べるかもしれません。(huggingface.co)

ここには、生成AIの実用化に関する大きな示唆があります。すべてを巨大な汎用モデルに任せるのではなく、特定の業務環境に閉じた小さな意思決定モデルを作る。しかも、人間を置き換えるというより、仕入れの見落とし、在庫切れの傾向、販促と在庫の不一致、ツケ払いリマインドのタイミングを補助する。これは、AIエージェントの現実的な着地点としてかなり自然です。

ただし限界も大きい

もちろん、DukaanBenchはまだ研究プレビューです。現在は固定された架空の近所、コンパクトなSKU、限定されたシミュレーションです。実際の小売では、仕入れ先の遅延、卸価格の変動、多言語の接客、地域行事、POSデータのノイズ、プライバシー、競合の値下げ、配送アプリの影響など、さらに多くの要素があります。作者自身も、今後はSKU拡張、複数地域、サプライヤー遅延、ローカル言語説明、匿名化トレース、隠れたショックへの頑健性テストなどが必要だと述べています。(huggingface.co)

それでも、このベンチマークが面白いのは、AIの評価を「答え」から「日々の運営」へ移している点です。モデルが何を見て、何を決め、客がどう反応し、店の状態がどう変わったのか。それを再生できる形にする。これは、エージェント時代の評価に必要な透明性です。

まとめ

DukaanBenchが示しているのは、AIエージェントの賢さは、単発の推論力だけでは測れないということです。利益を出すこと、信頼を守ること、在庫を切らさないこと、廃棄を避けること、キャンペーンで作った需要に応えること、そして何より、毎日きちんと実行可能なアクションを返すこと。こうした地味な能力が、実務ではモデルの価値を決めます。

大きなモデル発表が続くなかで、DukaanBenchは静かな問いを投げています。AIは、難問に正解できるだけでなく、昨日の失敗を覚えて、明日の棚を少しだけよくできるのか。エージェントの本当の実力は、案外こういう小さな店先に現れるのかもしれません。

出典URL: https://huggingface.co/blog/77ethers/dukaanbench
関連出典URL: https://ceobench.com/

# DukaanBench：AIに「店番」を任せると、何が見えてくるのか ## きょう取り上げる発表 きょうは、2026年6月27日にHugging Fa...