OpenAIの「自己改善する税務エージェント」発表:生成AIの主戦場は、モデル単体から“業務の学習ループ”へ移り始めている
2026年5月27日、OpenAIはThrive Holdingsと共同で、会計士向けのTax AIをCodexで改善していく事例を公開した。対象はCreteの30以上の会計事務所ネットワークで、今税務シーズンのパイロットでは7,000件の税務申告を処理したという。扱うのは米国の1040・1041といった個人・信託系の申告で、OpenAIは、Tax AIが税務準備時間を約3分の1削減し、最大97%の精度で申告ドラフトを作成し、スループットを約50%高めたと報告している。(openai.com)
この発表で重要なのは、「税務AIができた」という業界特化の話だけではない。むしろ核心は、OpenAIがここで「自己改善するエージェント」と呼んでいるものの実体だ。これはモデルが勝手に重みを更新する話ではなく、現場の専門家による修正、プロダクト上の実行履歴、評価データ、Codexによるコード改善をつないだ、業務システム全体の改善ループである。初期には75%のフィールド補完正確性に到達する申告が4分の1程度だったが、6週間後には86%まで増えたとされている。(openai.com)
仕組みは三層に分けて読むと分かりやすい。
第一に、専門家の修正を単なる「後処理」にしないこと。会計士がAIの出力を直したとき、それは単なるミス修正ではなく、どこでシステムが実務に合わなかったかを示す高価値な信号になる。ただし、修正差分の意味は単純ではない。抽出ミスか、マッピングミスか、未対応機能か、税務判断か、あるいは通常のワークフロー上のノイズかを区別しなければならない。OpenAIの説明でも、すべての差分が自動改善の対象になるわけではなく、繰り返し観測され、レビューされ、実行可能な発見に整理されたものだけがCodex向けのタスクになる。(openai.com)
第二に、プロダクトが「証拠」を残すよう設計されていること。Tax AIでは、入力ファイル、抽出されたフィールド、出典への引用、税務エンジンへのマッピング、最終申告、専門家の修正までをたどれるようにしている。これにより、たとえば不動産賃貸のSchedule Eで「fair rental days」を取り逃がすような反復的な失敗を、曖昧な不満ではなく、対象データ・期待出力・評価基準を持つテストケースに変換できる。(openai.com)
第三に、Codexが改善作業を担う。Codexは、失敗した最終出力だけを見るのではなく、トレース、評価、リポジトリ、スキル、ドキュメントをまとめて参照し、抽出スキーマ、マッパー、グレーダー、ソース選択ロジックなどを調査する。重要なのは、Codexに自由に本番データをいじらせるのではなく、書き込み可能な作業ツリーと、読み取り専用の本番コンテキストを分け、ターゲット評価と回帰評価で検証する構造を取っている点だ。(openai.com)
ここには、OpenAIが今年続けて出してきたCodex運用思想との連続性がある。2月の「Harness engineering」では、エージェントに「もっと頑張れ」と言うのではなく、アプリ、ログ、メトリクス、ドキュメント、テストをエージェントが読める形にすることが強調されていた。つまり、人間の仕事はコードを書くことから、エージェントが正しく働ける環境・境界・評価ループを設計することへ移る。(openai.com)
さらに4月のSymphonyでは、個々のCodexセッションを人間が監督するのではなく、チケット管理システムをエージェント群の制御面として使う考え方が示されていた。そこでは、人間の注意こそがボトルネックであり、タスク単位でエージェントを走らせ、CI、レビュー、再試行、衝突解消まで含めて運用する方向が語られている。今回のTax AIは、その抽象論を「税務申告」という高文脈・高責任の業務に接続した事例として読める。(openai.com)
ただし、慎重に見るべき点も多い。まず、OpenAIの数値は公式発表に基づくものであり、独立した第三者監査の結果ではない。最大97%の精度や50%のスループット向上は重要なシグナルだが、「フィールド補完の正確性」と「申告全体の妥当性」や「税務判断の正しさ」は同じではない。税務は、値を正しく転記するだけでなく、例外処理、解釈、説明責任が絡む領域である。OpenAI自身も、エンジニアが設計・プロダクト判断・出荷に責任を持ち、専門家が修正と承認を通じてループを steer すると説明している。(openai.com)
もう一つの論点は、「自己改善」という言葉の誤解である。今回の仕組みは、完全自律的なAIが自分で業務知識を発見し、勝手に本番システムを更新するものではない。むしろ反対に、改善できる範囲を限定し、失敗を評価可能な単位に分解し、曖昧なものは人間側へ戻す。つまり、自己改善の本質は自律性の拡大ではなく、改善単位の構造化と検証可能性にある。
この発表が示す今後の方向は明確だ。業務AIの競争軸は、単に「どのモデルが賢いか」から、「現場で発生する修正を、どれだけ安全に、評価可能な改善タスクへ変換できるか」へ移っていく。専門家の作業ログ、引用付きトレース、回帰評価、限定された編集権限、レビューゲート。これらが揃って初めて、エージェントは単発の自動化ツールではなく、時間とともに育つ業務システムになる。
OpenAIは同じ三層設計を、今後、会計、監査、ITヘルプデスクなどにも広げる構想を示している。だが再現性の条件は厳しい。専門家の判断が構造化データとして残ること、出力と根拠の来歴を追えること、失敗を評価セットに変換できること、そしてCodexが触れる範囲を明確に制限できること。この条件を満たせない業務では、「自己改善」は単なる言葉に留まる。
今回のニュースは、派手な新モデル発表ではない。しかし生成AIの実装段階を考えるうえではかなり重要だ。AIが業務を代替するかどうかではなく、業務そのものがAIにとって学習可能な形に再設計されるかどうか。Tax AIの事例は、その問いをかなり具体的な形で投げかけている。