OpenSkillEval:「スキルを入れればエージェントは賢くなる」を検査するための物差し
2026年5月25日のarXiv cs.CL新着で、LLMエージェントの「スキル」利用を評価する論文、OpenSkillEvalが掲載された。ここでいうスキルとは、モデルの重みそのものではなく、プレゼン作成、Webデザイン、可視化、レポート作成のような作業をうまく進めるために整理されたワークフロー指示のことだ。最近のエージェント開発では、モデルを入れ替えるだけでなく、外部ツール、プロンプト、テンプレート、手順書を組み合わせて性能を上げる流れが強まって... もっと見る