Anthropicの「Natural Language Autoencoders」は、Claudeの“考えていること”をどこまで読めるのか
Anthropicは2026年5月7日、Claudeの内部活性化を自然言語の説明へ変換する新手法「Natural Language Autoencoders(NLA)」を発表した。発表タイトルは「Turning Claude’s thoughts into text」と挑発的だが、ここでいう“thoughts”は意識や内面の証明ではなく、モデル内部の数値ベクトルである活性化に含まれる情報を、人間が読める... もっと見る