Anthropic社は、AI言語モデル「Claude 3 Sonnet」の内部構造を解き明かす研究を発表しました。AIの「脳」には数百万の概念(特徴)があり、特定のテーマについての言及を見つけるとそれらが活性化することを発見。その一例として、ゴールデンゲートブリッジについての特徴を意図的に強化した「ゴールデンゲート・クロード」を作成し、期間限定で公開しました。このモデルにどんな質問をしても、回答にゴールデンゲートブリッジが登場するようになります。この研究は、AIの動作原理をより詳しく理解し、安全性を高める可能性を示すものです。