Anthropic社は米国エネルギー省の核セキュリティ局(NNSA)と協力して、AIが核兵器に関する危険な技術知識を提供するリスクに対抗する取り組みを発表しました。両機関が共同開発した分類システム(内容を自動判別するAI)は、核関連の会話が危険か安全かを96%の精度で判定できます。このシステムは既にClaudeのモニタリングシステムの一部として導入され、実際の利用データでも良好な性能を示しています。この官民連携のアプローチは、他のAI企業が同様のセーフガード(安全装置)を実装する際の参考モデルとなることを目指しており、核兵器転用防止と信頼できるAI開発の両立を実現する取り組みとして注目されています。