Anthropic社は、AI システムの安全性を確保するための「レッドチーミング」(敵対的テスト)について、実践的な知見をまとめました。レッドチーミングとは、セキュリティの専門家が侵入者になったつもりで、システムの弱点を探す検査方法です。同社は、言語専門家や安全保障の専門家など各分野の専門家と協力したテスト、多言語での検査、AI自体を使った自動テストなど、複数のアプローチを試してきました。ただし、現在は業界全体で統一された基準がないため、異なるAIシステムの安全性を比較することが難しいという課題があります。同社は、政策立案者に対して、テスト基準の統一化や独立した検査機関の設立、専門的なレッドチーミングサービスの市場化などを提案しています。