Anthropic社がセキュリティ企業HackerOneと協力し、新しいバグ報告プログラムを立ち上げました。このプログラムは、AI安全性分類システム「Constitutional Classifiers」の脆弱性を見つけることを目的としています。化学・生物・放射性・核兵器(CBRN)関連の危険な情報を引き出す「ジェイルブレイク」と呼ばれる攻撃方法を発見した研究者には、最大25,000ドルの報酬が提供されます。これはAIが成長するにつれ、より強固な安全対策が必要になるため、事前に欠点を見つけて改善する取り組みです。セキュリティ分野の専門家たちが招待され、公開前のClaude 3.7 Sonnetで検査を行っています。