Anthropicがモデル安全性バグ報奨金プログラムを拡大

原題: Expanding our model safety bug bounty program

📝 要約

Anthropic社は、AI技術の急速な進化に対応するため、モデル安全性バグ報奨金プログラムを拡大しました。新たな取り組みとして、AIモデルの悪用を防ぐために使用される安全対策の欠陥を見つけることに焦点を当てています。特に「ジェイルブレーク攻撃」（AIの安全機能を回避する方法）、特に化学・生物・放射線・核兵器関連やサイバーセキュリティなどの危険な分野での普遍的な脆弱性を特定することを目指しています。セキュリティ研究者に対して最大1万5,000ドルの報奨金を提供し、HackerOneと協力して招待制プログラムを実施します。経験豊富なAIセキュリティ研究者は応募フォームから申請でき、選ばれた応募者には秋に連絡があります。

📌 ポイント

Anthropicが新世代のAI安全対策システムをテストするため、バグ報奨金プログラムを拡大した
特に「ジェイルブレーク攻撃」という、複数の有害な質問に対して安全機能を一貫して回避できる脆弱性の発見に焦点を当てている
化学・生物・放射線・核兵器やサイバーセキュリティなどの高リスク分野での攻撃検出に最大1万5,000ドルの報奨金を提供
現在は招待制だが、将来的にはより広く開放する予定
白宮のボランティアAIコミットメントやG7広島プロセスなど、国際的なAI安全基準に準拠している

💡 わかりやすく言うと…

これはスマートフォンのセキュリティテストに似ています。メーカー（Anthropic）が新しいセキュリティ機能を搭載する前に、専門家にその弱点を見つけてもらい、修正するプロセスと同じです。AIの場合は、モデルの『脱獄』を試みる研究者を募集し、本当にセキュリティが効いているかを事前にチェックしています。