Anthropic社は、AI技術の急速な進化に対応するため、モデル安全性バグ報奨金プログラムを拡大しました。新たな取り組みとして、AIモデルの悪用を防ぐために使用される安全対策の欠陥を見つけることに焦点を当てています。特に「ジェイルブレーク攻撃」(AIの安全機能を回避する方法)、特に化学・生物・放射線・核兵器関連やサイバーセキュリティなどの危険な分野での普遍的な脆弱性を特定することを目指しています。セキュリティ研究者に対して最大1万5,000ドルの報奨金を提供し、HackerOneと協力して招待制プログラムを実施します。経験豊富なAIセキュリティ研究者は応募フォームから申請でき、選ばれた応募者には秋に連絡があります。