AIの安全性を強化するための新しいバグ報告プログラムの開始

原題: Testing our safety defenses with a new bug bounty program

📝 要約

Anthropic社がセキュリティ企業HackerOneと協力し、新しいバグ報告プログラムを立ち上げました。このプログラムは、AI安全性分類システム「Constitutional Classifiers」の脆弱性を見つけることを目的としています。化学・生物・放射性・核兵器（CBRN）関連の危険な情報を引き出す「ジェイルブレイク」と呼ばれる攻撃方法を発見した研究者には、最大25,000ドルの報酬が提供されます。これはAIが成長するにつれ、より強固な安全対策が必要になるため、事前に欠点を見つけて改善する取り組みです。セキュリティ分野の専門家たちが招待され、公開前のClaude 3.7 Sonnetで検査を行っています。

📌 ポイント

HackerOneと協力した新しいバグ報告プログラムが開始。AI安全分類システムの脆弱性を見つけることが目的
危険な情報を引き出そうとする攻撃（ジェイルブレイク）を発見した場合、最大25,000ドルの報酬を提供
Anthropicの責任あるAI開発方針（Responsible Scaling Policy）に基づいた安全対策の強化が目的
セキュリティの専門家を招待し、公開前のAIモデルで集中的にテストを実施
AIシステムがより高度になるにつれて、さらに強力な保護機能が必要になることに対応

💡 わかりやすく言うと…

このバグ報告プログラムは、新しい銀行が金庫を本格的に稼働させる前に、錠前師に『この金庫を開けられるか試してください』と依頼し、弱点を事前に見つけて修理するのと同じです。AIも同じように、世の中に公開する前に、専門家に安全性の弱点を探してもらい、改善しておくのです。