AI モデルの安全性を評価する第三者機関向け資金提供プログラムを開始
原題: A new initiative for developing third-party model evaluations
📝 要約
Anthropic社は、AI モデルの能力と危険性を正確に測定するための評価手法を開発する第三者機関に資金を提供する新しいイニシアティブを開始しました。現在、高品質な安全性評価の開発が需要に追いついていないため、このプログラムを立ち上げました。具体的には、サイバーセキュリティ、化学・生物兵器関連のリスク、AI の自動化能力、社会への影響など、重要な危険性を測定する評価手法の開発に資金提供します。同時に、評価開発を簡単にするツールやインフラの構築も支援します。Anthropic は、優れた評価の特性として、十分な難易度、訓練データに含まれていないこと、スケーラビリティ、領域専門知識の活用などを挙げており、提案の募集を開始しています。
📌 ポイント
- AI の危険な能力を測定するための第三者評価に資金提供するプログラムを開始
- サイバー攻撃、化学兵器、AI の自動化、社会操作など、複数の安全関連リスク領域を評価対象とする
- 評価開発ツールやインフラの構築支援も含まれ、AI 安全性評価の全体的なエコシステムを強化
- 優れた評価の条件として、十分な難易度、訓練データ外の内容、スケーラビリティなど 10 項目を定義
- 組織や研究機関からの提案を募集し、段階的な資金提供オプションを用意
💡 わかりやすく言うと…
これは学校のテスト作成に例えられます。AI が本当に危険なことをしないか確認するため、複数の民間企業や研究機関に難しくて信頼性の高いテストを作らせることで、独立した第三者が正確に実力を測定できるようにする、という考え方です。