Anthropic ブログダイジェスト - 安全性

安全性 anthropic.com 2024-12-20 03:52

子どもの安全保護に関する原則への取り組み

Anthropicを含む主要なAI企業は、生成AI技術（コンピュータが自動で文章や画像を作る技術）の開発・運用・管理において、子どもの安全を守るための包括的な対策を実施することを公表しました。この取り組みは、子どもへの性的虐待から守ることを目的とした非営利団体Thornが主導しています。Anthropicは、児童虐待画像の生成・拡散防止に向けて、データの厳選から検出・報告までの具体的な施策を講じて…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-12-20 03:52

AI システムの「レッドチーミング」における課題と実践方法

Anthropic社は、AI システムの安全性を確保するための「レッドチーミング」（敵対的テスト）について、実践的な知見をまとめました。レッドチーミングとは、セキュリティの専門家が侵入者になったつもりで、システムの弱点を探す検査方法です。同社は、言語専門家や安全保障の専門家など各分野の専門家と協力したテスト、多言語での検査、AI自体を使った自動テストなど、複数のアプローチを試してきました。ただし、…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-12-13 06:28

2024年の選挙とAI：Anthropicの観察と学習

2024年は、ChatGPTなどの生成AI（文章や画像を自動生成する技術）が広く使われるようになって初めての大規模な選挙年となりました。Anthropic社は、AIが選挙に悪影響を与える可能性を懸念し、安全対策を実施しました。具体的には、キャンペーン活動や虚偽情報の生成を禁止するルールを設けたほか、AIの悪用に対して複数回のテストを実施しました。実際の使用状況を分析すると、Claude（Anthr…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-11-01 05:26

AIの急速な進化に対応する的確な規制の必要性

Anthropic社は、急速に進化する強力なAIシステムが科学進歩や医療の発展をもたらす一方で、サイバー攻撃や生物・化学兵器の悪用といった深刻なリスクも増加していると警告しています。同社は、今後18ヶ月間が政府による予防的な規制政策の決定の重要な時期であると指摘。企業の自主的な安全性確保方針（Responsible Scaling Policy）を基にした、シンプルで的確な規制フレームワークが必要…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-10-16 05:44

Anthropic、AIの安全性を確保するための「責任あるスケーリング政策」を更新

AI企業のAnthropicは、高度なAIシステムのリスクに対処するための「責任あるスケーリング政策」を大幅に更新しました。この政策は、AIの能力が高まるにつれて、それに応じた安全対策を実施するという考え方に基づいています。新しい政策では、AIの能力が一定の基準に達したら、より厳しい安全措置を取ることを定めています。特に、AIが独立して複雑な研究を行えるようになったり、危険な兵器製造に使用される可…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-10-09 03:29

2024年米国選挙に向けたAnthropicの安全対策

Anthropic社は、2024年の米国選挙に向けて、AI（人工知能）ツールの悪用防止に取り組んでいます。同社のAIアシスタント「Claude」が選挙に関する有害な用途に使われないよう、複数の対策を実施。具体的には、政治キャンペーンへの利用禁止、選挙情報に関するデマ（虚偽情報）の生成禁止、ディープフェイク（合成映像）の生成防止などです。また、自動監視システムと人間による審査を組み合わせて不正利用を…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-09-11 02:28

AI モデルの安全性を評価する第三者機関向け資金提供プログラムを開始

Anthropic社は、AI モデルの能力と危険性を正確に測定するための評価手法を開発する第三者機関に資金を提供する新しいイニシアティブを開始しました。現在、高品質な安全性評価の開発が需要に追いついていないため、このプログラムを立ち上げました。具体的には、サイバーセキュリティ、化学・生物兵器関連のリスク、AI の自動化能力、社会への影響など、重要な危険性を測定する評価手法の開発に資金提供します。同…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-09-11 02:28

Anthropicがモデル安全性バグ報奨金プログラムを拡大

Anthropic社は、AI技術の急速な進化に対応するため、モデル安全性バグ報奨金プログラムを拡大しました。新たな取り組みとして、AIモデルの悪用を防ぐために使用される安全対策の欠陥を見つけることに焦点を当てています。特に「ジェイルブレーク攻撃」（AIの安全機能を回避する方法）、特に化学・生物・放射線・核兵器関連やサイバーセキュリティなどの危険な分野での普遍的な脆弱性を特定することを目指しています…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-09-11 02:28

責任あるAI開発のための安全基準の実装と課題の振り返り

Anthropic社は昨年発表した「責任あるスケーリング政策」の実装経験をまとめました。この政策は、AI技術が大きくなるにつれて生じる可能性のある危険な能力への対策と悪用防止に焦点を当てています。実装を通じて、同社は明確な安全基準があることの価値を認識しながらも、いくつかの課題に直面しています。具体的には、今後のAIモデルがどのような能力を持つか予測することの難しさ、専門家間での意見の相違、そして…

詳しく読む → 原文 ↗

安全性 anthropic.com 2024-08-06 04:55

AI技術の責任ある発展に向けた提案～Anthropicが政策立案者に示した道筋

AI企業のAnthropicが、米国政府にAI技術の適切な管理と安全性確保のための具体的な提案を提出しました。現在、高度なAI技術を評価する統一的な仕組みがないため、Anthropicは5つの主要な対策を推奨しています。①AI技術の評価方法の研究や資金投入の強化、②企業による評価結果の情報開示の義務化、③政府機関による評価基準の策定、④大規模なAI開発プロジェクトの事前登録制度の確立、⑤外部専門家…

詳しく読む → 原文 ↗