Anthropic ブログダイジェスト - 安全性

安全性 anthropic.com 2025-09-05 07:01

特定地域へのサービス提供制限を強化：Anthropicが中国など権威主義国家の支配下にある企業をブロック

AI企業のAnthropicは、利用規約でサービス提供を禁止している地域からの企業による迂回的なアクセスに対策を強化します。特に中国などの権威主義国家の支配下にある企業が、他国の子会社を通じてサービスにアクセスしている実態があります。Anthropicは今後、50%以上の所有権が規制対象地域の企業に支配されている組織のすべてのアクセスを禁止します。これにより、AIの強力な機能が軍事情報機関や権威主…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-08-27 19:11

AI悪用の検出と対策：2025年8月の脅威インテリジェンスレポート

Anthropic社が、自社のAI「Claude」がどのように悪用されているかを詳細に報告しました。サイバー犯罪者たちは、Claudeを使って従来は専門知識が必要だった複雑な犯罪を実行しています。具体的には、大規模なランサムウェア詐欺、北朝鮮による偽りの就職詐欺、身代金要求型サイバー攻撃などが確認されました。特に問題なのは、基本的なプログラミング知識さえない犯罪者でも、AIの助けを借りて高度なサイ…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-08-22 06:06

ClaudeAIの悪用を検知・対抗する取り組み（2025年3月報告）

Anthropic社は、自社のAI「Claude」が悪意のある利用者に悪用されるケースを検知し、対抗する取り組みについて報告しました。報告書では4つの具体的な悪用事例を紹介しており、これらには選挙工作用の偽アカウント操作、カメラの認証情報盗難、求人詐欺、初心者による不正ソフト開発などが含まれています。特に注目すべき事例は、Claudeを複数の偽アカウントを自動的に操作する「指令塔」として使用し、数…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-08-21 19:00

公民連携でAIの核兵器関連リスクに対応—96%の精度で危険な会話を検出

Anthropic社は米国エネルギー省の核セキュリティ局（NNSA）と協力して、AIが核兵器に関する危険な技術知識を提供するリスクに対抗する取り組みを発表しました。両機関が共同開発した分類システム（内容を自動判別するAI）は、核関連の会話が危険か安全かを96%の精度で判定できます。このシステムは既にClaudeのモニタリングシステムの一部として導入され、実際の利用データでも良好な性能を示しています…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-08-16 23:13

Claudeの安全性を守るための取り組み

Anthropic社は、AI助手「Claude」を安全に使ってもらうため、複数の層から成る保護システムを構築しています。具体的には、使用ポリシーの策定、モデルの訓練段階での改善、リリース前の厳格なテスト、そしてリリース後のリアルタイム監視という4つのアプローチを実施しています。例えば、2024年の米国選挙では外部専門家と協力して古い情報を提供しないよう改善し、ユーザーに信頼できる情報源を案内するバ…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-07-24 03:04

AIの潜在的な危害を理解し対策する包括的なアプローチ

Anthropic社がAIシステムから生じる可能性のある幅広い危害に対処するための新しい枠組みを発表しました。生物学的脅威などの極端なシナリオから、児童安全やデマ、詐欺といった重要な懸念まで、複数の次元（身体的、心理的、経済的、社会的、個人の自由に関する影響）から潜在的な危害を評価します。同社は使用ポリシーの策定、事前・事後の評価、悪用検知技術、厳格な対応を組み合わせてリスクを管理しています。例え…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-07-24 03:04

カリフォルニア州知事のAI作業部会報告書に対するAnthropicの見解

Anthropicは、カリフォルニア州知事の最先端AI技術に関する作業部会が発表した報告書に対し、支持の意を表明しました。報告書が透明性の重要性を強調していることに同意し、透明性は低コストで高い効果がある政策手段だと述べています。Anthropic自体すでに「責任あるスケーリングポリシー」を公開し、安全性テストの結果も公開するなど、業界のベストプラクティスに従っています。ただし、現在は企業に安全保…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-07-24 03:03

Anthropic、AI安全レベル3の保護対策を開始 — Claude Opus 4で強化されたセキュリティを導入

Anthropic社は、新型AI「Claude Opus 4」の公開にあたり、「AI安全レベル3（ASL-3）」という強化された保護対策を導入しました。これは、AIの知能を司る「モデルの重み」の盗難を防ぐセキュリティ強化と、化学兵器・生物兵器・放射能兵器・核兵器（CBRN）の開発に悪用されるリスクを減らすための制限措置です。具体的には、特殊な監視システムで有害な質問をブロックし、不正アクセス対策と…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-07-24 03:02

AIの安全性を強化するための新しいバグ報告プログラムの開始

Anthropic社がセキュリティ企業HackerOneと協力し、新しいバグ報告プログラムを立ち上げました。このプログラムは、AI安全性分類システム「Constitutional Classifiers」の脆弱性を見つけることを目的としています。化学・生物・放射性・核兵器（CBRN）関連の危険な情報を引き出す「ジェイルブレイク」と呼ばれる攻撃方法を発見した研究者には、最大25,000ドルの報酬が提…

詳しく読む → 原文 ↗

安全性 anthropic.com 2025-07-24 03:02

AI安全性に関する基本的な見方：いつ、なぜ、何を、どのように

Anthropic社は、AI技術が今後10年以内に産業革命や科学革命に匹敵する変革的な影響をもたらす可能性があると考えています。しかし、そのような強力なAIシステムを安全に保つ方法はまだ分かっていません。同社は、AIの能力向上は計算量の増加に従って予測可能に進むと考えており、今後AIは人間レベルのほぼすべての知的作業を実行できるようになる可能性があります。このような強力なAIが人間の意図と異なる行…

詳しく読む → 原文 ↗