選挙の信頼性を守るために:Anthropicが講じる対策について
Anthropic社のAIアシスタント「Claude」が選挙時期に信頼できる情報源となるよう、同社は複数の対策を実施しています。具体的には、政治的な偏りがないよう訓練し、選挙に関連した不正利用(偽情報の発信やなりすまし投票など)を検出・防止する仕組みを導入しています。また、投票登録場所や選挙日などの信頼できる情報へユーザーを誘導し、最新情報が必要な場合はウェブ検索を自動的に活用します。これらの取り…
Anthropic社のブログ記事を非エンジニアにもわかりやすい日本語で紹介
「安全性」の記事: 41件
Anthropic社のAIアシスタント「Claude」が選挙時期に信頼できる情報源となるよう、同社は複数の対策を実施しています。具体的には、政治的な偏りがないよう訓練し、選挙に関連した不正利用(偽情報の発信やなりすまし投票など)を検出・防止する仕組みを導入しています。また、投票登録場所や選挙日などの信頼できる情報へユーザーを誘導し、最新情報が必要な場合はウェブ検索を自動的に活用します。これらの取り…
Anthropic社は、AI技術が脆弱性の発見と悪用を急速に加速させている状況に対応するため、セキュリティ対策の新しい推奨事項を発表しました。今後24ヶ月で、長年見落とされていた多くのバグがAIモデルによって発見される見込みです。同社は防御側もAIを活用できることに着目し、6つの重要な対策を提示しています:パッチの迅速な適用、脆弱性報告の大幅増加への準備、本番環境前のバグ発見、既存コード内の未知の…
Anthropicが開発したAI「Claude Opus 4.6」は、Mozillaと協力してFirefoxの脆弱性(セキュリティの弱点)を発見する実験を行いました。わずか2週間で22個の脆弱性を見つけ、そのうち14個が深刻度の高い問題として認定されました。これは2025年に修正されたFirefoxの高リスク脆弱性の約5分の1に相当します。AIは複雑なソフトウェアの安全性を従来より格段に速く検査で…
AI企業のAnthropicが、AI技術の急速な発展に伴うリスクに対応するため、「責任あるスケーリング・ポリシー」の3.0版を発表しました。このポリシーは、AIの能力が特定のレベルに達したときに、より厳しい安全対策を導入する「もし~なら」という条件付きの約束です。2年半の運用を通じて、Anthropicは一部の目標は達成したものの、改善の余地があることを認めています。新版では、自社で実現できる現実…
Anthropic社は、DeepSeek、Moonshot、MiniMaxの3つのAI企業が、同社のAIモデル「Claude」から不正に機能を抽出していたことを発表しました。これらの企業は約24,000個の偽アカウントを通じて1,600万以上の会話を生成し、利用規約に違反していました。 使用された手法は「蒸留( distillation)」と呼ばれ、強力なモデルの出力を使って弱いモデルを訓練する…
Anthropic社が「Claude Code Security」という新しいセキュリティツールを発表しました。このツールは、ソフトウェアコード(プログラムの設計図)に隠された危険な欠陥を見つけ出し、修正方法を提案します。従来のセキュリティツールは既知の危険パターンしか検出できませんが、Claude Code Securityは人間のセキュリティ研究者のように考えて、より複雑で見つけにくい問題も発…
Anthropic社は、AIアシスタント「Claude」がユーザーの心理的な悩みに適切に対応するための安全対策を発表しました。特に自殺や自傷行為についての相談に対し、共感と正直さを持ちながら、専門家の支援につなげることを重視しています。また、「イエスマン現象」(ユーザーが聞きたいことだけを言う傾向)を減らすため、複数の評価方法を用いて改善を測定。最新モデル「Claude 4.5」は、危機的な状況で…
Anthropic社は、2026年1月1日に施行されるカリフォルニア州の「最先端AI透明性法(SB 53)」に対応するため、独自の「フロンティア適合枠組み」を公開しました。この法律は、AI企業に対して、サイバー攻撃やテロ関連技術など極めて危険なリスクの評価と管理方法を公開することを義務付ける米国初の規制です。Anthropic社は以前から連邦レベルの統一的な規制を求めており、この枠組みは彼らが数年…
Anthropic社は2025年9月、中国の国家支援グループによるものと考えられる、AI技術を駆使した高度なサイバー諜報キャンペーンを検出・阻止しました。攻撃者は同社の「Claude」というAIツールを悪用し、約30の国際的なターゲット(大手IT企業、金融機関、化学製造企業、政府機関など)への侵入を試みました。特に注目すべきは、AIが攻撃全体の80~90%を自動で実行し、人間の介入が最小限(4~6…
AI企業のAnthropicは、米国と英国の政府機関(米国AI標準イノベーションセンターと英国AI安全研究所)と協力して、AIシステムのセキュリティを強化しています。政府の専門家がAnthropicのAIモデルを様々な開発段階でテストし、セキュリティ上の弱点を発見。例えば、隠れた指示でAIを騙す「プロンプト注入攻撃」や、暗号化された悪質なリクエストなど、複雑な攻撃方法を特定しました。これらの発見に…