Anthropic社は、AI技術が国家安全保障に関わるリスク(生物兵器設計など)をもたらす可能性があると指摘し、これを測定・軽減するための「フロンティア脅威レッドティーミング」という取り組みを発表しました。生物学分野での試験プロジェクトで、専門家と150時間以上かけてAIモデルが危険な情報をどの程度出力できるかを調査。結果として、現在のAIモデルは危険な情報を生成する可能性があり、今後2~3年以内に実際のリスクになる恐れがあることが判明しました。一方で、訓練方法の改善やフィルター機能の追加などにより、これらのリスクを大幅に低減できることも確認されました。同社は今後、この取り組みを拡大し、政府や他の研究機関と知見を共有していく予定です。