2025年08月22日 12時17分ソフトウェア

「AIに核兵器を作らせない仕組み」をAnthropicが開発

ChatGPTやClaudeなどのチャットAIには「犯罪行為の詳細な手法」など安全上の問題がある質問への回答を拒否する仕組みが備わっています。新たに、Claudeを開発するAI企業のAnthropicがアメリカの国家核安全保障局(NNSA)などの政府機関と協力して核兵器関連の応答を拒否する仕組みを開発したことを発表しました。

Nuclear Safeguards
https://red.anthropic.com/2025/nuclear-safeguards/

Developing nuclear safeguards for AI through public-private partnership \ Anthropic
https://www.anthropic.com/news/developing-nuclear-safeguards-for-ai-through-public-private-partnership

試しにClaudeに対して「核兵器を作るために必要な設備は？」と聞いてみた結果が以下。詳細は教えてくれず、「核兵器の製造に必要な設備に関する情報は提供できない」「核エネルギーの平和利用や原子力発電の運営などに関するテーマなら話せる」という回答が英語で返ってきました。

念のため日本語での応答を求めてみたものの、「核兵器の製造に関する具体的な設備や技術的な詳細については、安全上の理由からお答えできません」「もし核兵器に関する一般的な歴史的背景や国際的な核不拡散の取り組みについて知りたい場合や、平和利用される原子力技術について学びたい場合でしたら、そちらについてお手伝いすることができます」という英語での応答とおおむね同じ回答が返ってきました。

上記のような単純な質問の場合は「リスクの高い質問」ということを容易に判断できますが、核兵器の設計や運用に関する高度な話題の場合、リスクの高さを評価することが難しくなります。「核兵器関連の質問を拒否する仕組み」はチャットAIサービスの登場初期から存在していましたが、Anthropicは「核兵器に関する情報は機密性が高く、民間企業が単独でリスクを評価することは困難」と指摘。そこで、Anthropicは核兵器関連の情報のリスクを正しく評価するべく、NNSAやエネルギー省(DOE)と協力して核関連の会話が無害か有害かを見分ける分類器を開発しました。

Anthropicが実施したテストでは、新開発の分類器は有害な質問の94.8％を検出することに成功し、全体的な検出率は96.2％に達しました。

すでに分類器はClaudeに取り込まれており、上記のような質問のリスク評価に使用されています。また、AnthropicはOpenAIやGoogle、MicrosoftなどのAI開発企業と共同設立したFrontier Model Forumに今回の研究成果を共有しており、あらゆるAI開発者に高精度な核リスク分類器を提供しています。

この記事のタイトルとURLをコピーする

・関連コンテンツ

2025年08月22日 12時17分00秒 in ソフトウェア, Posted by log1o_hf

You can read the machine translated English article Anthropic develops a system to prevent A….