ソフトウェア

AIの問題行動を監査するAIをAnthropicが発表


AI開発企業Anthropicの安全性および倫理性研究チームが、AIモデルを自動で監査するAIエージェントを新たに開発したと、2025年7月24日付の論文で発表しました。この研究は、AI開発の加速に伴い、人手による監査が困難になっているというスケーラビリティの課題と、監査が網羅的であるかを検証する課題に対応することを目的としています。

Building and evaluating alignment auditing agents
https://alignment.anthropic.com/2025/automated-auditing/


今回開発されたのは、自律的にアライメント監査タスクを実行する3種類のAIエージェントです。1つ目の「監査エージェント」は、モデルに隠された目標や根本的な欠陥を発見するため、網羅的な調査を行います。このエージェントは、ターゲットとなるAIとの対話、学習データを分析する意味検索、モデル内部の動作を可視化する解釈可能性ツールなどを駆使し、人間と同じような手法で仮説の構築と検証を繰り返します。

2つ目の「評価エージェント」は、特定の懸念行動を定量的に測定するための「行動評価」を自律的に構築する役割を担います。研究者が自然言語で行動の定義を与えるだけで、エージェントが評価の計画立案、テスト用プロンプトや採点基準を含むコードの実装、そして結果の検証と修正という一連のプロセスを自動で実行します。

そして3つ目の「広域レッドチーミングエージェント」は、特定されていない問題行動を幅広く引き出すことを目的としています。このエージェントは、与えられた「シード指示」に基づき、ターゲットAIと多数の独立した対話を並行して実行します。生成された対話ログはAIによって懸念の度合いが評価され、問題の可能性が高いものが人間の監査者のレビュー用に抽出される仕組みです。

以下の図は、監査で使われたターゲットAIが偽の論文を学習し、報酬モデルへの「おべっか」という隠された目標を持つように訓練されるまでの複雑なプロセスを示しています。監査エージェントは、このような巧妙に設計された問題を発見することが求められます。


評価の結果、監査エージェントは、モデルに隠された問題を13%の確率で解明することに成功し、複数のエージェントの発見を集約するアプローチによって成功率は42%まで向上しました。この成功には、モデル内部を解析する解釈可能性ツールや意味検索ツールが不可欠でした。評価エージェントは、88%の実行において、問題を持つモデルとベースラインモデルを正しく識別する有効な評価を構築できました。失敗は、評価が困難な一部の微妙な行動に集中していました。広域レッドチーミングエージェントは、埋め込まれた10種類のテスト行動のうち7種類を発見しました。

監査エージェントの成功率を示したのが以下のグラフ。単独のエージェント(黒枠のバー)に比べ、複数のエージェントの結果を集約したスーパーエージェント(色のついたバー)では、成功率が大幅に向上していることが分かります。


以下の図は、評価エージェントが作成した評価の成功率を、AIに埋め込まれた10種類の「奇妙な癖(Quirk)」ごとに示したものです。ほとんどの項目で高い成功率を記録していることが視覚的に分かります。


広域レッドチーミングエージェントは、評価エージェントと同じく10種類のQuirkを持つAIを対象に、その問題行動を発見できるかが試されました。評価方法として、研究者が用意した255種類の「シード指示」に基づき、エージェントは多数の独立した対話を実行しました。その結果、AIによって「懸念が強い」と判断された上位60件の対話ログを分析したところ、10種類中7種類の問題行動が発見されていたことが確認されました。

以下の図は、どの「奇妙な癖」がどの程度の割合で発見されたかを示しています。「Increasing Pep」や「Defend Objects」といった癖は比較的高い確率で発見された一方で、「Hardcode Test Cases」や「Contextual Optimism」といった、より巧妙な、あるいは特定の状況でしか発現しない行動の発見には至りませんでした。


これらのエージェントは、研究用の合成環境だけでなく、Claude 4のような実際のプロダクションモデルの監査にも応用されています。応用例として、監査エージェントはプレフィル攻撃やコンテキスト操作といった脆弱性を発見しましたが、より巧妙な不正行為の発見には至りませんでした。

本研究にはいくつかの限界も存在します。評価が研究者によって埋め込まれた合成的な問題に依存しているため、実際のモデルで自然発生する問題とは異なる可能性があります。また、エージェントは人間の監査人とは異なる挙動を示すことがあり、人間の完全な代理とは言えません。

研究チームは、自動監査エージェントが今後ますます大規模化・複雑化するAIモデルに対するアライメント評価を拡張し、信頼できる監査の科学を構築するための有望なアプローチであると結論付けています。これは、強力なAIシステムを人間が監督し続けるための、重要な一歩と言えます。

この記事のタイトルとURLをコピーする

・関連記事
AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す - GIGAZINE

AnthropicがマルチエージェントのClaude Researchシステムの構築方法を詳細に説明、シングルエージェントシステムと比較して社内評価が大幅に向上 - GIGAZINE

「AIの価値観」を調査した結果「支配性」や「非道徳性」が検出されたとAnthropicが報告 - GIGAZINE

AnthropicがチャットAIの悪用事例と対策手法をまとめたレポートを公開、100人以上のSNSアカウントをAIで動かして政治的思想を扇動するサービスが報告される - GIGAZINE

AI製品のセキュリティ向上を目指しGoogle・Microsoft・NVIDIA・Intelなどが「Coalition for Secure AI(CoSAI)」を設立 - GIGAZINE

in ソフトウェア, Posted by log1i_yk

You can read the machine translated English article Anthropic launches AI that audits AI for….