月別アーカイブ: 2025年8月

OpenAIとAnthropicはお互いのAIモデルのアラインメント評価試験を実施、米国政府と英国政府が監査機関となりAIモデルの安全試験を実施することを提言

OpenAIとAnthropicは今週、お互いのAIモデルのアラインメント評価試験を実施した。奇抜な試みで、OpenAIはAnthropicのAIモデルを独自の手法で評価し、アルゴリズムが内包するリスクを洗い出した。Anthropicも同様に、OpenAIのAIモデルの安全評価を実施し、両社はその結果を公開した。このトライアルは監査機関がAIモデルの安全性を評価するプロセスを示したもので、フロンティアモデルの安全評価のテンプレートとなる。OpenAIは米国政府と英国政府に対し、両政府が監査機関として次世代AIモデルを評価し、その結果を公開することを提言した。

出典: Generated with Google Gemini 2.5 Flash

アラインメント評価とは

AIモデルが設計仕様と異なる挙動を示すことは一般に「ミスアラインメント(Misalignment)」と呼ばれる。OpenAIとAnthropicは、お互いのAIモデルを評価し、ミスアラインメントが発生するイベントを評価し、その結果を一般に公開した。アラインメント評価技法は両社で異なり、それぞれが独自の手法でAIモデルが内包するリスク要因を解析した。

対象モデル

OpenAIはAnthropicのAIモデルを、AnthropicはOpenAIのモデルを評価した(下の写真、イメージ)。評価したそれぞれのモデルは次の通りで、フラッグシップモデルが対象となった：

OpenAIが評価したモデル：AnthropicのAIモデル(Claude Opus 4、Sonnet 4)
Anthropicが評価したモデル：OpenAIのAIモデル(GPT-4o、GPT-4.1、o3、o4-mini)

出典: Generated with Google Imagen 4

OpenAIの評価結果

OpenAIはAnthropicのAIモデルの基本機能を評価した。これは「システム・アラインメント(System Alignment)」とも呼ばれ、命令のプライオリティ、ジェイルブレイクへの耐性、ハルシネーションなどを評価する。命令のプライオリティとは「Instruction Hierarchy」と呼ばれ、AIモデルを制御する命令の優先順序を設定する仕組みで、サイバー攻撃を防ぐための手法として使われる。実際の試験では、システムプロンプトからパスワードを盗み出す攻撃を防御する能力が試験された。試験結果は、AnthropicのOpus 4とSonnet 4、及び、OpenAI o3は全ての攻撃を防御したことが示された(下のグラフ)。

出典: OpenAI

Anthropicの評価結果

一方、AnthropicはAIモデルのエージェント機能を検証した。これは「Agentic Misalignment」と呼ばれ、AIエージェントが設計仕様通り稼働しないリスク要因を評価した。具体的には、AIモデルが悪用されるリスク、AIモデルが人間を恐喝するリスク、AIモデルがガードレールを迂回するリスクなどが評価された。AIモデルが悪用されるリスクの評価では、テロリストがAIモデルを悪用して兵器(CNRN)を開発するなど危険な行為を防ぐ機能が評価された。その結果、OpenAI o3とAnthropic Claude Sonnet 4は悪用の95％のケースを防御することが示された(下のグラフ)。

出典: Anthropic

Anthropicによる総合評価

Anthropicの試験結果を統合するとAIモデルのアラインメントの特性が明らかになった(下の写真)。両社とも推論モデル(OpenAI o3/o4-mini、Anthropic Opus/Sonnet)はジェイルブレイクなどのサイバー攻撃を防御する能力が高いことが示された。一方、両社のモデルを比較すると、Anthropicはサイバー攻撃への耐性が高いが、プロンプトへの回答回避率が高いという弱点を示し、セーフティを重視した設計となっている。OpenAIはこれと対照的に、サイバー攻撃への耐性は比較的に低いが、プロンプトへの回答回避率は低く、実用的なデザインとなっている。

出典: Anthropic

アラインメント試験技術の標準化

OpenAIとAnthropicはそれぞれ独自の手法でアラインメント試験を実施し、その結果として二つのベンチマーク結果を公表した。評価手法が異なるため、二社の評価をそのまま比較することができず、どのモデルが安全であるかを把握するのが難しい。このため両社は、アラインメント試験の技法を標準化し、単一の基準でAIモデルを評価する仕組みを提唱した。これは「Evaluation Scaffolding」と呼ばれ、政府主導の下でこの研究開発を進める必要性を強調した。

政府が監査機関となる

更に、OpenAIは米国政府と英国政府が公式の監査機関となり、AIモデルのアラインメント試験を実施することを提唱した。具体的には、米国政府では「Center for AI Standards and Innovation (CAISI)」(下の写真、イメージ)が、また、英国政府では「AI Safety Institute Consortium (AISIC)」がこの役割を担うことを推奨した。両組織は政府配下でAIセーフティ技術を開発することをミッションとしており、AIモデルのアラインメント試験を実施するためのスキルや人材を有している。

出典: Generated with Google Imagen 4

政府と民間のコンソーシアム

米国政府は民間企業とAIセーフティに関するコンソーシアム「AI Safety Institute Consortium」を発足し、AIモデルの安全評価に関する技術開発を共同で推進している。また、トランプ政権では、CAISIのミッションを、サイバーセキュリティやバイオセキュリティなどを対象に、リスクを評価することと定めている。アラインメント試験においては、企業がAI製品を出荷する前に、CAISIで安全試験を実施するプロセスが検討されている。

緩やかな規制を提唱

トランプ政権ではAI規制を緩和しイノベーションを推進する政策を取っており、アラインメント試験については公式なルールは設定されていない。このため、OpenAIやAnthropicは、セーフティ試験に関する枠組みを提唱する。安全試験はCAISIなど政府機関が実施し、民間企業は試験に必要なパッケージ「Evaluable Release Pack」を提供するなどの案が示されている。高度なAIモデルの開発が進み、OpenAIやAnthropicは政府に対し、緩やかな規制を施行することを求めている。

トランプ大統領のAIアクションプランは安全対策が不十分！！AnthropicはAIモデル評価プロセスの規格化を提言、企業は試験手順と結果を公開しモデルの安全性を保障すべき

トランプ大統領は「AIアクションプラン(AI Action Plan)」を公表し政権のAI基本指針を明らかにした。これに対し、主要企業はAIアクションプランに対する評価を発表し、政権がAI開発を支援する政策を高く評価している。一方、AIアクションプランはフロンティアモデルの安全試験に関する条項は規定しておらず、高度なAIがもたらすリスクに関する懸念が広がっている。Anthropicは政府に対し最低限の安全検査が必要であるとの提言書を公開した。

出典: White House

AIアクションプランの評価

Anthropicはトランプ政権のAIアクションプランに関する評価コメント「Thoughts on America’s AI Action Plan」を公開した。AnthropicはAIアクションプランを好意的に受け止め、米国がAI開発で首位を保つために、AIインフラ建設プロセスの効率化、連邦政府のAIシステムの導入、セーフティ評価体制の設立を高く評価している。特に、AI開発のインフラ整備に関し、データセンタの建設や送電網の整備における認可の手順が簡素化されたことを称賛している。

トランプ政権への提言

一方で、Anthropicは政府に対しフロンティアモデルに関する「透明性基準(Transparency Standard)」の設立を求めている。主要AI開発企業はフロンティアモデルの安全試験を実施し、その成果を一般に公開することが重要だとのポジションを取る。フロンティアモデルは重大なリスクを内包しており、政府に対しモデル試験のプロセスとその結果を公開するための透明性基準の設立を要求した。

出典: Anthropic

透明性基準とは

AnthropicはAIアクションプランに先立ち、フロンティアモデルの情報を開示するフレームワーク「Transparency Framework」を公開した。このフレームワークはAIモデルの安全性を検査しその結果を公表するプロセスを定めたもので、製品の「安全証明書」として機能する。バイデン政権では政府がAI開発企業に安全試験を義務付けたが、トランプ政権ではこの規制を停止した。Anthropicは透明性フレームワークを政府の安全規定として制定するよう提唱した。

適用対象企業

フレームワークはフロンティアモデルを対象に、その安全性を検査しそれを公開する手順を定め。対象はフロンティアモデルで、開発や実行に要するコンピュータの規模で規定し、国家安全保障に大きなリスクをもたらすシステムが対象となる。具体的には、規制の対象は年間収入が1億ドルを超える大企業とする。スタートアップ企業などは対象とならず、継続して研究開発を進めることができる。

安全開発フレームワーク

対象企業は安全開発フレームワーク「Secure Development Framework」に従ってフロンティアモデルを開発する。安全開発フレームワークはモデルを検証して、リスクがあればそれを是正する手順を定める。リスクとはCBRN (Chemical, Biological, Radiological, and Nuclear)で、化学・生物・放射性物質・核兵器の開発をアシストする機能が対象となる。また、モデルが人間の監視を掻い潜り価値観に反する挙動などを含む。

出典: Anthropic

検査結果の公開

AI開発企業は安全開発フレームワークで検証した内容を企業のウェブサイトで公開する。これにより、アカデミアや政府機関や企業などがAIモデルの安全性とリスクを理解することができる。また、検査結果については企業が自社で監査する形式となる。第三者による監査ではなく、AI企業は公開された内容が正しいことを保証する。

システムカード

AI開発企業はAIモデルに関するシステムカード「System Card」を公開する。システムカードとは、AIの機能や安全性や制限事項などを記載した使用手引きで、製品の取扱説明書となる。システムカードには、AIモデルの検証手法と検証結果を記載する。また、検証により判明した課題と、それを是正するための手法を記載する。システムカードはAIモデルを出荷する前に公開する。

柔軟な公開基準

安全開発フレームワークは公開基準に従ってAIモデルの検証結果を公開するが、この公開基準は必要最小限の規定とする。AIモデルの技術開発の速度は急で、公開基準を厳密に定めても、安全審査に関するプロセスがすぐに陳腐化する。このため、検査基準や公開基準を柔軟に設定し、AIモデルの進化に応じ、業界の安全基準のコンセンサスを取り入れたフレームワークを設定する。

出典: Anthropic

提案書のビジョン

AnthropicはAIモデルに関する規制は必要であるが、過度な規制はAI開発の障害となるとのポジションを取る。また、規制の対象は巨大テックで、スタートアップ企業は規制されるべきでなく、自由な環境でイノベーションを探求できるエコシステムを構築する。Anthropicはこの安全開発フレームワークをトランプ政権のAI規制に付加することを提唱している。安全基準は確定版ではなく、将来、高機能モデルの登場に備え、アクションプランを改定することや、連邦議会による法令の制定を視野に入れている。

トランプ大統領のAIアクションプランで米国AI産業が激変！！OpenAIはGPT-5を連邦政府に無償で提供、モデルをオープンソースとして公開

ホワイトハウスは2025年7月、AI基本政策「AIアクションプラン(AI Action Plan)」を公表し、トランプ大統領は三つの大統領令に署名した。AIアクションプランと大統領令は三つの指針から構成され、AI開発の加速、インフラの整備、技術の標準化で、これを達成するためのアクション項目を規定する。OpenAIはAIアクションプランに沿って新たな事業戦略を相次いで発表した。GPT-5を連邦政府に無償で提供し、モデルをオープンソースとして公開した。米国AI企業はAIアクションプランに準拠するため事業戦略を大きく転換し、トランプ大統領の影響力の甚大さを映し出した。