カテゴリー別アーカイブ: OpenAI

Microsoftはデータセンタを連結し「AIスーパーファクトリ」を構築、このインフラでスーパーインテリジェンスを開発、OpenAIと提携関係を保ちながらAGI開発で競合する関係となる

Microsoftはジョージア州にギガワット・データセンタ(下の写真)を建設しておりその概要を明らかにした。この施設はウィスコンシン州のデータセンタと高速通信で連結され、巨大計算環境「AIスーパーファクトリ(AI Superfactory)」実現する。ここでAGIとフロンティアモデルを開発する。MicrosoftはOpenAIとの提携契約を更新し、これからはフリーハンドで先進モデルを開発する。Microsoftにとって大きな転機で、先端技術をOpenAIに依存することなく、自社で独自にスーパーインテリジェンスの開発を進める。

出典: Microsoft

AIスーパーファクトリとは

AIスーパーファクトリ(AI Superfactory)とは異なる州に建設されたデータセンタを高速ネットワークで連結し大規模計算環境を生み出す構想となる。Microsoftはジョージア州アトランタに最新のデータセンタを建設しており、これを高速ネットワーク「AI Wide Area Network (AI WAN)」でウィスコンシン州に建設しているデータセンタ(下の写真)と結合し、巨大データセンタを構築する。物理的に異なるデータセンタを統合し仮想の単一データセンタを生み出す。

出典: Microsoft

AIスーパーファクトリの目的

現行のデータセンタは膨大な数のアプリケーションを実行するために使われるが、AIスーパーファクトリは単一の巨大AIモデルを開発することをミッションとする。具体的には、AGIを含む次世代AIフロンティアモデルを開発するための計算機環境となる。現在は、AIフロンティアモデルの教育では開発期間が数か月に及ぶが、これを数週間に短縮する。現行のAIフロンティアモデルの規模は1T(パラメータの数が1兆)であるが、次世代モデルはこれが200Tから300Tに膨らみ、メガデータセンタが必要となる。このセンタはMicrosoftだけでなく、OpenAIが次世代モデルを開発するために提供される。

フェアウォータ・デザイン

Microsoftはジョージア州アトランタに建設しているデータセンタの概要を明らかにした。設計コンセプトは「フェアウォータ・デザイン(Fairwater Design)」と呼ばれ、Nvidiaの最新GPUサーバを高密度に配置することに加え、サーバのスペックの変更に対応できる柔軟な設計思想となっている。Microsoftはウィスコンシン州にデータセンタを建設しているが、これもフェアウォータ・デザインに準拠し、このコンセプトのセンタの数が増えつつある。

出典: Microsoft

データセンタの構造

フェアウォータ・デザインでは最新の高速チップやラックが使われる。アトランタ・フェアウォータは「NVIDIA GB200 NVL72」(上の写真)が採用され、数十万ユニットの「Blackwell GPUs」を連結する。また、データセンタは二階建ての構造で単位面積当たりの計算機密度を最大にする(下の写真)。更に、GPUサーバは液冷式で、データセンタの冷却設備で水を使う必要がなく、環境への負荷を最小にする設計となる。

出典: Microsoft

スーパーインテリジェンス部門設立

これに先立ち、Microsoftはスーパーインテリジェンスを開発するためのチーム「Microsoft AI Superintelligence Team(MAIST)」を設立した(下の写真)。このチームは「Humanist Superintelligence (HSI)」を開発することを目的とする。HISとは人間の知能を超えるスーパーインテリジェンスで、機能や性能に制限を設け、人間の価値に沿ったモデルを開発する。スーパーインテリジェンスを開発するためにAIスーパーファクトリが使われる。

出典: Microsoft

スーパーインテリジェンスの機能

Humanist Superintelligence (HSI)は人間の知能を上回るが、モデルを安全に制御するために、一定の枠組みの中で稼働させる。これによりHSIが独自に進化し暴走するのを抑止する。更に、HISは特定のタスクに特化したモデルで人間社会の問題を解決することを目的とする。その主要セグメントが「Medical Superintelligence」で、医療分野のスーパーインテリジェンスとして、高度な医療技術を実現する(下の写真)。また、「Energy Superintelligence」はエネルギー分野のスーパーインテリジェンスで、クリーンエネルギーの生成と貯蔵の研究を加速する。最終ゴールは核融合発電で、スーパーインテリジェンスがこの研究開発をサポートする。

出典: Microsoft

OpenAIとの契約

MicrosoftはOpenAIと提携しChatGPTなどフロンティアモデルを開発する環境を提供してきた。両社の契約によると、Microsoftは独自でAGIを開発することを制限され、OpenAIが主導的な地位を維持する構造となっていた。しかし、OpenAIの組織改編により新たな契約が締結されこの制約が解除された。Microsoftは独自にAGIやスーパーインテリジェンスを開発することができるようになった。このため、Microsoftは上述の「Microsoft AI Superintelligence Team」を立ち上げAGI・フロンティアモデルの開発に着手した。

協調と競合

両社の関係は新たな時代を迎え、Microsoftは継続してOpenAIに最新の計算機環境を提供しAGI開発をサポートする。また、MicrosoftはOpenAIのAIモデルをクラウド「Microsoft Azure」で独占的に提供する権利を維持する。一方、MicrosoftはAGI・フロンティアモデルを独自で開発するため、OpenAIと直接競合する関係となる。これからはMicrosoftとOpenAIは協調しながら競合するという複雑な関係となる。

出典: Microsoft

OpenAIはAGIを2028年3月に出荷!! AGIを研究エージェントとして実現、AGI開発のために30GWのデータセンタを建設し総工費は1.4兆ドル

OpenAIは10月29日、AGI開発に向けた企業の将来像を明らかにした(下の写真)。OpenAIは一般市民がAGIの恩恵を享受できるシステムを提供することをミッションとする。AGIは超人的なシステムではなく、OpenAIはこれをエージェントとして実現する。また、OpenAIはAGIを提供するプラットフォーム企業に転身する。開発者はこの基盤の上でAGIアプリケーションを開発する。AGIの開発と運用のために30ギガワットのデータセンタを建設し、総工費は1.4兆ドルとなる。

出典: OpenAI

AGIに関する理解と出荷時期

OpenAIはAGIの恩恵を万人が享受できる技術を提供することをミッションとする。AGIに関する共通の理解が確立されていない中、OpenAIはAGIをエージェントやツールとして提供し、そのメリットを可視化する開発戦略を取る。OpenAIはAI研究を自動化するモデル「Automated AI Research」の出荷時期を明らかにした。これは科学研究のエージェントで、ベータモデルと最終モデルのロードマップを公表した(下の写真)。これは、次世代モデル”GPT-6”を2026年9月に、”AGI”を2028年3月に出荷する、と解釈できる。

出典: OpenAI

プラットフォーム企業

OpenAIはChatGPT企業からAGIプラットフォーム企業に転身すること表明した。OpenAIはAGIプラットフォームのフルスタックを開発し(下の写真)、AIモデルだけでなくハードウェアの開発に着手する。具体的には、半導体、データセンタ、発電などハードウェアから、AIモデル(GPT-5)、ブラウザ(Atlas)、アプリケーション(ChatGPT)までを垂直統合する。キーポイントはユーザインタフェースで、OpenAIはAIブラウザ「ChatGPT Atlas」を投入し、また、スマホに代わるAIデバイスを開発している。これらがAGIを利用するポータルとなる。更に、提携企業はこのプラットフォームでアプリケーションを開発し広大なエコシステムを構築する。

出典: OpenAI

データセンタの建設

OpenAIは半導体やデータセンタなどハードウェア階層をパートナ企業と共同で開発する戦略を取る(下の写真)。半導体開発ではBroadcomと提携し独自のAIプロセッサを開発する。AIクラウドではMicrosoftとの関係を維持し、新規にOracleやGoogleと提携しリソースを利用する。これらに加え、OpenAIは独自のデータセンタを建設しており、ここでNvidiaやAMDのプロセッサを利用する。

出典: OpenAI

Project Stargate

OpenAIはデータセンタプロジェクト「Stargate」を起動し、テキサス州アビリーンに巨大な施設を建設している(下の写真)。第1期の工事が完了し、OpenAIはOracle Cloud経由で計算環境にアクセスする。この施設は建設中のサイトを含め1ギガワットの計算能力を持つ。テキサス州以外にも、ウィスコンシン州など全米5か所にメガセンタを建設する。

出典: OpenAI

データセンタの規模

OpenAIはAGIの開発と運用には膨大な計算量が発生し、そのために巨大なデータセンタを建設する(下の写真)。現時点で、OpenAIは30ギガワット超のデータセンタを建設する計画で、総コストは1.4兆ドルとなる。更に、長期ビジョンとして、建設したデータセンタを定常的に拡張し、そのペースは毎週1ギガワットの計算機を増設する。そのコストは1ギガワットあたり200億ドルを目指している。更に、データセンタの建設はロボットを使い、プロセスを自動化しスケーラビリティを上げる。

出典: OpenAI

1ギガワットのサイズ

データセンタの計算容量はプロセッサの消費電力ギガワットで表示される。1ギガワットのデータセンタとは、設置しているプロセッサや冷却装置の消費電力が1ギガワットとなる。新設のデータセンタはNvidiaの最新GPU「Blackwell」が使われる。製品としては「GB200 NVL72」ラックで、72個のGPUが搭載され、消費電力は120 kWとなる。1ギガワットの電力消費量は8,300ラックに相当し、GPUの数では60万個となる。 (下の写真、GB200 NVL72で構成するデータセンタ、32,000GPU構成。1ギガワットのデータセンタにはこのシステムが18ユニット設置される) 因みに、1ギガワットとはサンフランシスコ市の電力消費量に匹敵する。

出典: Nvidia

組織構造を改定

OpenAIはこれに先立ち組織再編を完了した。新組織は非営利団体「OpenAI Foundation」がパブリック・ベネフィット・コーポレーション「OpenAI Group」を統括する構造となる(下の写真)。パブリック・ベネフィット・コーポレーションは営利団体であるが、同時に、公益を実現するハイブリッドな構成となる。これにより、OpenAI Groupは資金を調達し、株式を公開し、事業を遂行することができる。一方、OpenAI FoundationはOpenAI Groupの26%を保有し、会社運営を統括する。OpenA FoundationはOpenAI GroupがAGIを安全に開発し運用するのを監視する役割を担う。また、OpenAI FoundationはヘルスケアとAI安全性に関し資源を拠出し、これらの研究推進を支援するとしている。

出典: OpenAI

AGIの応用分野

OpenAIはAGIをサイエンス研究エージェントとして実現し、科学技術開発を加速することを目指している。具体的には、新薬開発、ヘスケア、ロボティックス、核融合発電、個人に特化した教育、新素材開発などを対象とする。新薬開発ではガンの治療薬の開発などがターゲットで、20年かかる研究を2年に圧縮する。これにより、ここ数年で人間の寿命が75歳から150歳になると期待されている。

出典: OpenAI

データセンタ建設ラッシュ

OpenAIはAGIという用語の代わりに「AI研究自動化(Automated AI Research)」を使い、人間レベルの研究エージェントがAGIに匹敵すると説明する。更に、このエージェントが2028年3月にリリースされるとピンポイントでスケジュールを示した。このゴールを達成するためにはアルゴリズムのブレークスルーに加え、大規模なデータセンタが必要になる。AGIは思考時間を長くすることで高度なタスクを実行する。これは「Inference Computing」と呼ばれ、長時間にわたり思考することで機能が向上する。 (下のグラフ、現在、思考時間は5時間程度であるが、これが5日・5週間・5か月・5年に伸びる。) 思考時間が延びるにつれGPUの稼働時間が長くなり、大規模なデータセンタが必要となる。

出典: OpenAI

GPT-5はAGI完成度が58%、読み書き数学は人間に匹敵するが長期記憶・学習能力が決定的に劣る、AGI規制に向けた基礎研究が進む

大学の研究グループはAGIに関する科学的な定義を制定する試みを進めており、今週、その成果を公開した。この定義をOpenAI GPT-5に適用すると、モデルはAGIである要件の58%を満たし、人間の知能の半分程度を実現していることが判明した。GPT-5は言葉の理解や数学の問題を解く能力は人間レベルに到達したが、長期的な記憶や、新しいスキルを学ぶ能力はゼロで、AIモデルは機能が偏っていることが明らかになった。AGIは来年にも登場すると言われているが、現行モデルが人間レベルの知能を実現するには多くの課題を解決する必要があることが明瞭になった。

出典: Dan Hendrycks et al.

A Definition of AGI」とは

この研究は非営利団体「Center for AI Safety」を中心に、カリフォルニア大学バークレー校など全米の主要大学が共同で、AGIを定義しそれを測定する技術を開発した。これによるとAGIを「高等教育を受けた成人の知能レベル」と定義し、それを人間の知能特性と結び付けて評価した。この定義に基づき実際にAIモデルを評価したところ、OpenAI GPT-5は58%の、また、GPT-4は27%のAGI要件を満たすとしている。

AGIを構成する10の要件

研究グループは、AGIは10の要素で構成されると考える。AIモデルがAGIとなるためには、これら10の要件を満たす必要がある。これら10の要件は4つのグループに分類される(下の写真)。

出典: Dan Hendrycks et al.
  • グループ1:知識(Acquired Knowledge)
    • 汎用知識(General Knowledge):成人レベルの知識読み書き能力(Reading and Writing Ability):言語を理解し生成する能力
    • 数学能力(Mathematical Ability):数学に関する知識と解法能力
  • グループ2:思考回路(Central Executive)
  • 推論能力(On-the-Spot Reasoning):新たな問題を解く能力
  • ワーキングメモリ(Working Memory):問題解決時に記憶を維持する能力
  • 長期記憶(Long-Term Memory Storage):新情報を整理して記憶する能力
  • 長期記憶読み出し(Long-Term Memory Retrieval):長期記憶を読み出す能力
  • グループ3:知覚(Perception)
  • 視覚能力(Visual Processing):イメージを理解し、イメージを生成する能力
  • 聴覚能力(Auditory Processing):音声を認識、記憶、処理する能力
  • グループ4:出力(Output)
  • 処理速度(Speed):検索、比較、発言、筆記、読書などのスピード

AGIのシステム構造

AGIを構成する4つのグループと10の要素技術は連携して動作しインテリジェンスを構成する。研究グループはAGIのシステム構成とその内部構造を次のように考える(下の写真):

  1. AGIは入力された情報を「知覚(Perception)」で処理し、それらの意味を理解し、情報を凝縮(Attention)する。
  2. 「思考回路(Central Executive)」はこの情報を受け取り、推論などの処理を実行する。このプロセスで長期記憶を読み出し、また、処理結果を長期記憶に格納する。
  3. 「長期記憶(Long-Term Memory Storage)」には学習した知識が保存され、また、読み書き数学などの基本機能を持つ。
  4. 「出力(Output)」は処理された情報を言葉や音声などで出力する。
出典: Dan Hendrycks et al.

現行AIモデルの評価

研究グループはこの定義に基づき、現行のAIモデルを評価し、AGIの要件を満たす度合いを測定した(下のグラフ)。ベンチマークではOpenAI GPT-5(赤線)とGPT-4(青線)が使われた。GPT-5はGPT-4から格段に技術が進化しているが、AGIの要件の58%を満たし、人間のインテリジェンスへの道半ばであると評価した。AGIを構成する10要件については、項目ごとに性能が大きく異なり、現行AIモデルは偏った特性を持つ構造となる。

出典: Dan Hendrycks et al.

AIモデルの評価:長期記憶

GPT-5のAGI要件を評価すると「長期記憶(Long-Term Memory Storage)」の機能(下の写真)がゼロで、これがAGIとなるための最大のネックとなる。これは新しい情報を整理して記憶する能力と、処理しているタスクに関連する情報を記憶から引き出す能力となる。この代表が連想記憶(Associative Memory)で、独立した情報から、関連する他の情報を思い出す能力となる。この他に、意味のある記憶(Meaningful Memory)と逐語記憶(Verbatim Memory)から構成される。

出典: Dan Hendrycks et al.

AIモデルの評価:読み書き数学

一方で、GPT-5は言語を理解し生成する能力「読み書き能力(Reading and Writing Ability)」と数学に関する知識と解法能力「数学能力(Mathematical Ability)」(下の写真)は人間に匹敵すると評価され、この二つの構成要素についてはAGIの要件を満たす。数学能力は算術(Arithmetic)、代数(Algebra)、幾何学(Geometry)、確率論(Probability)、微積分(Calculus)で構成されるが、これらの分野で人間に匹敵するスキルを示した。

出典: Dan Hendrycks et al.

AGI規制の基礎データ

市場ではAGIの規制政策について議論が広がっている。AGIは人間レベルのインテリジェンスを持ち、科学技術が格段に進化すると期待されるが、その危険性について重大な懸念が示されている。AGIの規制法を準備するための最初のステップがAGIに関する理解で、業界で統一した定義を確立する必要がある。今回の研究成果はこれに向けた第一歩となり、これを契機に議論が深まると期待される。

OpenAIとAnthropicは米国政府と共同でフロンティアモデルの安全評価試験を実施、トランプ政権におけるAIセーフティ体制が整う

今週、OpenAIとAnthropicは相次いで、米国政府と共同でフロンティアモデルの安全試験を実施したことを公表した。また両社は、英国政府と連携し安全試験を実施したことを併せて公表した。トランプ政権は「AIアクションプラン」を公開し、AI技術開発を推進する政策を明らかにし、同時に、米国省庁にAIモデルを評価しリスクを明らかにすることを要請した。OpenAIとAnthropicは米国政府との共同試験で、評価技法やその結果を公開し、米国におけるAIセーフティフ体制のテンプレートを示した。

出典: Generated with Google Imagen 4

米国政府のAI評価体制

トランプ政権はAI開発を推進しリスクを評価する部門として「Center for AI Standards & Innovation (CAISI)」を設立した。これは国立標準技術研究所(NIST)配下の組織で、AIモデルのイノベーションを推進し、フロンティアモデルを評価することを主要な任務とする。CAISIはOpenAIとAnthropicと共同で安全評価プログラムを実施しその成果を公開した。バイデン政権では「AI Safety Institute (AISI)」がAIモデルの安全評価技術開発を推進してきたが、CAISIはこれを引き継ぎ、AI評価標準技術の開発と標準化を目指す。

安全評価の手法

CAISIの主要ミッションは、民間企業が開発しているフロンティアモデルの安全評価を実施し、そのリスクを査定することにある。OpenAIとAnthropicはこのプログラムで、CAISIが評価作業を実行するために、AIモデルへのアクセスを許諾し、また、評価で必要となるツールや内部資料を提供した。CAISIはこれに基づき評価作業を実施し、その結果を各社と共有した。実際に、CAISIの評価により新たなリスクが明らかになり、OpenAIとAnthropicはこれを修正する作業を実施した。

OpenAIの評価:AIエージェント

OpenAIのフロンティアモデルでは、「ChatGPT Agent」と「GPT-5」を対象に、評価が実施された。CAISIはこれらモデルのAIエージェント機能を評価しそのリスク評価を解析した。その結果、AIエージェントはハイジャックされるリスクがあり、遠隔で操作されるという問題が明らかになった。一方、英国政府はAIモデルの生物兵器製造に関するリスクを評価し、数多くの脆弱性を明らかにした。

Anthropicの評価:ジェイルブレイク

一方、Anthropicの評価ではフロンティアモデル「Claude」と安全ガードレール「Constitutional Classifiers」を対象とした。これらのモデルに対しRed-Teamingという手法でサイバー攻撃を実施し、その結果、汎用的なジェイルブレイク攻撃「Universal Jailbreaks」に対する脆弱性が明らかになった。Anthropicはこの結果を受けて、モデルのアーキテクチャを改変する大幅な修正を実施した。

出典: Generated with Google Imagen 4

安全試験のひな型

これらの安全評価はCAISIの最初の成果で、民間企業と共同で試験を実施するモデルが示された。AIアクションプランは米国政府機関に対しアクションアイテムを定めているが、民間企業を規定するものではない。OpenAIとAnthropicは自主的にこのプログラムに参加し安全試験を実施した。また、両社はフロンティアモデルを出荷する前に、また、出荷した後も継続的に安全試験を実施するとしており、この試みが米国政府におけるAIセーフティのテンプレートとなる。

評価技法の標準化

一方、安全評価におけるスコープは両者で異なり、フロンティアモデルの異なる側面を評価した形となった。OpenAIはフロンティアモデルのエージェント機能を評価し、Anthropicはジェイルブレイク攻撃への耐性を評価した。このため、二つのモデルの検証結果を比較することは難しく、統一した評価技法の設立が求めらる。CAISIのミッションの一つが評価技法の開発と国家安全保障に関連するリスク評価で、評価技術の確定と技術の標準化が次のステップとなる。

出典: Generated with Google Imagen 4

米国と英国のコラボレーション

OpenAIとAnthropicは英国政府「UK AISI」と提携して安全試験を実施しており、米英両国間でAIセーフティに関するコラボレーションが進んでいる。CAISIとUK AISIは政府レベルで評価科学「Evaluation Science」の開発を進めており、両国で共通の評価技術の確立を目指している。一方、欧州連合(EU)はAI規制違法「EU AI Act」を施行し、独自の安全評価基準を設定しており、米国・英国とEU間で安全性に関する基準が異なる。EUとの評価基準の互換性を確立することがCAISIの次のミッションとなる。

トランプ政権のセーフティ体制

これに先立ち、OpenAIは米国政府と英国政府が監査機関となり、AIモデルの安全評価試験を実施することを提唱している。米国政府ではCAISIが、また、英国政府ではUK AISICがこの役割を担うことを推奨した。今回の試みはこの提言に沿ったもので、米国と英国でAIモデル評価のフレームワークが整いつつある。バイデン政権では政府主導でセーフティ体制が制定されたが、トランプ政権では政府と民間が協調してこの枠組みを構築するアプローチとなる。

OpenAIとAnthropicはお互いのAIモデルのアラインメント評価試験を実施、米国政府と英国政府が監査機関となりAIモデルの安全試験を実施することを提言

OpenAIとAnthropicは今週、お互いのAIモデルのアラインメント評価試験を実施した。奇抜な試みで、OpenAIはAnthropicのAIモデルを独自の手法で評価し、アルゴリズムが内包するリスクを洗い出した。Anthropicも同様に、OpenAIのAIモデルの安全評価を実施し、両社はその結果を公開した。このトライアルは監査機関がAIモデルの安全性を評価するプロセスを示したもので、フロンティアモデルの安全評価のテンプレートとなる。OpenAIは米国政府と英国政府に対し、両政府が監査機関として次世代AIモデルを評価し、その結果を公開することを提言した。

出典: Generated with Google Gemini 2.5 Flash

アラインメント評価とは

AIモデルが設計仕様と異なる挙動を示すことは一般に「ミスアラインメント(Misalignment)」と呼ばれる。OpenAIとAnthropicは、お互いのAIモデルを評価し、ミスアラインメントが発生するイベントを評価し、その結果を一般に公開した。アラインメント評価技法は両社で異なり、それぞれが独自の手法でAIモデルが内包するリスク要因を解析した。

対象モデル

OpenAIはAnthropicのAIモデルを、AnthropicはOpenAIのモデルを評価した(下の写真、イメージ)。評価したそれぞれのモデルは次の通りで、フラッグシップモデルが対象となった:

  • OpenAIが評価したモデル:AnthropicのAIモデル(Claude Opus 4、Sonnet 4)
  • Anthropicが評価したモデル:OpenAIのAIモデル(GPT-4o、GPT-4.1、o3、o4-mini)
出典: Generated with Google Imagen 4

OpenAIの評価結果

OpenAIはAnthropicのAIモデルの基本機能を評価した。これは「システム・アラインメント(System Alignment)」とも呼ばれ、命令のプライオリティ、ジェイルブレイクへの耐性、ハルシネーションなどを評価する。命令のプライオリティとは「Instruction Hierarchy」と呼ばれ、AIモデルを制御する命令の優先順序を設定する仕組みで、サイバー攻撃を防ぐための手法として使われる。実際の試験では、システムプロンプトからパスワードを盗み出す攻撃を防御する能力が試験された。試験結果は、AnthropicのOpus 4とSonnet 4、及び、OpenAI o3は全ての攻撃を防御したことが示された(下のグラフ)。

出典: OpenAI

Anthropicの評価結果

一方、AnthropicはAIモデルのエージェント機能を検証した。これは「Agentic Misalignment」と呼ばれ、AIエージェントが設計仕様通り稼働しないリスク要因を評価した。具体的には、AIモデルが悪用されるリスク、AIモデルが人間を恐喝するリスク、AIモデルがガードレールを迂回するリスクなどが評価された。AIモデルが悪用されるリスクの評価では、テロリストがAIモデルを悪用して兵器(CNRN)を開発するなど危険な行為を防ぐ機能が評価された。その結果、OpenAI o3とAnthropic Claude Sonnet 4は悪用の95%のケースを防御することが示された(下のグラフ)。

出典: Anthropic

Anthropicによる総合評価

Anthropicの試験結果を統合するとAIモデルのアラインメントの特性が明らかになった(下の写真)。両社とも推論モデル(OpenAI o3/o4-mini、Anthropic Opus/Sonnet)はジェイルブレイクなどのサイバー攻撃を防御する能力が高いことが示された。一方、両社のモデルを比較すると、Anthropicはサイバー攻撃への耐性が高いが、プロンプトへの回答回避率が高いという弱点を示し、セーフティを重視した設計となっている。OpenAIはこれと対照的に、サイバー攻撃への耐性は比較的に低いが、プロンプトへの回答回避率は低く、実用的なデザインとなっている。

出典: Anthropic

アラインメント試験技術の標準化

OpenAIとAnthropicはそれぞれ独自の手法でアラインメント試験を実施し、その結果として二つのベンチマーク結果を公表した。評価手法が異なるため、二社の評価をそのまま比較することができず、どのモデルが安全であるかを把握するのが難しい。このため両社は、アラインメント試験の技法を標準化し、単一の基準でAIモデルを評価する仕組みを提唱した。これは「Evaluation Scaffolding」と呼ばれ、政府主導の下でこの研究開発を進める必要性を強調した。

政府が監査機関となる

更に、OpenAIは米国政府と英国政府が公式の監査機関となり、AIモデルのアラインメント試験を実施することを提唱した。具体的には、米国政府では「Center for AI Standards and Innovation (CAISI)」(下の写真、イメージ)が、また、英国政府では「AI Safety Institute Consortium (AISIC)」がこの役割を担うことを推奨した。両組織は政府配下でAIセーフティ技術を開発することをミッションとしており、AIモデルのアラインメント試験を実施するためのスキルや人材を有している。

出典: Generated with Google Imagen 4

政府と民間のコンソーシアム

米国政府は民間企業とAIセーフティに関するコンソーシアム「AI Safety Institute Consortium」を発足し、AIモデルの安全評価に関する技術開発を共同で推進している。また、トランプ政権では、CAISIのミッションを、サイバーセキュリティやバイオセキュリティなどを対象に、リスクを評価することと定めている。アラインメント試験においては、企業がAI製品を出荷する前に、CAISIで安全試験を実施するプロセスが検討されている。

緩やかな規制を提唱

トランプ政権ではAI規制を緩和しイノベーションを推進する政策を取っており、アラインメント試験については公式なルールは設定されていない。このため、OpenAIやAnthropicは、セーフティ試験に関する枠組みを提唱する。安全試験はCAISIなど政府機関が実施し、民間企業は試験に必要なパッケージ「Evaluable Release Pack」を提供するなどの案が示されている。高度なAIモデルの開発が進み、OpenAIやAnthropicは政府に対し、緩やかな規制を施行することを求めている。