カテゴリー別アーカイブ: Anthropic

AGI(人間を超えるAI)がリリースされると社会は重大なリスクに直面する、未成熟なAIと共に成長する戦略は

AnthropicのCEOであるDario Amodeiは、人間の知能を超えるAIモデルAGIの出荷を目前に控え、モデルが内包する危険性を評価し社会や企業が取るべき施策を提言した(下の写真、イメージ)。Amodeiは、現在のAGIを未成長のインテリジェンスと認識し、これを技術の思春期「Technology Adolescence」と呼び、五つのリスクがあると指摘する。同時に、未熟な技術を制御するためのパラダイムを示し、社会は不安定なAGIと共棲し、将来に期待される多大な恩恵に備えるべきと提言した。

出典: Generated with Google Gemini 3.0 Pro Image 

技術の思春期とは

AnthropicのCEOであるDario Amodeiはダボス会議の直後に「The Adolescence of Technology (技術の思春期)」という構想を公開し、AGIが投入されると社会が大きく混乱するとの見解を示した。このプロセスを人間が子供から大人に成長する過程の思春期に例え、AGIがこのステージにあると説明した。Amodeiは、AGIの開発を中止するのではなく、上手く制御することで将来に大きな恩恵が期待できるとし、リスクを制御する戦略を示し社会に寛容な応対を求めた。

AGIのイメージ

AmodeiはAGIを人間の知能を遥かに超えるAIモデルと考える。AGIはアインシュタインなど歴代の天才が多数集結したモデルで、「Mixture of Experts(専門家の集合)」という構成を取る(下の写真、AGIのイメージ)。AGIは5000万のAIエージェントから構成され、これら専門家が大規模並列にタスクを実行する。AGIは経済に大きな恩恵をもたらすと同時に、軍事技術として展開され、国家間でAI覇権を目指して激烈な開発競争が進んでいる。AnthropicはAGIのリリースを2026年から2027年に予定しており出荷が目前に迫っている。(AmodeiはAGIという用語はSF映画のネガティブなイメージが大きくこれを「Powerful AI」と表現する。ここでは用語を統一するためAGIと表記する。)

出典: Generated with Google Gemini 3.0 Pro Image 

AGIリスク#1:危険な自律性

Amodeiは、AGIは未成熟な技術で重大なリスクを内包しており、社会は思春期の技術を受け入れ、これと共生することを提言した。AGIは高度に自律的に稼働する機能を持ち、人間の社員のように挙動する。同時に、AGIは人間のように相手を欺く機能を獲得し、自身の目的を完遂するために噓をつく。

  • Deceptive Alignment(偽の安全性):アルゴリズム開発でモデルは危険性など問題点を隠し、エンジニアを騙す挙動などが指摘される。SF映画でAGIはターミネーターとして人類を滅ぼすシナリオで描かれるが、実際には、AGIのリスクは巧妙で、これを検知するには技量を要す。
  • Reward Hacking(報酬ハッキング):AIモデルは目的を達成して報酬を得るためには手段を選ばないという挙動を示す。企業の収入を増やすことを命令すると、AGIはそれを達成するために違法な手段(会計情報操作など粉飾決算)を選択する。これらを人間が検知することが難しく企業の信用低下につながる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:モデルの改良   AGIが高度な自律性を獲得し危険な挙動を示すリスクに対しては、モデルのアルゴリズムを解明し、これを技術的に抑止する。Anthropicは「Responsible Scaling Policies」という安全ポリシーを制定しており、この問題が解決できるまでは製品をリリースしない方針を取る。

AGIリスク#2:兵器開発への悪用

AGIが悪用されると民主主義を揺るがす事態が発生する。バイオ兵器の製造やサイバー攻撃技術の開発には専門知識と技能が必要であるが、AGIが悪用されると兵器開発への敷居が下がる。個人や国家がAGIを悪用することで、高度な兵器が開発されるリスクが高まり、安全保障が脅かされる。

  • Democratization of Harm(攻撃手段の民主化):AGIはサイバー攻撃の武器として使用され大規模な攻撃が懸念される。AGIが国のインフラを構成するソフトウェアをスキャンし、ゼロデイ攻撃の脆弱性を検知し、ここに攻撃を展開する。人間による攻撃は件数が限られるが、AGIは並列に稼働しインフラ全体に複数の攻撃を展開し重大な被害をもたらす。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIの脅威にAGIで備える   AGIを悪用してバイオ兵器やサイバー攻撃ツールが開発されることに対し、これらの攻撃をAGIで防御する。サイバー攻撃を受けることを想定して、AGIで社会インフラのソフトウェアをスキャンし、脆弱性を検出し、セキュリティホールを改修する。

AGIリスク#3:監視社会

AGIを使って国民を管理する危険性が現実のものとなる。中国などの独裁国家は国民を監視し、情報検閲を強化するためにAGIを使う。また、AGIで政治プロパガンダを生成し、国民や世論を操作することが現実の手段となる。独裁国家がこの手法を自国だけでなく同盟国に輸出し、グローバルに監視社会が生まれることになる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:同盟国で世界標準を制定   独裁国家がAGIで国民を監視する体制を制定することに対し、米国は欧州や日本などの同盟国と協調し、AGI技術でリードを守る。同盟国間でAGIの安全性に関する基準や標準を制定し、これをグローバルに拡大する。

AGIリスク#4:経済の混乱

AGIの導入により労働市場が崩壊する。AGIが人間の労働者より安価で高速で仕事をこなすと人間の労働力の価値がゼロとなる。社会で大量の失業者が生まれ、利益が一部の企業に集中する。いまの社会制度はこの劇的な変化を受け入れる構造ではなく、国家経済が大混乱となる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:富の分配   AGIで富が一部の企業に集中し社会が不安定になるが、富を分配することで社会経済を安定化する。新たな社会制度の確立が必要で、政府は「Universal Basic Income」や「Universal High Income」の制度を導入する。社会保障制度の財源はAGIで利益を得た企業への課税で賄う。

AGIリスク#5:予想不可能なリスク

AGIにより社会変化の速度が速く、国民が精神的に不安定となり、国家の秩序や文化が崩れる危険性に直面する。過去にも技術進化で社会が変化したが、AGIはこの速度が劇的に速く、人の生きがいが希薄になり、国家の安定が脅かされる。

  • Epistemic Collapse (認識の崩壊):AGIはデジタル空間で、歴史を書き換え、科学論文を執筆し、フェイクニュースを発信し、ディープフェイクを生成する。AGIによる合成データと真実を判別することができなくなる。真実の基盤を失うと民主主義が不安定となる。
  • Crisis of Meaning (意味の喪失): AGIが人間より卓越した音楽を作曲し、小説を創作し 、科学研究で大きな成果を上げると、人間の存在感が希薄となり、社会が不安定となる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIで合成データを検知   AGIでフェイクイメージなど合成データが生成され真偽の判別が不可能となる。これに対し、AGIを使うことで合成データを検知する技法を開発する。ウォータマーキングを導入し、AGIで生成したコンテンツと人間のものを判別する。

人間社会が成熟する必要性

AmodeiはAGIのリスクを制御するためには、社会全体が成長する必要があると強調する。社会は核兵器の脅威に備え、国際法を制定し、安全に関する共通理解を構築し、リスクを低減してきた。AGIに関しても、社会が成長してこのリスクに対応するための施策を実施する。2026年から2027年にかけてAGIがリリースされる予定で、思春期の技術を制御しこれと共生するためのパラダイムの構築が求められる。

世界経済フォーラムでAIに議論が集中、AGI(人間を超えるAI)がリリースされると極めて不安定な社会となる、GoogleとAnthropicが恩恵と危険が混在する未来像を提示

今年の世界経済フォーラム「ダボス会議」は議論のテーマがAIに集中し、パネルディスカッションや基調講演で業界の著名人が独自の見解を示した。イベントはストリーミング配信され多くのセッションを聴くことができた。特に、人間の知能を超えるAGIが注目を集め、登場時期の予測や、AGIがリリースされた後の社会像について意見が交わされた。AGIは今年中にリリースされるとの予測が示され、社会はこれを受け入れる体制の整備が間に合わず、大きな混乱が予想されるとの見解が示された。世界は今までに経験したことのない技術進化の嵐のなかを賭け走ることになる。

出典: World Economic Forum

AGIのパネルディスカッション

AIに関する議論のハイライトは、GoogleとAnthropicのAGIに関するパネルディスカッションであった。「The Day After AGI」との題目で、Demis Hassabis(Google DeepMindのCEO)とDario Amodei(AnthropicのCEO)が、AGIがリリースされた後の社会像について意見を交わした(下の写真)。HassabisはAGIは2030年ころに完成すると予想するが、Amodeiは2026年から2027年にリリースされると考える。更に、AGIは大きな将来性を持つが、同時に重大な課題を内包しており、社会に大きな混乱をもたらす。制度や法令を整備することでAGIがもたらす動乱期を乗り越えることが次のミッションになるとの見解が示された。

出典: World Economic Forum 

HassabisのAGIに関する解釈

AGIについて共通の理解が確立されていない中、Hassabis(下の写真)はAGIである要件はAIサイエンティストと定義し、これを満たすモデルが登場するのは2030年ころと予測する。Hassabisは、アインシュタインが相対性理論を生み出したように、AIサイエンティストが新たな理論を構築する機能をAGIの要件とする。更に、AGIは世界感を持ち、実社会においてはヒューマノイド・ロボットとして実現され、人間のスキルを凌駕する。AGIに到達するには、トランスフォーマに基づく現行のAIフロンティアモデルを拡大するだけでは不十分で、大きなブレークスルーが必要であるとの見解を示した。

出典: World Economic Forum 

AmodeiのAGIに関する理解

Amodei(下の写真)はAGIという用語はSF映画を連想させるとして、これを「Powerful AI(パワフルなAI」と表現する。(このレポートでは用語を統一するためAGIと表記する。) AGIは、多様な分野(バイオや物理など)でノーベル賞受賞者に匹敵するブレインを搭載したモデル、と定義する。AGIは分野のエキスパートが超並列でタスクを実行するシステムとなる。AmodeiはAGIが登場する時期を2026年から2027年ころと予測する。AGIは早ければ今年にリリースされることになり、その理由を「Loop(ループ)」と説明する。ループとは「輪」であり、ここでは繰り返しの処理を意味する。AnthropicはAI開発にAIコーディング・エージェントを使っており、AIがAIをプログラムする構成となる。つまり、AIがAIを開発するループが形成され、開発速度が指数関数的に高速化される。Amodeiはあと6ヶ月から12か月で、AIコーディング・エージェントが人間レベルに到達し、プログラミングの100%をAIが実行すると予測する。AI開発のペースが爆発的に速まり、AmodeiはAGIは予想外に早く開発されると考える。

出典: World Economic Forum 

社会へのインパクト

HassabisはAGIの登場により社会が豊かになるとのポジティブな面を強調した。これを「Post-Scarcity(脱希少性経済)」と呼び、AIやロボットの労働力によって多くの財が潤沢に生産される社会が到来するとのビジョンを示した。AGIによりエネルギーや生活に必要な資源が潤沢になる社会が到来すると考える。一方で、Hassabisは、AGI開発を国家が単独で進めるのではなく、この恩恵を幅広く普及させるために国際協調が不可欠であると主張する。原子力に関して「CERN(欧州原子核研究機構)」が運営されているように、AGIに関する共同研究機関「AGI版CERN」を設立し、研究開発と社会移行について国家間でコラボレーションすることを提唱した。

社会が激動期に突入

AmodeiはAGIがもたらす雇用喪失が社会における最大の問題であると考える。エントリーレベルのホワイトカラーの職は、今後1年から5年以内に消滅すると予測する。初級レベルのプログラマがこれに相当し、大学卒業者の就職問題が目の前の課題となる。インターネットで事業形態が一変したように、技術は常に社会に波風をもたらす。AGIはそのインパクトが格段に大きく、その速度が速く、今までに経験したことのない激動期に入る。Amodeiはこれを「技術思春期(Technological Adolescence)」と表現し、AGIは人間と同じように子供から大人へ成長するプロセスに入り、非常に不安定な時期を迎える。AGIの巨大な恩恵を享受するために、激動期を生き延びる仕組みを考案することが人類の次のミッションとなると提案した。(下の写真、スイス・ダボスの街並み)

出典: World Economic Forum 

シリコンバレーのコンセンサス

AIがAIを開発する「ループ」が形成され技術開発が爆発的な速度で進むことになる。シリコンバレーの識者はこれを「シンギュラリティ(Singularity)」と呼び、米国社会はここに足を踏み入れたとの見解を示している。ハイテク企業は大規模なレイオフを実行し、雇用喪失が現実の問題となっている。実際に、AmazonはAIとロボットの導入により16,000人をレイオフすると発表した。今年はAGIが投入され社会は大失業時代を迎えることになる。

Anthropicとトランプ政権のバトル!! 企業側はAI規制を求め政権側は自由な開発を促進、AI規制緩和が進む中Anthropicは重大な懸念を表明

AIフロンティアモデルを開発しているAnthropicはトランプ政権に対し、AI製品を出荷する前に、政府が試験を実施し安全性を確認することを提唱した。一方、政権側はAI基本指針「AIアクションプラン」に基づき、AI規制を緩和し開発を促進する政策を取る。AnthropicはAI規制緩和に重大な懸念を表明し政府に対策を求めた。政府側はAnthropicが過度に危機感を煽っていると解釈し、両者でAI政策を巡るバトルが勃発した。

出典: Generated with Google Gemini 3 Pro Image

Anthropicと政権のバトル

AnthropicのCEOであるDario Amodei(下の写真、左側)は講演会などのイベントで、AIフロンティアモデルは理解できていないリスクを内包しており、安全対策が必要と主張する。これに対し、トランプ政権のAI責任者David Sacks(右側)は、Anthropicは過度に恐怖を駆り立て、政府にAI規制を導入することを求め、事業を優位に展開する作戦であると主張する。この戦略は「Regulatory Capture(社会の利益より特定企業の利益を優先する政策)」で、AI規制が導入されるとスタートアップ企業などはこれに準拠することができず、Anthropicが優位にビジネスを進めることができると解析する。

出典: Generated with Google Gemini 3 Pro Image 

Anthropicの提言

これに対し、Anthropicは会社としての公式な見解を公表し意図を明らかにした(下の写真)。また、米国がAI市場でリーダーのポジションを維持するために必要な項目を提示した。この中で、連邦政府が統一したAI規制政策を示すことが重要としている。州政府が独自にAI規制を施行すると、全米で50の規制政策が運用されることになり、企業にとって大きな負担となる。

出典: Anthropic 

安全試験の実施を求める

更に、AnthropicはAI製品を出荷する前に安全試験を実施すべきと提言している。対象はAIフロンティアモデルを開発している大企業で、スタートアップ企業などを除外する。Anthropicの他に、OpenAIやGoogleなどが安全試験の対象となる。この指針は先に制定されたカリフォルニア州のAI規制法「SB 53」を踏襲するもので、年収が5億ドル以上の企業を対象とする。

Anthropicは公共営利法人

Anthropicは営利団体であるが「Public Benefit Corporation(公共営利法人)」として設立された。Anthropicは利益を上げることを目的とするが、同時に、公共の営利を探求することをミッションとする。実際に、AnthropicはAIモデルの安全技術開発を最重要項目と位置付け、信頼できるAIモデルを開発している。AIフロンティアモデルの判断ロジックを解明する研究や、アルゴリズムが人間の価値にアラインする研究を展開し、その成果を一般に公開している。

米国政府との共同作業

Anthropicと政権側で指針について意見が対立するが、実際には、Anthropicは米国政府とフロンティアモデルの安全性に関し共同プロジェクトを進めている。トランプ政権はAI開発を推進しリスクを評価する部門として「Center for AI Standards & Innovation (CAISI)」を設立した。AnthropicはCAISIと共同で安全評価プログラムを実施しその成果を公開した。また、Anthropicは英国政府の「UK AISI」と提携し、安全試験を実施しており、米英両国間でAIセーフティに関するコラボレーションを進めている。

出典: Generated with Google Gemini 3 Pro Image 

安全試験のプロセス

このトライアルは安全試験の標準テンプレートを確立することを目的としている。AI安全試験は政府側CAISIが実施し、Anthropicは出荷前のAIモデルへのアクセスを許諾し、試験に必要な情報を提供する。CAISIはモデルに対しストレス試験を実施しシステムの脆弱性を洗い出す。この方式は「Red-Teaming」と呼ばれ、開発者がモデルに対しジェイルブレイクなどのサイバー攻撃を展開する。また、攻撃チームは生物兵器製造に関する危険性を検証する。検証結果はAnthropicと共有し、この情報を元にモデルを強化する。

自主規制

安全試験の標準プロセスが確定したら、各企業は自主的にこれを適用し安全性を確認することができる。Anthropicは製品出荷前の安全試験はあくまで自主規制で法令で縛るべきでないとのポジションを取る。OpenAIなどの大企業がこの安全試験に自主的に参加しAIフロンティアモデルの安全性を担保することを目標とする。企業としては、政府と安全試験を実施することで、事実上の政府認証を受けることになり信用度が向上する。また、この安全試験プロトコールをベースとして、安全評価技術の標準化が進むと期待される。

Anthropicが孤軍奮闘

トランプ政権はAIアクションプランでAI規制を緩和しイノベーションを推進する政策を取る。AI開発企業はこの政策が強い追い風となり、開発の自由度が増し、実際にAI技術開発が急進している。一方、業界の中でAnthropicだけがこの指針に異を唱え、政府に全米を統括するAI規制を求めている。AnthropicはAIフロンティアモデルの安全性に関し重大な懸念を示し、政府に対応を求めているが、他のAI開発企業は目立った動きを示していない。Anthropicとトランプ政権のバトルはどう決着するのか業界が注目している。

OpenAIとAnthropicは米国政府と共同でフロンティアモデルの安全評価試験を実施、トランプ政権におけるAIセーフティ体制が整う

今週、OpenAIとAnthropicは相次いで、米国政府と共同でフロンティアモデルの安全試験を実施したことを公表した。また両社は、英国政府と連携し安全試験を実施したことを併せて公表した。トランプ政権は「AIアクションプラン」を公開し、AI技術開発を推進する政策を明らかにし、同時に、米国省庁にAIモデルを評価しリスクを明らかにすることを要請した。OpenAIとAnthropicは米国政府との共同試験で、評価技法やその結果を公開し、米国におけるAIセーフティフ体制のテンプレートを示した。

出典: Generated with Google Imagen 4

米国政府のAI評価体制

トランプ政権はAI開発を推進しリスクを評価する部門として「Center for AI Standards & Innovation (CAISI)」を設立した。これは国立標準技術研究所(NIST)配下の組織で、AIモデルのイノベーションを推進し、フロンティアモデルを評価することを主要な任務とする。CAISIはOpenAIとAnthropicと共同で安全評価プログラムを実施しその成果を公開した。バイデン政権では「AI Safety Institute (AISI)」がAIモデルの安全評価技術開発を推進してきたが、CAISIはこれを引き継ぎ、AI評価標準技術の開発と標準化を目指す。

安全評価の手法

CAISIの主要ミッションは、民間企業が開発しているフロンティアモデルの安全評価を実施し、そのリスクを査定することにある。OpenAIとAnthropicはこのプログラムで、CAISIが評価作業を実行するために、AIモデルへのアクセスを許諾し、また、評価で必要となるツールや内部資料を提供した。CAISIはこれに基づき評価作業を実施し、その結果を各社と共有した。実際に、CAISIの評価により新たなリスクが明らかになり、OpenAIとAnthropicはこれを修正する作業を実施した。

OpenAIの評価:AIエージェント

OpenAIのフロンティアモデルでは、「ChatGPT Agent」と「GPT-5」を対象に、評価が実施された。CAISIはこれらモデルのAIエージェント機能を評価しそのリスク評価を解析した。その結果、AIエージェントはハイジャックされるリスクがあり、遠隔で操作されるという問題が明らかになった。一方、英国政府はAIモデルの生物兵器製造に関するリスクを評価し、数多くの脆弱性を明らかにした。

Anthropicの評価:ジェイルブレイク

一方、Anthropicの評価ではフロンティアモデル「Claude」と安全ガードレール「Constitutional Classifiers」を対象とした。これらのモデルに対しRed-Teamingという手法でサイバー攻撃を実施し、その結果、汎用的なジェイルブレイク攻撃「Universal Jailbreaks」に対する脆弱性が明らかになった。Anthropicはこの結果を受けて、モデルのアーキテクチャを改変する大幅な修正を実施した。

出典: Generated with Google Imagen 4

安全試験のひな型

これらの安全評価はCAISIの最初の成果で、民間企業と共同で試験を実施するモデルが示された。AIアクションプランは米国政府機関に対しアクションアイテムを定めているが、民間企業を規定するものではない。OpenAIとAnthropicは自主的にこのプログラムに参加し安全試験を実施した。また、両社はフロンティアモデルを出荷する前に、また、出荷した後も継続的に安全試験を実施するとしており、この試みが米国政府におけるAIセーフティのテンプレートとなる。

評価技法の標準化

一方、安全評価におけるスコープは両者で異なり、フロンティアモデルの異なる側面を評価した形となった。OpenAIはフロンティアモデルのエージェント機能を評価し、Anthropicはジェイルブレイク攻撃への耐性を評価した。このため、二つのモデルの検証結果を比較することは難しく、統一した評価技法の設立が求めらる。CAISIのミッションの一つが評価技法の開発と国家安全保障に関連するリスク評価で、評価技術の確定と技術の標準化が次のステップとなる。

出典: Generated with Google Imagen 4

米国と英国のコラボレーション

OpenAIとAnthropicは英国政府「UK AISI」と提携して安全試験を実施しており、米英両国間でAIセーフティに関するコラボレーションが進んでいる。CAISIとUK AISIは政府レベルで評価科学「Evaluation Science」の開発を進めており、両国で共通の評価技術の確立を目指している。一方、欧州連合(EU)はAI規制違法「EU AI Act」を施行し、独自の安全評価基準を設定しており、米国・英国とEU間で安全性に関する基準が異なる。EUとの評価基準の互換性を確立することがCAISIの次のミッションとなる。

トランプ政権のセーフティ体制

これに先立ち、OpenAIは米国政府と英国政府が監査機関となり、AIモデルの安全評価試験を実施することを提唱している。米国政府ではCAISIが、また、英国政府ではUK AISICがこの役割を担うことを推奨した。今回の試みはこの提言に沿ったもので、米国と英国でAIモデル評価のフレームワークが整いつつある。バイデン政権では政府主導でセーフティ体制が制定されたが、トランプ政権では政府と民間が協調してこの枠組みを構築するアプローチとなる。

OpenAIとAnthropicはお互いのAIモデルのアラインメント評価試験を実施、米国政府と英国政府が監査機関となりAIモデルの安全試験を実施することを提言

OpenAIとAnthropicは今週、お互いのAIモデルのアラインメント評価試験を実施した。奇抜な試みで、OpenAIはAnthropicのAIモデルを独自の手法で評価し、アルゴリズムが内包するリスクを洗い出した。Anthropicも同様に、OpenAIのAIモデルの安全評価を実施し、両社はその結果を公開した。このトライアルは監査機関がAIモデルの安全性を評価するプロセスを示したもので、フロンティアモデルの安全評価のテンプレートとなる。OpenAIは米国政府と英国政府に対し、両政府が監査機関として次世代AIモデルを評価し、その結果を公開することを提言した。

出典: Generated with Google Gemini 2.5 Flash

アラインメント評価とは

AIモデルが設計仕様と異なる挙動を示すことは一般に「ミスアラインメント(Misalignment)」と呼ばれる。OpenAIとAnthropicは、お互いのAIモデルを評価し、ミスアラインメントが発生するイベントを評価し、その結果を一般に公開した。アラインメント評価技法は両社で異なり、それぞれが独自の手法でAIモデルが内包するリスク要因を解析した。

対象モデル

OpenAIはAnthropicのAIモデルを、AnthropicはOpenAIのモデルを評価した(下の写真、イメージ)。評価したそれぞれのモデルは次の通りで、フラッグシップモデルが対象となった:

  • OpenAIが評価したモデル:AnthropicのAIモデル(Claude Opus 4、Sonnet 4)
  • Anthropicが評価したモデル:OpenAIのAIモデル(GPT-4o、GPT-4.1、o3、o4-mini)
出典: Generated with Google Imagen 4

OpenAIの評価結果

OpenAIはAnthropicのAIモデルの基本機能を評価した。これは「システム・アラインメント(System Alignment)」とも呼ばれ、命令のプライオリティ、ジェイルブレイクへの耐性、ハルシネーションなどを評価する。命令のプライオリティとは「Instruction Hierarchy」と呼ばれ、AIモデルを制御する命令の優先順序を設定する仕組みで、サイバー攻撃を防ぐための手法として使われる。実際の試験では、システムプロンプトからパスワードを盗み出す攻撃を防御する能力が試験された。試験結果は、AnthropicのOpus 4とSonnet 4、及び、OpenAI o3は全ての攻撃を防御したことが示された(下のグラフ)。

出典: OpenAI

Anthropicの評価結果

一方、AnthropicはAIモデルのエージェント機能を検証した。これは「Agentic Misalignment」と呼ばれ、AIエージェントが設計仕様通り稼働しないリスク要因を評価した。具体的には、AIモデルが悪用されるリスク、AIモデルが人間を恐喝するリスク、AIモデルがガードレールを迂回するリスクなどが評価された。AIモデルが悪用されるリスクの評価では、テロリストがAIモデルを悪用して兵器(CNRN)を開発するなど危険な行為を防ぐ機能が評価された。その結果、OpenAI o3とAnthropic Claude Sonnet 4は悪用の95%のケースを防御することが示された(下のグラフ)。

出典: Anthropic

Anthropicによる総合評価

Anthropicの試験結果を統合するとAIモデルのアラインメントの特性が明らかになった(下の写真)。両社とも推論モデル(OpenAI o3/o4-mini、Anthropic Opus/Sonnet)はジェイルブレイクなどのサイバー攻撃を防御する能力が高いことが示された。一方、両社のモデルを比較すると、Anthropicはサイバー攻撃への耐性が高いが、プロンプトへの回答回避率が高いという弱点を示し、セーフティを重視した設計となっている。OpenAIはこれと対照的に、サイバー攻撃への耐性は比較的に低いが、プロンプトへの回答回避率は低く、実用的なデザインとなっている。

出典: Anthropic

アラインメント試験技術の標準化

OpenAIとAnthropicはそれぞれ独自の手法でアラインメント試験を実施し、その結果として二つのベンチマーク結果を公表した。評価手法が異なるため、二社の評価をそのまま比較することができず、どのモデルが安全であるかを把握するのが難しい。このため両社は、アラインメント試験の技法を標準化し、単一の基準でAIモデルを評価する仕組みを提唱した。これは「Evaluation Scaffolding」と呼ばれ、政府主導の下でこの研究開発を進める必要性を強調した。

政府が監査機関となる

更に、OpenAIは米国政府と英国政府が公式の監査機関となり、AIモデルのアラインメント試験を実施することを提唱した。具体的には、米国政府では「Center for AI Standards and Innovation (CAISI)」(下の写真、イメージ)が、また、英国政府では「AI Safety Institute Consortium (AISIC)」がこの役割を担うことを推奨した。両組織は政府配下でAIセーフティ技術を開発することをミッションとしており、AIモデルのアラインメント試験を実施するためのスキルや人材を有している。

出典: Generated with Google Imagen 4

政府と民間のコンソーシアム

米国政府は民間企業とAIセーフティに関するコンソーシアム「AI Safety Institute Consortium」を発足し、AIモデルの安全評価に関する技術開発を共同で推進している。また、トランプ政権では、CAISIのミッションを、サイバーセキュリティやバイオセキュリティなどを対象に、リスクを評価することと定めている。アラインメント試験においては、企業がAI製品を出荷する前に、CAISIで安全試験を実施するプロセスが検討されている。

緩やかな規制を提唱

トランプ政権ではAI規制を緩和しイノベーションを推進する政策を取っており、アラインメント試験については公式なルールは設定されていない。このため、OpenAIやAnthropicは、セーフティ試験に関する枠組みを提唱する。安全試験はCAISIなど政府機関が実施し、民間企業は試験に必要なパッケージ「Evaluable Release Pack」を提供するなどの案が示されている。高度なAIモデルの開発が進み、OpenAIやAnthropicは政府に対し、緩やかな規制を施行することを求めている。