月別アーカイブ: 2025年10月

OpenAIはAGIを2028年3月に出荷!! AGIを研究エージェントとして実現、AGI開発のために30GWのデータセンタを建設し総工費は1.4兆ドル

OpenAIは10月29日、AGI開発に向けた企業の将来像を明らかにした(下の写真)。OpenAIは一般市民がAGIの恩恵を享受できるシステムを提供することをミッションとする。AGIは超人的なシステムではなく、OpenAIはこれをエージェントとして実現する。また、OpenAIはAGIを提供するプラットフォーム企業に転身する。開発者はこの基盤の上でAGIアプリケーションを開発する。AGIの開発と運用のために30ギガワットのデータセンタを建設し、総工費は1.4兆ドルとなる。

出典: OpenAI

AGIに関する理解と出荷時期

OpenAIはAGIの恩恵を万人が享受できる技術を提供することをミッションとする。AGIに関する共通の理解が確立されていない中、OpenAIはAGIをエージェントやツールとして提供し、そのメリットを可視化する開発戦略を取る。OpenAIはAI研究を自動化するモデル「Automated AI Research」の出荷時期を明らかにした。これは科学研究のエージェントで、ベータモデルと最終モデルのロードマップを公表した(下の写真)。これは、次世代モデル”GPT-6”を2026年9月に、”AGI”を2028年3月に出荷する、と解釈できる。

出典: OpenAI

プラットフォーム企業

OpenAIはChatGPT企業からAGIプラットフォーム企業に転身すること表明した。OpenAIはAGIプラットフォームのフルスタックを開発し(下の写真)、AIモデルだけでなくハードウェアの開発に着手する。具体的には、半導体、データセンタ、発電などハードウェアから、AIモデル(GPT-5)、ブラウザ(Atlas)、アプリケーション(ChatGPT)までを垂直統合する。キーポイントはユーザインタフェースで、OpenAIはAIブラウザ「ChatGPT Atlas」を投入し、また、スマホに代わるAIデバイスを開発している。これらがAGIを利用するポータルとなる。更に、提携企業はこのプラットフォームでアプリケーションを開発し広大なエコシステムを構築する。

出典: OpenAI

データセンタの建設

OpenAIは半導体やデータセンタなどハードウェア階層をパートナ企業と共同で開発する戦略を取る(下の写真)。半導体開発ではBroadcomと提携し独自のAIプロセッサを開発する。AIクラウドではMicrosoftとの関係を維持し、新規にOracleやGoogleと提携しリソースを利用する。これらに加え、OpenAIは独自のデータセンタを建設しており、ここでNvidiaやAMDのプロセッサを利用する。

出典: OpenAI

Project Stargate

OpenAIはデータセンタプロジェクト「Stargate」を起動し、テキサス州アビリーンに巨大な施設を建設している(下の写真)。第1期の工事が完了し、OpenAIはOracle Cloud経由で計算環境にアクセスする。この施設は建設中のサイトを含め1ギガワットの計算能力を持つ。テキサス州以外にも、ウィスコンシン州など全米5か所にメガセンタを建設する。

出典: OpenAI

データセンタの規模

OpenAIはAGIの開発と運用には膨大な計算量が発生し、そのために巨大なデータセンタを建設する(下の写真)。現時点で、OpenAIは30ギガワット超のデータセンタを建設する計画で、総コストは1.4兆ドルとなる。更に、長期ビジョンとして、建設したデータセンタを定常的に拡張し、そのペースは毎週1ギガワットの計算機を増設する。そのコストは1ギガワットあたり200億ドルを目指している。更に、データセンタの建設はロボットを使い、プロセスを自動化しスケーラビリティを上げる。

出典: OpenAI

1ギガワットのサイズ

データセンタの計算容量はプロセッサの消費電力ギガワットで表示される。1ギガワットのデータセンタとは、設置しているプロセッサや冷却装置の消費電力が1ギガワットとなる。新設のデータセンタはNvidiaの最新GPU「Blackwell」が使われる。製品としては「GB200 NVL72」ラックで、72個のGPUが搭載され、消費電力は120 kWとなる。1ギガワットの電力消費量は8,300ラックに相当し、GPUの数では60万個となる。 (下の写真、GB200 NVL72で構成するデータセンタ、32,000GPU構成。1ギガワットのデータセンタにはこのシステムが18ユニット設置される) 因みに、1ギガワットとはサンフランシスコ市の電力消費量に匹敵する。

出典: Nvidia

組織構造を改定

OpenAIはこれに先立ち組織再編を完了した。新組織は非営利団体「OpenAI Foundation」がパブリック・ベネフィット・コーポレーション「OpenAI Group」を統括する構造となる(下の写真)。パブリック・ベネフィット・コーポレーションは営利団体であるが、同時に、公益を実現するハイブリッドな構成となる。これにより、OpenAI Groupは資金を調達し、株式を公開し、事業を遂行することができる。一方、OpenAI FoundationはOpenAI Groupの26%を保有し、会社運営を統括する。OpenA FoundationはOpenAI GroupがAGIを安全に開発し運用するのを監視する役割を担う。また、OpenAI FoundationはヘルスケアとAI安全性に関し資源を拠出し、これらの研究推進を支援するとしている。

出典: OpenAI

AGIの応用分野

OpenAIはAGIをサイエンス研究エージェントとして実現し、科学技術開発を加速することを目指している。具体的には、新薬開発、ヘスケア、ロボティックス、核融合発電、個人に特化した教育、新素材開発などを対象とする。新薬開発ではガンの治療薬の開発などがターゲットで、20年かかる研究を2年に圧縮する。これにより、ここ数年で人間の寿命が75歳から150歳になると期待されている。

出典: OpenAI

データセンタ建設ラッシュ

OpenAIはAGIという用語の代わりに「AI研究自動化(Automated AI Research)」を使い、人間レベルの研究エージェントがAGIに匹敵すると説明する。更に、このエージェントが2028年3月にリリースされるとピンポイントでスケジュールを示した。このゴールを達成するためにはアルゴリズムのブレークスルーに加え、大規模なデータセンタが必要になる。AGIは思考時間を長くすることで高度なタスクを実行する。これは「Inference Computing」と呼ばれ、長時間にわたり思考することで機能が向上する。 (下のグラフ、現在、思考時間は5時間程度であるが、これが5日・5週間・5か月・5年に伸びる。) 思考時間が延びるにつれGPUの稼働時間が長くなり、大規模なデータセンタが必要となる。

出典: OpenAI

GPT-5はAGI完成度が58%、読み書き数学は人間に匹敵するが長期記憶・学習能力が決定的に劣る、AGI規制に向けた基礎研究が進む

大学の研究グループはAGIに関する科学的な定義を制定する試みを進めており、今週、その成果を公開した。この定義をOpenAI GPT-5に適用すると、モデルはAGIである要件の58%を満たし、人間の知能の半分程度を実現していることが判明した。GPT-5は言葉の理解や数学の問題を解く能力は人間レベルに到達したが、長期的な記憶や、新しいスキルを学ぶ能力はゼロで、AIモデルは機能が偏っていることが明らかになった。AGIは来年にも登場すると言われているが、現行モデルが人間レベルの知能を実現するには多くの課題を解決する必要があることが明瞭になった。

出典: Dan Hendrycks et al.

A Definition of AGI」とは

この研究は非営利団体「Center for AI Safety」を中心に、カリフォルニア大学バークレー校など全米の主要大学が共同で、AGIを定義しそれを測定する技術を開発した。これによるとAGIを「高等教育を受けた成人の知能レベル」と定義し、それを人間の知能特性と結び付けて評価した。この定義に基づき実際にAIモデルを評価したところ、OpenAI GPT-5は58%の、また、GPT-4は27%のAGI要件を満たすとしている。

AGIを構成する10の要件

研究グループは、AGIは10の要素で構成されると考える。AIモデルがAGIとなるためには、これら10の要件を満たす必要がある。これら10の要件は4つのグループに分類される(下の写真)。

出典: Dan Hendrycks et al.
  • グループ1:知識(Acquired Knowledge)
    • 汎用知識(General Knowledge):成人レベルの知識読み書き能力(Reading and Writing Ability):言語を理解し生成する能力
    • 数学能力(Mathematical Ability):数学に関する知識と解法能力
  • グループ2:思考回路(Central Executive)
  • 推論能力(On-the-Spot Reasoning):新たな問題を解く能力
  • ワーキングメモリ(Working Memory):問題解決時に記憶を維持する能力
  • 長期記憶(Long-Term Memory Storage):新情報を整理して記憶する能力
  • 長期記憶読み出し(Long-Term Memory Retrieval):長期記憶を読み出す能力
  • グループ3:知覚(Perception)
  • 視覚能力(Visual Processing):イメージを理解し、イメージを生成する能力
  • 聴覚能力(Auditory Processing):音声を認識、記憶、処理する能力
  • グループ4:出力(Output)
  • 処理速度(Speed):検索、比較、発言、筆記、読書などのスピード

AGIのシステム構造

AGIを構成する4つのグループと10の要素技術は連携して動作しインテリジェンスを構成する。研究グループはAGIのシステム構成とその内部構造を次のように考える(下の写真):

  1. AGIは入力された情報を「知覚(Perception)」で処理し、それらの意味を理解し、情報を凝縮(Attention)する。
  2. 「思考回路(Central Executive)」はこの情報を受け取り、推論などの処理を実行する。このプロセスで長期記憶を読み出し、また、処理結果を長期記憶に格納する。
  3. 「長期記憶(Long-Term Memory Storage)」には学習した知識が保存され、また、読み書き数学などの基本機能を持つ。
  4. 「出力(Output)」は処理された情報を言葉や音声などで出力する。
出典: Dan Hendrycks et al.

現行AIモデルの評価

研究グループはこの定義に基づき、現行のAIモデルを評価し、AGIの要件を満たす度合いを測定した(下のグラフ)。ベンチマークではOpenAI GPT-5(赤線)とGPT-4(青線)が使われた。GPT-5はGPT-4から格段に技術が進化しているが、AGIの要件の58%を満たし、人間のインテリジェンスへの道半ばであると評価した。AGIを構成する10要件については、項目ごとに性能が大きく異なり、現行AIモデルは偏った特性を持つ構造となる。

出典: Dan Hendrycks et al.

AIモデルの評価:長期記憶

GPT-5のAGI要件を評価すると「長期記憶(Long-Term Memory Storage)」の機能(下の写真)がゼロで、これがAGIとなるための最大のネックとなる。これは新しい情報を整理して記憶する能力と、処理しているタスクに関連する情報を記憶から引き出す能力となる。この代表が連想記憶(Associative Memory)で、独立した情報から、関連する他の情報を思い出す能力となる。この他に、意味のある記憶(Meaningful Memory)と逐語記憶(Verbatim Memory)から構成される。

出典: Dan Hendrycks et al.

AIモデルの評価:読み書き数学

一方で、GPT-5は言語を理解し生成する能力「読み書き能力(Reading and Writing Ability)」と数学に関する知識と解法能力「数学能力(Mathematical Ability)」(下の写真)は人間に匹敵すると評価され、この二つの構成要素についてはAGIの要件を満たす。数学能力は算術(Arithmetic)、代数(Algebra)、幾何学(Geometry)、確率論(Probability)、微積分(Calculus)で構成されるが、これらの分野で人間に匹敵するスキルを示した。

出典: Dan Hendrycks et al.

AGI規制の基礎データ

市場ではAGIの規制政策について議論が広がっている。AGIは人間レベルのインテリジェンスを持ち、科学技術が格段に進化すると期待されるが、その危険性について重大な懸念が示されている。AGIの規制法を準備するための最初のステップがAGIに関する理解で、業界で統一した定義を確立する必要がある。今回の研究成果はこれに向けた第一歩となり、これを契機に議論が深まると期待される。

カリフォルニア州はAIフロンティアモデルを規制する法令を制定、トランプ政権は規制緩和を進め政策が対立、この法令が全米のAI安全基準となるか

カリフォルニア州はAIフロンティアモデルを規制する法令「SB 53 (Transparency in Frontier AI Act)」を制定した。9月29日に州知事Gavin Newsom(下の写真)が法案に署名し、来年1月1日から発効する。この法令は開発企業にAIフロンティアモデルの安全性に関する情報を公開することを求めるもので、米国で最初のAIモデル規制法となる。トランプ政権はAIアクションプランで規制を緩和する政策を取るが、カリフォルニア州はこれと反対に、AIモデルに一定の制限を課す。連邦政府レベルの規制法が無い中、カリフォルニア・モデルが他州に広がり、これが事実上のAI規制フレームワークとなるのか、今後の動きを注視する必要がある。

出典: Getty Images

AI規制法「SB 53」とは

カリフォルニア州のAI規制法「SB 53 (Transparency in Frontier AI Act)」(下の写真)はAIフロンティアモデルの安全情報を公開することを求める。コンセプトはAI開発企業にフロンティアモデルに関し「透明性(Transparency)」と「説明責任 (Accountability)」を求める構成となる。具体的には、開発企業はフロンティアモデルの安全性を検証する手法を制定し、これに従って安全試験を実行し、その結果を公開することを求めている。政府が安全試験を実施する手法を制定するのではなく、各企業が独自に試験プロトコールを定め、これに従ってベンチマークを実施する。

出典: State of California

緩やかな規制

SB 53はAIイノベーションと安全性のバランスを重視し、緩やかに規制することが特徴となる。AI開発企業は大企業に限られ、スタートアップ企業などはこの対象から除外される。法令によると、対象は年収5億ドル以上のカリフォルニア企業で、Google、OpenAI、Anthropic、Metaなどに限定される。また、フロンティアモデルとはアルゴリズム教育で巨大システムで開発されたモデルとなる。具体的には、処理能力が「10^26 FLOPs」超えるプロセッサで開発されたモデルとなる。企業は開発環境に関する情報を公開していないが、Google Gemini 2.5、OpenAI GPT-5、Anthropic Claude 3.5、Meta Llama 4などが対象となると推定される。

公開するドキュメント

SB 53はAI開発企業に安全性とセキュリティに関するフレームワークを公開することを求めている。このフレームワークはAIモデルの開発で安全性とセキュリティの評価プロセスを定めたもので、この情報をウェブサイトなどで公開することを求めている。具体的には、重大なリスクに関し、開発企業はこれをどのように管理・評価し、如何にリスクを回避する措置を講じたかなど、一連のプロセスを公開することを求めている。

リスク管理フレームワーク

AI市場ではリスク評価のフレームワークが開発されているが、SB 53は開発企業にこれらを適用することを求めている。SB 53は具体的な安全フレームワークについて言及していないが、米国では国立標準技術研究所(National Institute of Standards and Technology 、NIST)が開発した安全フレームワーク「AI Risk Management Framework」(下の写真)がその代表となる。また、EUでは「AI Act」が制定され、米国の主要企業はこの安全フレームワークに準拠することを公表している。

出典: NIST

インシデントレポート

SB 53は開発企業に重大なインシデントが発生した場合はそれをカリフォルニア州政府に報告することを求めている。カリフォルニア州は「California Governor’s Office of Emergency Services(Cal OES)」という組織を運用しており、この部門が緊急事態や災害などのイベントに対処するハブとなる。SB 53は開発企業に対し、AIで重大な問題が発生した場合は、Cal OESにこれを報告することを求めている。その後に、Cal OESは匿名でこのインシデントを公開するプロセスとなる。

二度目のトライアル

カリフォルニア州議会(下の写真)は昨年、AI規制法案「SB 1047」を可決したが、州知事のGavin Newsomは拒否権を発動し、この法案は成立しなかった。この規制法案は開発企業にAIセーフティに関し厳しい義務を課すもので、AI開発が大きな制約を受けるとして成立には至らなかった。SB53この義務を大幅に軽減し、対象を大企業に絞り、第三者による監査の義務などを削除し、緩やかで現実的な法令となった。

出典: California State Assembly

全米で広がるか

トランプ政権はAIイノベーションを重視しAI規制を緩和する政策を取る。これに対し、カリフォルニア州はAI開発を後押しするものの、AIフロンティアモデルに対しては一定レベルの制限が必要であるとのポジションを取る。この法令はカリフォルニア州に拠点を置く企業などに適用される。大手AI開発企業の多くがカリフォルニア州を拠点としており、法令はAI市場の多くの部分をカバーする。また、他の州がカリフォルニア州のSB53をリファレンスとして、独自の法令を制定する流れが始まることも予測される。カリフォルニア州のAI規制が全米における事実上の規制法となるのか、これからの動きを注視していく必要がある。

女性の服を脱がせるAIモデルが水面下で爆発的に普及、法規制が進むが被害が増大、AIがディフージョンモデルに進化し大量のコンテンツが生成される

女性の服を脱がせるAIツール「Nudification」が水面下で爆発的に広がっている。Nudificationとはヌードに変換するという意味で、早くから使われてきたが、AI技法が進化し使い方が容易になり、大量のコンテンツが生成されている。同意を得ない性的なイメージが殆どで、被害件数が急増している。連邦政府はヌード化されたコンテンツを掲載することを禁止する法令を制定し、AI規制の第一歩を踏み出した。しかし、Nudificationの使用を禁止するものではなく、効果は限定的で、多くの課題が積み残されている。

出典: Generated with OpenAI GPT-5

Nudificationとは

「Nudification」とはヌードイメージを生成する技法を指し、写真に写っている女性の服を脱がせるツールとして使われている。技術的な視点からは、AIモデルが女性の全体像を解析し、そこから衣服の部分を特定(Segmentation)する。次に、この部分(マスク)を含め、身体の構成(手足や胴体など)を推定する(Pose Prior)。更に、この基本情報を元に、AIモデルがマスクに肌や質感などをペイント(Inpainting)する。AIモデルは身体に関するデータを学習しており、高精度で身体を再現する。一般に、フェイクイメージを生成する技法は「ディープフェイク(DeepFakes)」と呼ばれ、Nudificationはこの主要コンポーネントとなる。

フェイクイメージ生成技法

マスク部分に肌をペイントする技法は、今までは「Generative Adversarial Networks (GANs)」というAIモデルが使われてきた。GANは二つのAIモデル、「生成ネットワーク(Generator)」と「識別ネットワーク(Discriminator)」で構成され、両者が競い合ってリアルなイメージを生成する(下の写真)。具体的には、生成ネットワークがイメージを出力し、識別ネットワークがその真偽を判定する。このプロセスを繰り返し、識別ネットワークが偽イメージを見抜けない段階に達し、リアルなイメージが完成する。この手法で人物や風景などのフェイクイメージが生成されてきたが、これが女性を裸にするツールに適用され重大な社会問題を引き起こした。

出典: Google

ディフュージョンモデルに進化

一方、GANを使うには技術を要し、また、その出力は完成度が低く、リアルなヌードイメージを生成するにはスキルを要した。今では、フェイクイメージを生成するための技法として「ディフュージョンモデル(Diffusion Model)」が幅広く使われている。ディフュージョンモデルとはアルゴリズムを教育する手法で、イメージにノイズを付加し、それを取り除くスキルを学ぶことでハイパーリアルな写真を生成する(下の写真)。

出典: Stable Diffusion

ディフュージョンモデルをNudificationに適用

ディフュージョンモデルは言葉に従って高精度なイメージを生成する機能を持つ。更に、入力された写真を編集する機能(Inpainting)があり、この技法がNudificationで使われる。新興企業Stable Diffusionはこの手法でリアルなイメージを生成し、Inpainting機能で写真のマスク部分を編集する機能を持つ(下の写真)。最新のディフージョンモデルは「ディフージョン・トランスフォーマ(Diffusion Transformer)」を搭載し、高品質な画像を大量に生成できるようになった。GPT-5などフロンティアモデルの基礎技術がNudificationで使われ、高品質なフェイクイメージが大量生産される時代になった。

出典: Stable Diffusion

Nudificationの事例

市場には数多くの種類のNudificationサイトやアプリがあり、ここで大量のコンテンツが生成されている。その代表は「CrushAI」というアプリで簡単な操作でヌードイメージを生成する(下の写真)。このアプリは香港に拠点を置く企業Joy Timeline HK Limitedが開発した。対象とする人物の写真をアップロードし、「Erase now」ボタンを押すと、AIモデルが衣服の部分を肌に書き換え、女性を裸にしたイメージを生成する。シンプルなインターフェイスで技術知識なしに使うことができ、市場で急速に利用が広がっている。非営利団体BellingcatがNudificationツールを追跡し、被害の状況をレポートしている。

出典: Bellingcat

MetaはCrushAIを提訴

CrushAIの利用が急拡大した背景には、ソーシャルメディアで広告を掲載し、利用者をサイトに誘導したことにある。CrushAIはFacebookやInstagramにアプリの広告を掲載し、ヌード化の機能をアピールした。これに対しMetaは、Joy Timeline HK Limitedは利用規定に反して広告を掲載したとして同社を訴訟した。Metaは同意を得ない性的なイメージを生成するツールを広告することを禁止している。

アメリカ連邦政府

社会でNudificationの被害が拡大する中、連邦議会は非同意の性的イメージを公開することを禁止する法令「The TAKE IT DOWN Act」を制定した(下の写真)。また、性的イメージを掲載するプラットフォームに対して、これを削除することを求めている。連邦政府はAI規制に消極的なポジションを取るが、性的な被害が拡大する中、対策に向けて一歩を踏み出した。一方で、この法令は個人が非同意の性的イメージを生成することは禁止しておらず、被害の拡大を食い止めることはできていない。特に、裸体のイメージで対象者を脅す「セクストーション(sextortion)」の被害が米国で急増している。

出典: Joyful Heart Foundation

ディープフェイクと表現の自由

AI技術は急速に進化し規制法はこのスピードに追随できない現状が改めて明らかになった。ディープフェイクは敵対国がアメリカの世論を操作する手段として使われるとして警戒をしてきたが、実際には、Nudificationによる被害が広がり、この対策が喫緊の課題となっている。アメリカは憲法修正第1条(First Amendment to the United States Constitution)で表現の自由(Freedom of expression)を定めており、国民は公権力によって規制されることなく、自由に思想や意見を主張する権利を持つ。有害なディープフェイクを規制する根拠となる考え方について議論が進んでいる。

米国政府は中国AIモデルの検証をスタート、DeepSeekは重大なセキュリティ・リスクを内包!!政府や企業に注意を喚起

米国政府は中国企業が開発したフロンティアモデルの検証を開始した。これはトランプ政権の「AIアクションプラン」に基づくもので、NIST配下の「CAISI(旧称AISI)」が安全試験を実施しその結果を公表した。DeepSeekが最初のケースとなり、報告書はジェイルブレイクなどサイバー攻撃への耐性が低いと評価した。一方、DeepSeekの性能は米国企業の最新モデルに及ばないものの、その差は小さいとしている。報告書は技術的な観点からモデルを評価するものであるが、米国政府は関連機関にDeepSeekの調達を控え、また、民間企業にはその運用で注意するよう呼びかけている。

出典: Center for AI Standards and Innovation

調査レポートの概要

この安全試験は国立標準技術研究所(National Institute of Standards and Technology、NIST)配下のAI標準イノベーション室(Center for AI Standards and Innovation、CAISI)で実施された。CAISIはAIモデルの技術開発支援と安全評価をミッションとする。トランプ政権はAIアクションプランで、国家安全保障の観点から、外国製のAIモデルを評価することをCAISIに求めており、今回の安全試験はこの最初のケースとなる。政権は中国製のフロンティアモデルを念頭に、これが米国や同盟国で普及するとセキュリティや情報操作で重大なリスクが発生すると懸念している。

評価対象モデル

安全試験では中国製AIモデルとしてDeepSeekの三つのモデル(R1, R1-0528, V3.1)が対象とした。Rシリーズは推論モデルで、Vシリーズは言語モデルで、「DeepSeek R1」が世界にショックをもたらしたことは記憶に新しい。言語モデルの最新版は「V3.2」であるが、今回の試験の対象とはなっていない。一方、米国のAIモデルはOpenAI (GPT-5, GPT-5-mini, gpt-oss-120b)とAnthropic (Claude Opus 4)が評価された。19のベンチマークテストを実施し、両者の性能を比較する方式でDeepSeekの機能や性能を査定した。

評価結果:セキュリティ

AIモデルのセキュリティを評価する技法として「Cybench」、「CVE-Bench」、「CTF-Archive」が使われ、このベンチマークテストを通して、モデルのサイバー攻撃への耐性が評価された。具体的には、AIモデルがサイバー攻撃のシグナルを検知する能力が査定された。六つの分野で評価され(下のグラフ、三つの分野)、問題を解決(シグナルを検知)した割合を示している。青色が米国モデルで、赤色がDeepSeekとなり、米国モデルがセキュリティで高い性能を示した。因みに、「Cryptography」は暗号化されたメッセージを復号化してサイバー攻撃を検知する能力を測定する。また、「Digital Forensics」はシステムに残されたサイバー攻撃の痕跡を見つける技能が試される。

出典: Center for AI Standards and Innovation 

評価結果:エンジニアリング機能

次に、AIモデルのエンジニアリング性能が試された。これは、実社会での技術問題をAIモデルが解決するスキルを試すもので、ここでは「SWE-bench Verified」が使われた。このベンチマークでは、GitHubに掲載されているプログラムの問題(コードのバグなど)が示され、これをAIモデルが修正するスキルが問われる。その結果は正解率で示され(下のグラフ)、米国AIモデルがDeepSeekを上回るものの、OpenAIのオープンソース・モデル「gpt-oss-120b」はDeepSeek V3.1に及ばない。実社会でエンジニアリング問題を解決する能力では米中間の差が縮まっていることが明らかになった。

出典: Center for AI Standards and Innovation 

評価結果:科学知識

科学技術の知識を問うベンチマークテストでは米国モデルとDeepSeekの差は無く、両モデルでほぼ同じレベルの性能を示した(下のグラフ)。言語機能や推論機能を評価する「MMLU-Pro」では、米中間で差はなく、横一列となった。生物学、物理学、化学に関する推論機能を試験するベンチ「GPQA」でも両国のモデルの差は僅かとなった。

出典: Center for AI Standards and Innovation 

評価結果:CCPアラインメント

CAISIはAIモデルが中国共産党(Chinese Communist Party、CCP)の政治思想を反映している度合いを評価するベンチ「CCP-Narrative-Bench」を開発し、これを実行した(下のグラフ)。中国モデルの最新版でこの傾向が顕著で、中国共産党の政治思想を色濃く反映していることが判明した。これは政治思想のアラインメントを試験するもので、例えば、新疆ウイグル自治区 (Xinjiang) に関するプロンプトへの回答を評価し、AIモデルの出力が中国共産党の解釈に沿っているかどうかを査定する。米国政府は中国AIモデルが特定の思想を広め、世論を操作するツールとして使われることを警戒している。

出典: Center for AI Standards and Innovation 

総合評価

総合評価として、米国AIモデルとDeepSeekは性能評価試験では、米国モデルが優位であるがその差は僅かである。一方、AIモデルのセキュリティに関しては、DeepSeekは大きなリスクを内包しており、サイバー攻撃への耐性が低いことが判明した。更に、DeepSeekは中国共産党の政治思想を内包したモデルで、プロパガンダで使われることを懸念している。

注意喚起を促す

報告書は両者のAIモデルを技術的に評価することに留まり、利用制限などの提言はしていない。一方、報告書はAI政策を立案するための基礎資料として使われ、米国連邦議会などが中国AIモデルを規制する法令の準備などで使われる。同時に、この報告書を読むとセキュリティに関するリスクが大きく、導入して運用する際は注意を要す。DeepSeekはオープンソースで誰でも自由に利用できる魅力があるが、その危険性を勘案して安全に運用することが求められる。

次のステップ

AIアクションプランはCAISIに外国のAIモデルの安全検証を求めており、これから順次、このプロジェクトが進むことになる。中国でフロンティアモデルの開発が急進しており、DeepSeek以外に巨大テックが先進モデルを投入している。Alibabaは「Qwen」を、Baiduは「ERNIE」を、また、Tencentは「Hunyuan」を投入し、米国AIモデルに匹敵する性能を示している。CAISIはこれらのモデルを対象に安全試験を実施することになる。