今年はAIエージェントがブレイク!!OpenAIは「Operator」を公開、AIが人間に代わりコンピュータを操作

OpenAIはAIエージェント「Operator」を公開した。AIエージェントとは自立的に稼働するAIモデルで、指示されたタスクを人間の介在なく実行する。Operatorは指定された条件でホテルを予約するなど出張の準備などで使われる(下の写真)。Operatorは、AIがタスクを実行する手順を計画し、それに従ってアクションを取り、目的を達成する仕組みとなる。既に、主要企業からAIエージェントが投入されているが、OpenAIはOperatorでこの市場に参入した。

出典: OpenAI

Operatorの機能概要

Operatorはコンピュータを操作するAIエージェントで「Computer-Using Agent(CUA)」と呼ばれる。Operatorは人間の指示に従って、ブラウザー上でマウスやキーボードを操作して、タスクを実行する。ホテルやフライトを予約するほかに、スーパーマーケットで買い物をするなどの機能がある。Operatorは、人間向けに構築されたウェブサイトというインターフェイスで稼働し、スクリーンを理解し、マウスとキーボードを操作して必要なアクションを実行する。

Eコマースサイトで買い物

Operatorは指示されたタスクに従ってEコマースサイトで買い物をすることができる。食料品宅配サイト「Instacart」で、指定された食料品を検索し、それらを購入することができる。例えば、「アサリのパスタを料理するために必要な食材を購入」と指示すると、Operatorは必要な食材を理解し、それをショッピングリストとして生成し、リストのアイテムをInstacartのサイトで購入する。(下の写真、右側:Instacartのサイト、左側:Operatorが実行したアクションのログ)

出典: OpenAI

Operatorの推論機能

Operatorは、指示されたタスクを完遂するための手順を設定し、それに従ってアクションを取る。人間はOperatorに命令を入力すると、その後は、AIエージェントが自律的に稼働し、人間の介在なく処理を実行する。Operatorはタスク実行のための手順「Chain-of-Thoughts」を出力し、人間はこれを見ることで作業手順を理解することができる(上の写真左側)。Operatorは実行の途中過程について、「Instacartのサイトで食材を検索」、「パスタを探しそれを買い物かごに投入」、「中型の玉ねぎを買い物かごに投入」などアクションを出力する。

トランザクションの制御

Operatorは人間の介在なく動作する構造となっているが、人間の判断が必要な時は、処理を中断し制御を人間に返す仕組みとなっている。Eコマースサイトへのログインや決済プロセスでは、Operatorは処理を中断し、メッセージを出力し、人間の判断を仰ぐ。Instacartでの買い物のケースでは、指定された商品を買い物かごに入れた後、支払い処理の段階でメッセージを出力し、人間の判断を仰ぐ。Operatorが決済処理を実行するのではなく、人間がクレジットカードで決済する設計となっている(下の写真)。

出典: OpenAI

Operatorの提携サイト

OpenAIは人気のEコマースサイトと提携しOperatorを運用している。Instacartの他に、レストラン宅配サービス「DoorDash」、レストラン予約サービス「OpenTable」、旅行予約サイト「 Priceline」、イベント予約サイト「StubHub」、配車サービス「Uber」などでOperatorを使うことができる(下の写真)。Operatorはこれら以外のサイトで稼働することができるが、アルゴリズムは提携サイトで教育され、これらのサイトでは高精度でアクションを実行する。

出典: OpenAI

Operatorの動作原理

Operatorは人間のように視覚をもち、デスクトップのスクリーンを理解し、マウスとキーボードを操作して、タスクを実行する(下の写真)。Operatorはスクリーンのピクセルを読み込み、ウェブページの内容を理解する。推論機能でタスク実行のためのステップを立案し、この計画に従って、マウスで画面をクリックし、キーボードでテキストを入力する。OperatorはGPT-4oに推論機能が実装された構造で、GPT-4oがスクリーンのイメージを読み込み、内容を理解する。

出典: OpenAI

Robotic Process Automation (RPA)との違い

ビジネスプロセスの自動化技術は数多くあり、その代表がRobotic Process Automation (RPA)で、ロボットが企業の業務を自律的に実行する。例えば、受信メールを読み込み、顧客リストを自動で生成するなど、業務を自動化するために使われている。しかし、RPAは処理プロセスを人間が事前にルールとして設定する必要がある。また、RPAはメールのように定型データを処理する構造となる。これに対し、Operatorは、人間がルールを設定する必要はなく、AIが指示されたタスクを理解し、目的完遂のためのルールを自分で設定する。また、定型データだけでなく非定型データを処理することができる。このため、Operatorは自律性が格段に向上し、応用範囲が広く、幅広い分野で活用が広がると期待されている。

AIエージェント元年

既に、Google、Microsoft、Nvidia、Salesforce、Anthropicなど主要企業はAIエージェントを開発し市場に投入している。また、スタートアップ企業はユニークなAIエージェントを開発し、利用が広がっている。OpenAIはこれら先行企業にキャッチアップする形でOperatorを投入した。AIエージェントはウェブサイトなど人間向けに設計されたインフラをそのまま利用することができ、自動化のための特別なインターフェイス(APIなど)が不要で、利用が急速に広がると予測されている。AIエージェントがブレイクする勢いを示している。

OpenAIはAI開発のブループリントを公開、米国がAI開発でリードするためにはインフラの整備が必須、独裁国家がAI開発を制することの危険性を指摘

OpenAIは今週、AI開発の計画書「Economic Blueprint」を公開した。これは米国がAI開発を推進するためのブループリントで、業界や政界に向けて様々な提言をしている。ブループリントは、米国がAI開発を主導することで、技術の恩恵を享受できるだけでなく、国家安全保障を強固にし、経済発展に寄与するとしている。特に、独裁国家(中国)がAI開発を制することの危険性を指摘し、米国が同盟国と共にAI開発をリードするための施策を提唱している。高度なAIを開発するためには、データセンタや半導体製造施設や発電所の整備が必須であるとして、国外からの投資に関する規制を緩和するよう求めている。

出典: OpenAI

ブループリントの概要

OpenAIは、AIの機能が急進する中、米国は技術の可能性を最大限にし、そのリスクを最小限にする必要があると述べている。特に、独裁国家が高度なAIの開発を主導すると、世界に重大なリスクをもたらすが、いまAI競争はこの方向に向かっている。また、AIによる大きな経済成長が見込まれ、米国はAI開発を主導すべきとしている。このためには、AI開発のインフラ整備が喫緊の課題で、データセンタ、半導体製造施設、発電所の整備が課題となる。インフラ整備には巨大な資金が必要になるが、グローバルな投資ファンドは1,750億ドルあり、米国政府はこの投資を認めるよう求めている。

出典: OpenAI Generated with DALL-E

提言の骨子

提言は三つのパートから構成され、開発競争と安全保障、AI規制、インフラ整備で、それらの具体的な内容は:

  • 開発競争と安全保障:国家安全保障の観点から米国がAI開発で世界をリードするための提言が示されている。特に、高度なモデルを開発した後で、それを運用する際の注意事項が示されている。高度なモデルが敵対国にわたり、それが悪用されるリスクを低減することが必須となる。
  • AI規制:AI規制では、AIで生成した画像の安全性を担保するよう提言している。特に、児童ポルノ(child sexual abuse material/child sexual exploitation material (CSAM/CSEM))が重大な問題で、これを規制する必要がある。また、AIで生成したイメージやビデオにはその出典を付加するメカニズムの導入を求めている。
  • インフラ整備:データセンタなどの整備に加え、公共のデータをAI開発で利用できる仕組みを導入すべきとしている。また、政府が保有している大量のアナログデータをデジタル化し、それを公開することを提言している。また、AI特区「AI Economic Zones」を設け、AI関連施設の建設にかかる認可をスピードアップすることを要請している。
出典: OpenAI Generated with DALL-E

AI規制のビジョン

OpenAIは政府のAI規制方針について言及しており、国民を守るため常識に沿ったルールの制定が必要であるとしている。同時に、規制と開発のバランスを取り、AIへの投資や競争を促すことを求めている。また、AI規制は各州が独自に実施するのではなく、連邦政府が立法化し、全米で統一したルールを制定することを求めている。一方で、州政府はAI技術の実験場としての役割を担い、州の特性を生かしたAIソリューションを展開する。例えば、カンサス州はAIを農業に適用し、農業ソリューションのハブとなる。

同盟国との連携

フロンティアモデルを米国の同盟国と共有し、域内の経済の興隆に寄与すべきとしている。半導体プロセッサの輸出を制限しているように、フロンティアモデルも同盟国への輸出は認めるが、敵対国への輸出は制限すべきとしている。フロンティアモデルが敵対国の手にわたると、これが悪用され、重大な被害が予想される。また、モデルのIPが盗用されると、敵対国で技術開発が進むことが懸念される。

出典: OpenAI Generated with DALL-E

トランプ政権への提言

OpenAIはブループリントを業界や政府関係者を対象に、AIの技術開発を促進するためのアクションを提言している。来週からトランプ第二次政権が発足するが、新政権にAI開発を後押しすることを求めた形となっている。特に、AI規制に関してはイノベーション促進とのバランスを考慮して、常識あるルールの設定を求めている。インフラ整備に関しては、外国からの投資の規制を緩和し、サウディアラビアなどからの資金を呼び込むことを意図している。巨大テック各社は既に、トランプ新大統領と面会し、個別にディールを結んでいる。OpenAIはブループリントを公開し、新政権との関係構築を急いでいる。

Nvidiaは世界基礎モデル「Cosmos」を公開、AIは実社会の物理法則を学びPhysical AI(=ロボットと自動運転車)の開発を加速する

CES 2025の基調講演で、Nvidia CEOのJensen Huangはロボットや自動運転車を開発するための世界基礎モデル「Cosmos」を発表した。世界基礎モデル「World Foundation Models」とは、実社会の物理法則を理解し、世界観を習得したモデルとなる。Cosmosは物理法則に忠実なデジタル空間を生成し、ここでロボットや自動運転車の教育を行う。基礎モデル「Foundation Models」はインターネットの知識を習得しコンテンツを生成するが、これに対し、世界基礎モデルは現実社会の仕組みを学習し、物理法則に忠実な仮想社会を生成する。

出典: Nvidia

Cosmosの概要

Cosmosは「物理AI (Physical AI)」を開発するためのプラットフォームとなる。物理AIとはロボットや自動運転車など、実社会で稼働するAIモデルとなる。Cosmosはトランスフォーマで構成され、イメージやビデオを入力すると、次の動きを予想し、それをビデオとして出力する。また、テキストで指示された内容のビデオを生成する。Cosmosで実社会のデジタルツインを生成し、この環境でロボットや自動運転車のアルゴリズムを教育する。(下の写真、テキストの指示に従ってCosmosは視界の悪い夜のハイウェーを生成)

出典: Nvidia

世界基礎モデルとは

Cosmosは「世界基礎モデル(World Foundation Model)」というコンセプトのAIモデルとなる。世界基礎モデルは、テキストやイメージやビデオや動作を入力とし、3D空間を生成し、また、次の動きを予測する機能を持つ。Cosmosは言葉の指示で配送センターを描き出し、ここでロボットのシミュレーションを実行するために使われる(下の写真)。言葉の指示で3D空間を描き出すモデルは沢山あるが、Cosmosは実社会の物理現象を学び、オブジェクトの関係や相互作用を正しく描写する。

出典: Nvidia

ロボットのシミュレーション

Cosmosはロボットのシミュレーション環境を生成する(下の写真)。Nvidiaは3D環境のデジタルツインを生成する技術「Omniverse」を提供しており(左側)、これとCosmosを組み合わせることで、物理法則を正しく反映した3D空間を生み出すことができる(右側)。Omniverseで生成した3Dモデルに、Cosmosが実社会の法則をインポーズする。この3D空間でロボットは作業プロセスを学習しスキルを獲得する。

出典: Nvidia

Cosmosの機能

Cosmosはトランスフォーマで構成されるニューラルネットワークで、物理法則に沿ったビデオを出力する。ChatGPTなど大規模言語モデルがテキストやイメージやビデオを生成するのに対し、Cosmosは実社会の世界観を描きだす。Cosmosの主要機能は:

Autoregressive Models:入力されたイメージやビデオの次のシーンを予測する(下の写真)。モデルはイメージやビデオの構成要素(Tokens)を読み込み、それに続く次のTokenを予測する。ロボットなどに搭載し、リアルタイムで次のシーンを予測し、最適なアクションを出力する。

出典: Nvidia

Diffusion Models:入力されたビデオのノイズを除去するスキルを学習することで高品質なビデオを生成する(下の写真)。入力されたテキストに従ってビデオを生成する機能を持つ。物理法則に準拠したビデオを生成し、これをロボットや自動運転車の教育で使う。

出典: Nvidia

Autoregressive Modelsを使ってみると

NvidiaはCosmosの機能をライブラー「API Library」で公開しており、ここで性能や機能を検証することができる。Autoregressive Modelsについては「cosmos-1.0-autoregressive-5b」のモデルが公開されている(下の写真)。イメージやビデオを入力すると、それに続くシーンを予測し、それをビデオとして出力する。ロボット開発において、最適な次のアクションを選択するために使われる。

出典: Nvidia

Diffusion Modelsを使ってみると

また、Diffusion Modelsについては「cosmos-1.0-diffusion-7b」のモデルが公開されている(下の写真)。テキストを入力すると、Cosmosはそれに従ってビデオを生成する。例えば、「クルマのウェブカメラが雪道をゆっくり進む情景」と指示すると、そのシーンが生成される。自動運転車の開発において、特殊なシーン(雪道や悪天候や夜の情景など) をCosmosで生成し、これを教育データとして使う。

出典: Nvidia

オープンソースとして公開

NvidiaはCosmosをオープンソースとして公開しており、このプラットフォームを使ってロボットや自動運転車の開発を展開できる。CosmosはNvidiaのカタログ「NGC Catalog」とAIオープンスースサイト「Hugging Face」(下の写真)に公開されており、モデルをダウンロードして開発環境を構築する。NvidiaはCosmosをオープンソースとして公開することで、ロボットや自動運転車などPhysical AIの開発が進むと期待している。

出典: Hugging Face

ヒューマノイドロボット開発プロジェクト

Nvidiaはヒューマノイドロボット開発プロジェクト「GR00T」を運用しており、パートナー企業はここで多彩なロボットを開発している。Nvidiaが世界におけるヒューマノイドロボット開発のハブになっている。ヒューマノイドロボットは大規模言語モデルを搭載し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルとなる。Cosmosはこれに次ぐプロジェクトで、ロボット開発のためのシミュレーション環境を生成し、アルゴリズム教育を効率化する。基調講演で、Jensen Huangは共同開発しているヒューマノイドロボットと共に壇上に立ち、エコシステムの広がりをアピールした(下の写真)。

出典: Nvidia

米国AI市場に激震が走る!!中国企業がオープンソース生成AIでトップに立つ、「DeepSeek-V3」が「Meta LLama-3.1」を追い越す、開発コストは1/10で効率を極めたモデル

中国のAI企業DeepSeek-AIは大規模言語モデル「DeepSeek-V3」を公開したが、その性能は高く、開発コストは低く、米国AI市場に衝撃をもたらした。DeepSeek-V3はMetaのハイエンドモデル「Llama-3.1-405B-Inst」の性能を追い越し、更に、開発コストはMetaの1/10で、極めてコストパフォーマンスが高い製品となった。米国企業がAI市場で首位を保ってきたが、その地位が逆転した。

出典: DeepSeek

中国スタートアップ企業

DeepSeek-AIは中国・杭州市に拠点を置くスタートアップ企業でAI開発で高度な技術を持つ。人間の知能に匹敵するモデル「AGI」を社会に提供することを目的に、高度な言語モデルを開発を進めている。DeepSeek-AIは大規模言語モデルを投入してきたが、12月26日、最新モデルの「DeepSeek-V3」をリリースした。

DeepSeek-V3とは

DeepSeek-V3は大規模言語モデルで、AGI開発に向けたステップとして、人間のように複雑なタスクを実行する。具体的には、言語解析に加え、推論機能を備え、マルチモダルな情報を理解する。また、DeepSeek-V3は倫理的で安全なAIとして設計されており、セーフガード機構を備え、リスクを最小に抑える構造となっている。DeepSeek-V3はAPIが公開されアプリケーションから利用できる。また、ブラウザーのインターフェイスで対話形式で使うこともできる。

DeepSeek-V3を使ってみると

DeepSeek-V3はウェブサイトでチャットボットとして公開されており、実際に使ってその性能を検証することができる。DeepSeek-V3は対話モデルの他に、推論モデル、検索モデルとして利用できる(下の写真、検索モデルの事例、旅行プランの作成)。

  • 対話モデルは汎用的なチャットボット
  • 推論モデルは複雑なタスクを分割してステップごとに解いていく
  • 検索モードは問われたことに関し、ウェブサイトを検索して、それを回答の形にまとめて出力する

DeepSeek-V3の知識は2023年10月までの情報で、新しい事柄に回答できない。これに対し、検索モードは最新情報までをカバーするので、使ってみて一番便利と感じる。また、DeepSeek-V3はインファレンスの反応時間が短く、質問したことをほぼリアルタイムで回答する。一方、推論機能はまだ完成度が低く、複雑な質問に正しく回答することができない。

出典: DeepSeek

業界トップの性能に到達

DeepSeek-V3はオープンソースモデルの中でトップの成績をマークした。今までは、Meta LLama-3.2が業界をリードしていたが、DeepSeek-V3がこの座を奪った(下のグラフ、ここではLlama-3.1-405B-Instの性能が示されている。)。また、DeepSeek-V3はクローズドソースのモデルと比較しても高い性能を示し、Anthropic Claude 3.5 Sonnetに匹敵する性能を達成した。DeepSeek-V3の特徴は数学の問題を解く能力が高いことと、コーディングとエンジニアリングで高いスキルを持つことにある。

出典: DeepSeek

アーキテクチャで数々の工夫

DeepSeek-V3は671Bのパラメータから構成される大型モデルで、「Mixture-of-Experts (MoE)」というアーキテクチャを採用している。MoEとはモデルが複数のモジュールから構成され、トークン(入力データ)に対し最適のモジュール(エキスパート)が回答を生成するという構造となる(下の写真右上の部分)。実際には、257のエキスパートから構成され、1つの共有エクスパートと、256の専門エキスパートが金融や医療など専門分野の知識を持つ。また、DeepSeek-V3は「Multi-head Latent Attention (MLA)」という方式を考案した。これはトランスフォーマ(Transformer)のアテンション機構に関する方式で、インファレンスのプロセスで、「Key-Value」 (入力されたトークンの位置と値の組合せ) をベクトル形式(Latent Vector)に変換し、それを圧縮して格納する(下の写真右側下段)。これにより、実行時のメモリー容量を格段に縮小し効率的に稼働できる。

出典: DeepSeek

開発コストは十分の一

DeepSeek-V3の開発では、プレ教育において14.8兆のトークンがつかわれた。また、ポスト教育においては人間によるファインチューニングと強化学習により、モデルが人間の価値に沿って稼働するよう最適化された。この教育ではNvidia GPUの「H800」というモデルが2778K時間使われた。これを金額に換算すると5.576Mドルとなる(下のテーブル)。これに対し、Meta Llama-3.2の教育では、Nvidia GPUの「H100」を30.8M時間稼働させ、コストに換算すると500Mドルと推定される。DeepSeek-V3はLlama-3.2の性能を上回り、これを1/10のコストで達成した。

出典: DeepSeek

API価格が激安

開発コストが低いことは開発者の観点からは使用料金が低いことを意味する。API価格(1Mトークン当たりの価格)で比較すると、DeepSeek-V3の性能は他社に比べて高く、価格は大幅に低く設定されている(下のグラフ)。特に、Anthropic Claude 3.5 Sonnetと比較すると、性能は同程度であるが、API価格は1/10となっている。DeepSeek-V3のインパクトは甚大で、AI市場で価格競争が激化するトリガーとなる。

出典: DeepSeek

GPU規制とイノベーション

米国政府はNvidia GPUの中国への輸出を制限しており、ハイエンドモデル「H100」は規制の対象になり、中国へ出荷することができない。これに代わり、Nvidiaはローエンドモデル「H800」を投入し、これを中国に出荷している。DeepSeekはローエンドモデルH800を使い、このプロセッサでDeepSeek-V3を開発した。H800でMetaに勝る性能に到達した理由はソフトウェアやハードウェアで様々な工夫を凝らしたことにある。トランスフォーマでは上述の通り、「Multi-head Latent Attention (MLA)」という技法を導入し、効率的なインファレンスを達成した。ハードウェアではNvidiaの高速リンク(「InfiniBand」 (ノード間通信)と「NVLink」(ノード内通信))の使い方を最適化した。DeepSeekは高速GPUを使えないという制限が課され、これがイノベーションに繋がったとも解釈できる。

フェアな開発競争か

一方、DeepSeekはGPT-4をベースに開発され、公平な競争とは言えないとの議論が広がっている。DeepSeekにモデルの構成を尋ねると、「OpenAIのGPT-4のアーキテクチャに基づくモデル」と回答した(下の写真)。GPT-4に関する技術資料を参照しモデルが開発されたと説明してくれた。一方、市場ではDeepSeekの教育においてGPT-4が生成したデータが使われたとの解釈が広がっている。その根拠として、GPT-4が出力する文言がそのままDeepSeekに受け継がれている。DeepSeekはGPT-4の知識を継承したモデルとなり、これはフェアな開発手法か意見が分かれている。OpenAIはGPT-4などでAIモデルを開発することを禁止しており、DeepSeek-V3はこの使用条件に違反したことになる。DeepSeekの開発手法に懸念が示されているが、モデルの性能は高く価格は安く、AI市場の”黒船”となった。

出典: DeepSeek

OpenAIは推論モデル最新版「o3」を公開、ベンチマークテストで人間のIQに匹敵する性能を達成、AGIに向けて大きく前進

OpenAIは年末発表イベント「12 Days of OpenAI」の最終日に推論モデル最新版「o3」を発表した(下の写真)。これはイベント初日に発表された「o1」の後継モデルとなる。(「o2」をスキップした理由は通信会社テレフォニカが英国などで「O2」というモバイルサービスを運用しているため。) o3は推論機能が更に強化され、AGIのレベルを測定するベンチマークテストで人間の知能に匹敵する性能を示した。o3は安全試験を実施するために研究者に公開されたが、一般リリースは来年1月以降となる。

出典: OpenAI

推論モデルとは

推論モデルとは人間のように論理的な思考ができるAIで、与えられたテーマを分類整理して、筋道を立てて結論を導く機能を持つ。科学や数学やコーディングで高度な機能を発揮し、研究者や開発者がアシスタントとして利用する。推論モデルはインファレンスのプロセスが強化され、問われたことを即座に回答するのではなく、熟慮して最適な解を生成する。12月5日に「o1」がリリースされ、12月20日に最新モデル「o3」が発表され、OpenAIは相次いで推論モデルを投入した。

知能が格段に向上

o3の最大の特徴は知能指数(IQ、Intelligence Quotient)が大きく向上したことにある。AGIのレベルを測定するベンチマークテスト「ARC-AGI」で、o3はo1の性能を遥かに上回り、人間レベルの知能に到達した (下のグラフ:o3は黄色の丸印、o1は赤色の丸印、人間の平均は灰色の丸印・AVG MTURKERで示されている)。ARC-AGIはコンピュータ実行時間に制限(計算コストが10,000ドル以内)を設けており、「O3 LOW」はこれに沿った結果で、「O3 HIGH」はこの条件を満たさないが参考データとして表示している。O3 LOWは平均的な人間(Amazonのクラウドワーカー)の知能に匹敵し、O3 HIGHは大学卒業者レベル(Stem Graduates)の知能に迫っている。

出典: ARC Prize

ARC-AGI:知能レベルを試験するテスト

このベンチマークテストは「ARC-AGI」と呼ばれ、AGIのレベルを測定する試験となる。AIのベンチマークテストでは、言語を理解する能力や数学の問題を解く技能が評価されるが、ARC-AGIはこれとは異なり、AIの知能レベルを測定する。人間の知能指数を測定する試験に近く、知識ではなく新たな問題を解決する能力や、獲得したスキルを汎用的に応用するスキルが問われる。ARC-AGIの試験は下のグラフィックスの通りで、Ex. 1からEx. 3で示されたパターンから、そのルールを解読し、テストパターンから正解のパターンを導き出す。

出典: ARC-AGI

ベンチマークテストの結果

ARC-AGIは通常のベンチマークテストとは異なり、フロンティアモデルがどれだけAGIに近いかを測定するために使われる。通常のベンチマークテストでは、AIモデルが問題を覚えているケースが多く、機能を正しく測定できない問題が指摘されている。これに対しARC-AGIは、同じ問題を提出することはなく、全てが新規な質問で、モデルの知能を試験する。この試験でo3は好成績をマークし、モデルは新しいタスクを解く機能があることが示された。一方、o3は人間だと簡単に解くことができる問題で正解を導くことができず、AGIと認定されるには更なる開発が必要であると結論付けている。

安全評価

OpenAIはo3を発表したが、一般に公開する前に、研究者による安全試験を実施することを明らかにした。これに向けて、OpenAIは安全試験に参加する研究者を募っている(下の写真)。OpenAIは既に、外部組織と共同で「Red Teaming」という手法でフロンティアモデルの安全試験を実施している。Red Teamingは専門家がモデルを攻撃して、その問題点を洗い出す手法で、安全試験の常套手段となる。また、バイデン政権はフロンティアモデルを出荷する前に、開発企業に安全試験の実施を義務付けており、OpenAIはこの規制に準拠して、政府機関と共同で検証を進めている。

出典: OpenAI

推論モデルの開発競争が激化

OpenAIは推論モデルを相次いで投入したが、市場では競争が激化しており、会社の地位が相対的に低下している。Googleはこれに対抗して、推論モデル最新版「Gemini 2.0 Flash Thinking Mode」を試験的にクラウドで公開し、機能開発を進めている。また、Alibabaは推論モデル「QwQ」をオープンソースとして公開し、OpenAIの性能に迫っている。OpenAIはフロンティアモデルの開発で他社をリードしてきたが、他社から高性能なモデルが投入され、その実力が相対的に沈下している。