人間の知能に匹敵するAGIの登場!?OpenAIは推論モデル「o3」と「o4-mini」を公開、o3は天才レベルのIQに到達、マルチモダル機能を備えイメージ解析能力が劇的に向上

OpenAIは最新の推論モデル「o3」と「o4-mini」をリリースした。OpenAIは言語モデル「GPTシリーズ」と推論モデル「oシリーズ」を運用しているが、「o3」と「o4-mini」は後者の最新製品となる。最新モデルは推論機能が大幅に強化され複雑なタスクを実行する。推論機能では思考の鎖「Chain of Thought」という方式で教育され、複雑な問題をステップごとに思考し最終解を導き出す。最新モデルは、思考の過程にテキストだけでなくイメージを組み込むことができ、インテリジェンスが格段に向上した。

出典: Generated with OpenAI o3

推論モデル製品ライン

OpenAIは推論モデル「o3」と「o4-mini」をリリースした。o3はフルサイズのモデルで推論機能が極めて高く、難解な問題を解決するために使われる。o4-miniは小型の推論モデルで、実行時間が短く、プログラミングなどで実力を発揮する。両者は性能が拮抗しているが、難解な問題を解く技能についてはo3が高い能力を発揮する。(下のグラフ右側、業界で最難関のベンチマーク試験でo3は高度な能力を発揮)

出典: OpenAI 

マルチモダルな推論機能

OpenAIが公開したモデル情報を読むと推論機能が強化されたことが分かるが、実際に、モデルを使ってみるとそのインテリジェンスの高さに驚愕する。特に、推論機能をイメージに適用したケースでは、想像以上の機能を発揮し、マルチモダルの推論機能の高さを実感する。推論モデルが視覚を持ち、人間のインテリジェンスに最接近した。

o3を使ってみる:次の停車駅は

o3はChatGPTのインターフェイスでブラウザーから利用できる。o3はマルチモダルの機能と外部ツールを使用する機能が搭載され、回答できる範囲が広がった。イメージに関する解析機能が格段に向上し、入力した写真について難しい問いに回答することができる。o3にサンフランシスコ市内で撮影した路面電車の写真をアップロードし、「次の停車駅はどこか」と質問すると、これに正確に答えることができた(下の写真)。

出典: OpenAI

イメージ解析の手法

o3は思考の過程を「Chain of Thought」として出力し、解析の手法を理解することができる(下の写真)。これによると、o3は写真の中で路面電車の背後に写っているホテル(Hotel Zelos)から、ここはサンフランシスコのマーケットストリートであると判断。マーケットストリートを走る路面電車の路線は「Route F」で、南向きに走行しており、次の停車駅は「Market & 5th (Powell)」と判定した。o3は推論の過程で、インターネット上の20のサイトにアクセスし、必要な情報を取集した。その中で、サンフランシスコ運輸局(San Francisco Municipal Transportation Agency)のサイト(右カラム)で路線に関する情報を収集し停車駅を特定した。

出典: OpenAI

o3を使ってみる:このレストランは

o3にレストランで撮影した料理の写真を入力し、この場所を質問すると、o3はこれも正しく回答した(下の写真)。レストランの料理の写真から、想定されるレストランを特定し、それを絞り込んで最も確からしい候補を回答した。このケースでも、o3の思考の鎖(Chain of Thought、右側のカラム)を読むと、問題解決の手順を理解することができる。

出典: OpenAI

レストランを特定する

o3はテーブルに並べられた料理の写真から、これは「地中海・中近東料理」であることを特定した。また、料理のスタイルから、中近東のグリル形式の料理に絞り込んだ。更に、o3は旅行ガイドサイト「Tripadvisor」などにアクセスして、候補のレストランを複数提示した。そのトップが正解の「Café Baklava」でo3は正しく回答にたどり着いた。

出典: OpenAI

o3を使ってみる:フェイクイメージの検知

o3はフェイクイメージを検知するスキルを持っていることが分かった。o3にxAI Grok 3で生成したフェイクイメージを入力し、その真偽を判定するよう指示すると、正しく回答することができた。トランプ大統領と大谷選手が談話している合成写真に関し、o3はこれはフェイクイメージであると結論付けた(下の写真)。従来のイメージ判定AIは、ビジュアルな側面からイメージが改造された手掛かりを見つけるが、o3は多角的なアプローチを取り、FBIの捜査官ののように、ビジュアルな観点と論理的な考察を重ね総合的に判定する。

出典: OpenAI

フェイクを見分ける技法

このケースでは、イメージ解析の側面からは、トランプ大統領がビール瓶を握っている指の形が不自然で、o3はAIで生成する際の特性であると判定した。また、トランプ大統領のライフスタイルを解析し、大統領はアルコールを飲まないことを公表しており、このイメージはこのシナリオに反していると判断。また、ホワイトハウスのビジネス慣習の観点からは、重要なイベントはプレスリリースとして公開され、複数の写真が添付されるが、写真が単独で公開されている点や、主要メディアがこれを報道していないなど、不自然な点が多いとし、総合的な見地からフェイクイメージと断定した(下の写真)。

出典:OpenAI

IQテスト

o3はリリースされているAIモデルの中で最も高いIQ(Intelligence Quotient、知能指数)をマークした。AIの技術動向をモニターする団体「Maximum Truth」はAIモデルのIQ試験を実施し、その結果を公表している(下のグラフ)。それによると、o3のIQは136で業界トップの成績を達成した。二位はGoogle Gemini 2.5 Proで128をマークした。同時に発表されたo4-miniは118で五位の成績となる。このIQテストは「Mensa Norway」という方式で、人間の平均的なIQは85から114のレンジとなる。o3のIQが136とは、人間の上位1%の知能を持つことを意味し、天才(Moderately Gifted)であると定義される。AGIの定義は確定していないが、o3はこのレンジに入っているとの解釈もある。

出典:OpenAI

インファレンス・コンピューティング

o3は言語モデルとは異なり、推論機能を実行するためには、計算時間が長くなる。上述の路面電車の停車駅を判定するケースでは、計算時間は9分20秒を要した。言語モデルはほぼリアルタイムで回答を生成するが、推論モデルでは計算時間が20倍から100倍長くなる。これはインファレンス・コンピューティングと呼ばれ、実行時のプロセスで計算資源が必要となる。

スケーリング

OpenAIなど開発企業の観点からは、インファレンス・コンピューティングで大規模な計算環境が必要となり、運用コストが増大する。利用者の観点からは、AIモデルの使用料が上がり、出費が増大することになる。o3は「ChatGPT Plus(月額20ドル)」のサブスクリプションが必要で、かつ、利用件数は50件/週に限定される。制限なしに利用するためには「ChatGPT Pro(月額200ドル)」のサブスクリプションを購入する必要がある。利用者としては負担が増えるが、AIビジネスの観点からは、推論モデルの性能がスケーリングし、事業拡大が見込まれる。市場が再び大きく拡大するチャンスとなる。

Metaは巨大言語モデル「Llama 4」を公開、オープンソースが業界トップの性能を達成、中国モデルの躍進を受け性能とコストを大幅に改良

Metaは最新のオープンソース言語モデル「Llama 4」を公開した。Llama 4はOpenAI GPT-4.5など業界のトップモデルの性能に並び、オープンソースがクローズドソースのレンジに入った。Llama 4はマルチモダルな構造で、イメージやビデオをそのまま処理することができる。Llama 4は「Mixture of Expert (MoE)」というアーキテクチャを採用し、複数の専用モジュールがモデルを構成する。これにより、教育や実行のプロセスで計算量を低減し、運用コストを大幅に抑えた。

出典: Generated with Meta Llama 4

Llama 4のモデル構成

Llama 4はMetaの最新言語モデルで三つのラインから構成される。規模の順に「Behemoth」、「Maverick」、「Scout」となる。Behemothはまだ開発中で、MaverickとScoutがリリースされた。Llama 4はマルチモダルで「Mixture of Expert(MoE)」というアーキテクチャとなる。モデルの特徴は:

  • Llama 4 Behemoth:ハイエンドモデル、最もインテリジェントなモデル、教師モデルとして他のモデルをKnowledge Distillation(知識抽出)の手法で開発、パラメータ数は2T
  • Llama 4 Maverick:ミッドレンジモデル、マルチモダル処理に特徴、パラメータ数は400B
  • Llama 4 Scout:ローエンドモデル、コンテクストサイズ(入力できるデータの量)は10Mと巨大、パラメータ数は109B
出典: Meta

Llamaの利用方法

MetaはLlamaを「Meta AI」に公開しており、このサイトで利用することができる。Meta AIはLlamaのインファレンスサイトで、ブラウザーのインターフェイスで、モデルを使うことができる(下の写真、Llama 4 Scoutがイメージを生成)。対話形式のAIモデルで、プロンプトに対し、Llamaが回答を生成する。特に、Metaはイメージ生成技術にフォーカスしており、Llamaは指示された内容に沿って綺麗なイメージを生成する。

出典: Meta AI

Llama 4をダウンロード

Llama 4をHugging Faceからダウンロードして利用することができる。Hugging FaceはオープンソースAIのハブで、ここにLlama 4が公開されている。ここは開発者向けのサイトで、社内のサーバやデスクトップにダウンロードして利用する。但し、Llama 4はモデルのサイズが大きく、PCでは容量が足りず、最低限でもNvidia GPU H100が1ユニット必要となる。また、Hugging Faceはインファレンスサービスを提供しており、ここでLlama 4をトライアルで実行しその機能や性能を検証することができる(下の写真、Maverickで入力した写真を解析)。

出典: Hugging Face

クラウドサービス

主要クラウドはLlama 4のホスティングを開始し、ここでモデルを利用することができる。Googleはクラウド「Vertex AI」でLlama 4のホスティングを始め、この環境でモデルを実行することができる(下の写真)。また、独自のデータでLlama 4をファインチューニングし、専用モデルを開発することができる。GoogleはLlamaの他に、DeepSeekなど主要オープンソースをホスティングをしており、ここで様々なモデルを利用できる。

出典: Google

Llama 4 Maverickの性能

Llama 4 Maverickはシリーズの中核モデルで、他社の主要モデルに対抗する位置づけとなる。MaverickはMoEアーキテクチャを採用し、128のエキスパートで構成される。モデル全体ではパラメータ数は400Bであるが、インファレンス時に活性化されるパラメータ数は17Bで、効率的に稼働させることができる。ベンチマークサイト「LMArena」はモデルの性能を公開しており、これによると、MaverickはGPT-4.5やGrok 3などを追い越し、二位の位置を占めている(下のグラフ)。

出典: AI Arena benchmark scores

Mixture of Expertsの採用

アーキテクチャの観点からは、MetaはLlama 4で「Mixture of Experts (MoE)」という方式を採用した。Llama 3までは「Dense Model」と呼ばれる単一構成のモデルで、Llama 4からMoEに移った。MoEとは入力されたプロンプトに対し、最適なエキスパート(専門モジュール)がアサインされ、タスクを実行する仕組みとなる(下のダイアグラム)。

出典: Meta

Mixture of Expertsの仕組み

具体的には、ルーター「Router」がプロンプトを解析し、最適なエキスパートにデータを転送、この専門モジュールで処理が進むまた、共有エキスパート「Shared Expert」はプロンプトの内容に関わらず、常に使われるモジュールとなる。MoEにより活性化されるネットワークが限定され、トレーニングやインファレンスを効率的に実行できる。Llama 4 Maverickのケースでは、モデル全体でパラメータの数は400Bであるが、実行時には17Bのパラメータが活性化され、システムの4%の部分だけが稼働し、計算処理を大きく低減する。

DeepSeekとの競合

MetaはDeepSeekの衝撃を受けてLlama 4の開発を急ピッチで進めた。DeepSeekが高度な言語モデル「DeepSeek-V3」をリリースし、MetaのAI開発チームはこの技術を詳細に解析し、これがLlama 4に反映されている。Llama 4 MaverickはDeepSeek-V3を意識した設計となっており、DeepSeek-V3と同等の推論機能を半分の規模(パラメータの数が1/2)で実現した。DeepSeekとの競合でMetaの技術開発が大きく前進したかたちとなった。

トランプ大統領は相互関税を発表、日本は24%、関税率算出の根拠をAIモデルで評価すると、「単純すぎる手法で間違っている」と判定!!

トランプ大統領はホワイトハウス・ローズガーデンで、米国の関税を引き上げることを発表した。大統領は貿易相手国に「相互関税(Reciprocal Tariff)」を課すことで米国が再び豊かになる(Make America Wealthy Again)との見通しを示した。また、貿易相手国の関税率や非関税障壁を基礎データとし、自国の関税を引き上げたと説明した。日本には24%の関税が課されることになる。しかし、米国社会ではどのように関税率を算定したのか、その根拠について議論が広がっている。また、米国の市民生活では、物価が上昇し、iPhoneの価格が2,300ドル(345,000円)の時代になると不安感が増幅している。

出典: White House

関税率算定の根拠に関する議論

ソーシャルメディアでトランプ政権が関税率を算定した根拠についての議論が広がっている。米国主要メディアは、関税率をリバースエンジニアリングして、「関税率=貿易赤字÷輸入額」としたと報じている(下のテーブル)。日本のケースでは、貿易赤字($68.5B)÷輸入額($148.2B) = 46%となる。一方、トランプ大統領はホワイトハウスでの発表会見で、貿易相手国に“優しい”政策を取り、関税率を半減すると説明した。そのため、日本への関税率は「46%÷2 = 約24%」となる。

出典: Politico

ホワイトハウスの見解

ホワイトハウスはメディアからの問い合わせを受けて、関税率算出の根拠となる資料を公表した(下の写真)。これはアメリカ合衆国通商代表部(Office of the United States Trade Representative)が作成したもので、相互関税(Reciprocal tariffs)の目的は、貿易相手国と貿易赤字のバランスを取るための政策であるとしている。税率は、相手国の関税と非関税を勘案して算定し、これにより相手国からの輸入量を低減し、長期的なバランスを保つことができるとしている。

出典: United States Trade Representative

関税率算定の方式

通商代表部はこの中で、関税率算定のアプローチについて説明している(下の写真)。これによると、関税率は「(貿易赤字÷輸入額)÷(弾力性)」となり、メディアで議論されている方式と同じ考え方となる。ただ、「弾力性(Elasticity)」という係数が導入され、輸入品の関税率に対する変動率が加味された。弾力性とは、関税を上げた際の輸入量の減少の変動率を示すもので、弾力性が高い商品と低い商品がある。ジュエリーなど装飾品は関税率を上げると購買量が低減し、弾力性が高い商品となる。一方、半導体など社会インフラを構成するアイテムは、関税率を上げても購買量がそれほど低減しないで、弾力性が低い商品となる。ホワイトハウスは弾力性=1.0として算定し、大統領の“優しい政策”で弾力性=2.0とし、関税率を半減した。

計算方法

通商代表部が公開した関税率算定数式(下の写真最下部)の定義は:

  • Δτᵢ: 貿易相手国(i)に対する関税率の変化(新関税率)
  • ε: 貿易品の弾力性
  • φ: 輸入価格への転移率
  • mᵢ: 輸入総額
  • xᵢ: 輸出総額

これらの記号で関税率を表すと次の通りとなる:

  • 新関税率(Δτᵢ) =(貿易赤字(xᵢ – mᵢ )÷輸入額(mᵢ))÷(弾力性(ε * φ))
出典: United States Trade Representative

関税率算定方式をAIで評価すると

この数式で関税率を算定することに関し、AIモデルにその妥当性について質問してみた。Gemini 2.5に上述の方式を入力し、その評価について質問すると、この数式は「単純化しすぎており妥当な方式ではない」との回答が返ってきた(下の写真)。この方式は二国間における関税率を算定するための簡便な法式であるが、基本的に間違っていると判定した。貿易赤字は関税率だけで決まるものではなく、投資レベルや為替レートなど複雑な要素が関連しており、これらを加味する必要があると説明した。

出典: Google

関税率算定方式を尋ねると

Gemini 2.5に関税率を算定する方式を尋ねると、トランプ政権の方式は「単純すぎる手法で間違っている」と指摘し、国際社会で共通理解が確立されていないが、一般に使われている手法を解説した(下の写真)。これによると、関税率の算定では1)ダンピング課税(Anti-Dumping (AD) Duties)と2)相殺関税(Countervailing Duties (CVD))があり、そのコンセプトと計算式を解説した。関税率を世界全体に一律に算定することは不可能で、国ごとの要件を勘案し、二国間でこれを決定することが基本ルールとなる。

出典: Google

トランプ政権の関税率早見表

トランプ政権の関税率の考え方に基づき、GPT-4oで関税率の早見表のコードを生成した。このコードを実行すると、米国の貿易相手国に対する関税率を可視化するグラフを生成できる。日本の場合は、日本からの輸入額と日本への輸出額を入力すると、関税率を算定する(下の写真)。ここでは、トランプ大統領が発表した”優しい関税政策”「弾力性 = 2.0」を使った。Gemini 2.5やGPT-4oを使うと、関税率に関する作業を自動化できる。社会生活で不安が広がる中、ホワイトハウスはこれらAIモデルを使って、国民に関税政策を分かりやすく伝えてほしいと感じた。

出典: Google CoLab Notebook

Googleは最もインテリジェントなモデル「Gemini 2.5」を公開、推論機能が 強化され業界トップの性能をマーク、中国企業を大きく引き離す

Googleは最新モデル「Gemini 2.5」をリリースし、ベンチマークテストで二位に大きく差を付け、業界トップとなった。GoogleはGemini 2.5を最もインテリジェントなモデルと呼び、推論機能が強化され、プログラミングや複雑なタスクの実行で実力を発揮する。Gemini 2.5はDeepSeek R1の性能を大きく上回り、米国企業が再び実力を示した。

出典: Generated with Google ImageFX

推考モデル

Gemini 2.5はGoogle DeepMindが開発した最新モデルで、推論機能が強化され、最もインテリジェントなモデルとなった。Google DeepMindはGemini 2.5を「Thinking Model(推考モデル)」と呼び、推考を重ね複雑な問題を解く構造となる。プログラミング機能が高く、複雑なコードをエラー無く生成することができる。

主要機能と開発手法

Gemini 2.5は高度な推論機能を持ち、情報を解析し、論理的な帰結を導き、情報に基づく意思決定を行う。Googleは推論機能の開発で、強化学習「Reinforcement Learning」や思考連鎖「Chain-of-Thoughts」の手法を用いてきた。この結果が前世代モデル「Gemini 2.0 Flash Thinking」に反映された。Gemini 2.5はこれをベースにポスト教育で機能が強化され、インテリジェンスが大きく向上した。

ベンチマーク結果

Googleはこのモデルを「Gemini 2.5 Pro Experimental」として製品化しこれを公開した。また、GoogleはGemini 2.5 Proのベンチマーク結果示し、高い性能をマークしたことをアピールした(下のグラフ)。これによると、Gemini 2.5 Proはコーディング、数学、科学など、推論機能が問われるタスクで高度な成績を示した。Gemini 2.5 Proの対抗機種はOpenAI 03-miniであるが、ほぼすべての項目で性能が上回った。また、DeepSeek R1に対しては全ての項目で性能が大きく上回った。

出典: Generated with Google Gemini 2.5 Pro

利用環境

Gemini 2.5 ProをGoogleのAIスタジオ「Google AI Studio」で利用することができる(下の写真)。Google AI Studioは最新モデルGemini 2.5の他に、Gemini 2.0やGemini 1.5などを提供している。また、GoogleのオープンソースモデルGemma 3とGemma 2を使うことができる。AI StudioはAIモデルのサンドボックスで、ここでモデルを試験し、機能や性能を検証することができる。またGoogleは、AIクラウド「Vertex AI」でGemini 2.5を近日中に提供するとしている。

出典: Google

プログラミング性能

実際にGemini 2.5 Proを使ってみるとプログラミングの機能が極めて高いことが分かる。プログラムを作成するにあたり、コーディングする必要は無く、Gemini 2.5 Proに言葉で指示するだけでコードを生成できる。例えば、人気ゲーム「テトリス」をJavaScriptでコーディングするよう指示すると、Gemini 2.5 Proはコードを生成し、その機能や使い方を説明する(上の写真)。生成されたコードを何も修正することなく、そのままJavaScript開発環境「p5.js」で実行することができる(下の写真)。

出典: p5.js

ソフトウェア開発機能

Gemini 2.5 Proはソフトウェア開発における強力なツールとなり、ウェブアプリケーションやAIエージェントの開発で威力を発揮する。Gemini 2.5 Proはグラフィカルなインターフェイスのプログラムを得意とし、ウェブサイトやウェブゲームの開発で使われる(下の写真、Gemini 2.5 Proで簡単にインタラクティブなグラフを生成できる)。また、AIエージェントの開発が急速に進んでおり、Gemini 2.5 Proは人間に代わり複雑なプログラミングを実行する。Gemini 2.5 Proは実社会のエンジニアリングで役に立つモデルとして設計された。

出典: Google

コーディングの品質

Gemini 2.5 Proを使うと、最低限のプログラミングのスキルで、コードを生成できる。プロンプトにプログラムの概要や使用する言語を入力するだけで、Gemini 2.5はコードを出力する。多くの推論モデルがコーディング機能を備えているが、Gemini 2.5の機能が最も洗練されているように感じる。Gemini 2.5はワンショットでエラーの無い高品質なコードを生成する。

バイブコーディング

言葉だけでAIモデルを使ってコーディングする手法は「バイブコーディング(Vibe Cording)」と呼ばれ話題となっている。いま、必要なプログラム言語は「Python」ではなく「英語(普通の言葉)」であるといわれている。コンピュータの知識が無くてもプログラミングできる時代が到来したとも言われている。しかし、実際にGemini 2.5 Proなどを使って言葉でコーディングしてみると、コードは自動で生成されるが、それを編集し運用するためには、それなりのスキルが求められる。コードの位置づけや、開発環境、実行環境など、プログラミングに関する基礎知識が必須となる。バイブコーディングはトレンディなコンセプトであるが、企業のプログラム開発で使うことができるのか、実社会でのベンチマークが必要となる。

Nvidia開発者会議レポート:推論コンピューティングの需要が爆発!!「AIファクトリ」でインテリジェンスを製造、100倍高性能なプロセッサが必要

Nvidiaは開発者会議「GTC 2025」を開催し、CEOのJensen Huangは基調講演で、「AIファクトリ」の構想を明らかにした。AIモデルの主流は言語モデルから推論モデルに移り、推論モデルを稼働させるために大規模な計算環境が必要になる。推論モデルの実行に特化したデータセンタをAIファクトリと呼び、ここでの処理量が100倍拡張する。言語モデルが性能の限界に達したとの議論があるが、推論コンピューティングで性能は伸び続け、データセンタの拡張が続くとの見通しを示した。

出典: Nvidia

AIの基本単位

AIの基本単位はトークン「Token」で、言語モデルでは言葉の単位(単語など)を表現する用語となる。トークンは言葉だけでなく、イメージを構成する最小単位となり、AIが写真や動画を生成する。科学技術の分野においては、トークンがイメージを物理情報に変換し、気象予報などで使われている(下の写真、ロスアンゼルスの大火災の解析)。トークンがデータをインテリジェンスに変換し、新薬の開発や、自動運転車の開発や、ロボットの教育で使われる。

出典: Nvidia

スケーリングの法則

言語モデルの開発では拡張性が限界に達し性能の伸びが鈍化したとの議論がある。これはスケーリングの法則(Scaling Law)と呼ばれ、言語モデルの規模を拡大しても、それに従って性能が伸びないポイントに達した。これに対し、Huangはスケーリングの法則を三段階に分割し、性能は伸び続けていることを解説した。プレ教育とポスト教育のあとに、インファレンス(モデル実行)のプロセスが続くが、ここで計算需要が急速に拡大している(下の写真、右上の部分)。

出典: Nvidia

推論モデルの実行

AIモデルは言語モデルから推論モデルが主流となり、推論モデルの実行で性能が伸び続けている。推論モデルの実行は「Long Thinking」という方式で処理が進み、問われたことにワンショットで回答を生成するのではなく、問題を考察し異なる思考法を試し、最適な解答を生成する。これは「Chain-of-Thoughts」など推論技法で、このプロセスを経ることでモデルはインテリジェンスを向上させる。このプロセスでは大量のトークンを生成し、大規模なプロセッサが必要となる。実際に、言語モデルに比べ推論モデルでは、生成するトークンの数が20倍となり、150倍高速なプロセッサが使われる(下の写真)。

出典: Nvidia

推論モデルが注目される

DeepSeekショックで推論モデルへ注目が集まった。DeepSeekは高度な推論モデル「DeepSeek R1」を低コストで開発し、AI開発競争の軸が米国から中国に広がった。OpenAIは推論モデル「o1」を公開し、最新モデル「o3」を開発している。推論モデルは言語モデルを強化学習の手法でポスト教育したもので、論理的な思考機構を搭載し性能が格段に向上した。推論モデルがこれからの基軸モデルとなり、モデルを実行するために大規模な計算機環境が必要となる。

AIファクトリのミッション

Nvidiaは推論モデルを実行するためのデータセンタを「AIファクトリ(AI Factory)」と命名し、ここでインテリジェンスを製造する。AIファクトリは、クルマを生産する工場とは異なり、「トークン」を製造する施設となる。言語モデルでは文章やイメージなどのトークンを生成するが、推論モデルでは思考過程とその結果のトークンを生成する。推論モデルではリアルタイムに大量のトークンが生成され、これは「Inference Problem」と呼ばれ、この需要を満たす大規模なデータセンタが必要となる。上述の通り、インファレンスのプロセスでは、推論モデルは言語モデルに比べ100倍の処理量が要求される。(下の写真、AIファクトリのイメージ、推論モデルの実行でBlackwellはHopperに比べ40倍の性能をマーク)

出典: Nvidia

AIファクトリのシステム構成

AIファクトリはプロセッサだけでなくそれを制御するソフトウェアなどで構成される。NvidiaはAIファクトリのテンプレートとして、必要なハードウェアやソフトウェアをパッケージしたモデルを公開した(下のグラフィックス)。主な構成要素は:

  • プロセッサ:Blackwellと Hopper
  • ネットワーキング:NVLinkとQuantum InfiniBand
  • ソフトウェア:TensorRT、NIM、Dynamoなど
出典: Nvidia

ソフトウェア構成

NvidiaはAIモデルの実行を効率的に行うソフトウェアの開発に重点を置いている。Nvidiaの特徴はツールやライブラリが充実しおり、開発したモデルをGPUで容易に稼働させることができる。AIファクトリの主要ソフトウェアは:

  • TensorRT:AIモデルをGPUで実行する環境、PyTorchやTensorFlowで開発されたAIモデルを稼働させる環境
  • NIM (NVIDIA Inference Microservices):AI実行のマイクロサービス、AIモデルと実行環境を統合したパッケージ
  • Dynamo:AIモデルの最適化エンジン、実行時にAIモデルを動的に最適化するツール

プロセッサのロードマップ

大規模AIファクトリを「Gigawatt AI Factory」と呼び、これに向けたプロセッサのロードマップを公開した。今年から2028年までのレンジをカバーし、毎年新たなアーキテクチャのプロセッサが投入され、機能と性能が伸び続けることを明らかにした(下の写真)。同時に、AIモデルを異なるアーキテクチャで稼働させるためのプラットフォーム「CUDA」についても、対象分野を拡大することを明らかにした。プロセッサのアーキテクチャは:

  • Blackwell:2025年、208B トランジスタ、20 PFLOPSの性能
  • Rubin:2026年、50 PFLOPSの性能、288GB HBM4メモリ
  • Rubin Ultra: 2027年、Rubinの強化モデル
  • Feynman:2028年、その次のモデル
出典: Nvidia

トークンの爆発

推論モデルのインファレンスでは言語モデルと比べ格段に多くのトークンが生成され、大規模な計算環境が必要になる。AIファクトリはトークンの製造工場となる。トークンがAIの基本単位で、膨大なデータをインテリジェンスに変換する。推論モデルをベースにAIエージェントが開発され、更に、ヒューマノイド・ロボットなどフィジカルAIに繋がる。基調講演の最後にはディズニーのロボット「Newton」が登場し、フィジカルAI技術の進化を示した(下の写真)。

出典: Nvidia