カテゴリー別アーカイブ: Nvidia

Nvidia開発者会議レポート:推論コンピューティングの需要が爆発!!「AIファクトリ」でインテリジェンスを製造、100倍高性能なプロセッサが必要

Nvidiaは開発者会議「GTC 2025」を開催し、CEOのJensen Huangは基調講演で、「AIファクトリ」の構想を明らかにした。AIモデルの主流は言語モデルから推論モデルに移り、推論モデルを稼働させるために大規模な計算環境が必要になる。推論モデルの実行に特化したデータセンタをAIファクトリと呼び、ここでの処理量が100倍拡張する。言語モデルが性能の限界に達したとの議論があるが、推論コンピューティングで性能は伸び続け、データセンタの拡張が続くとの見通しを示した。

出典: Nvidia

AIの基本単位

AIの基本単位はトークン「Token」で、言語モデルでは言葉の単位(単語など)を表現する用語となる。トークンは言葉だけでなく、イメージを構成する最小単位となり、AIが写真や動画を生成する。科学技術の分野においては、トークンがイメージを物理情報に変換し、気象予報などで使われている(下の写真、ロスアンゼルスの大火災の解析)。トークンがデータをインテリジェンスに変換し、新薬の開発や、自動運転車の開発や、ロボットの教育で使われる。

出典: Nvidia

スケーリングの法則

言語モデルの開発では拡張性が限界に達し性能の伸びが鈍化したとの議論がある。これはスケーリングの法則(Scaling Law)と呼ばれ、言語モデルの規模を拡大しても、それに従って性能が伸びないポイントに達した。これに対し、Huangはスケーリングの法則を三段階に分割し、性能は伸び続けていることを解説した。プレ教育とポスト教育のあとに、インファレンス(モデル実行)のプロセスが続くが、ここで計算需要が急速に拡大している(下の写真、右上の部分)。

出典: Nvidia

推論モデルの実行

AIモデルは言語モデルから推論モデルが主流となり、推論モデルの実行で性能が伸び続けている。推論モデルの実行は「Long Thinking」という方式で処理が進み、問われたことにワンショットで回答を生成するのではなく、問題を考察し異なる思考法を試し、最適な解答を生成する。これは「Chain-of-Thoughts」など推論技法で、このプロセスを経ることでモデルはインテリジェンスを向上させる。このプロセスでは大量のトークンを生成し、大規模なプロセッサが必要となる。実際に、言語モデルに比べ推論モデルでは、生成するトークンの数が20倍となり、150倍高速なプロセッサが使われる(下の写真)。

出典: Nvidia

推論モデルが注目される

DeepSeekショックで推論モデルへ注目が集まった。DeepSeekは高度な推論モデル「DeepSeek R1」を低コストで開発し、AI開発競争の軸が米国から中国に広がった。OpenAIは推論モデル「o1」を公開し、最新モデル「o3」を開発している。推論モデルは言語モデルを強化学習の手法でポスト教育したもので、論理的な思考機構を搭載し性能が格段に向上した。推論モデルがこれからの基軸モデルとなり、モデルを実行するために大規模な計算機環境が必要となる。

AIファクトリのミッション

Nvidiaは推論モデルを実行するためのデータセンタを「AIファクトリ(AI Factory)」と命名し、ここでインテリジェンスを製造する。AIファクトリは、クルマを生産する工場とは異なり、「トークン」を製造する施設となる。言語モデルでは文章やイメージなどのトークンを生成するが、推論モデルでは思考過程とその結果のトークンを生成する。推論モデルではリアルタイムに大量のトークンが生成され、これは「Inference Problem」と呼ばれ、この需要を満たす大規模なデータセンタが必要となる。上述の通り、インファレンスのプロセスでは、推論モデルは言語モデルに比べ100倍の処理量が要求される。(下の写真、AIファクトリのイメージ、推論モデルの実行でBlackwellはHopperに比べ40倍の性能をマーク)

出典: Nvidia

AIファクトリのシステム構成

AIファクトリはプロセッサだけでなくそれを制御するソフトウェアなどで構成される。NvidiaはAIファクトリのテンプレートとして、必要なハードウェアやソフトウェアをパッケージしたモデルを公開した(下のグラフィックス)。主な構成要素は:

  • プロセッサ:Blackwellと Hopper
  • ネットワーキング:NVLinkとQuantum InfiniBand
  • ソフトウェア:TensorRT、NIM、Dynamoなど
出典: Nvidia

ソフトウェア構成

NvidiaはAIモデルの実行を効率的に行うソフトウェアの開発に重点を置いている。Nvidiaの特徴はツールやライブラリが充実しおり、開発したモデルをGPUで容易に稼働させることができる。AIファクトリの主要ソフトウェアは:

  • TensorRT:AIモデルをGPUで実行する環境、PyTorchやTensorFlowで開発されたAIモデルを稼働させる環境
  • NIM (NVIDIA Inference Microservices):AI実行のマイクロサービス、AIモデルと実行環境を統合したパッケージ
  • Dynamo:AIモデルの最適化エンジン、実行時にAIモデルを動的に最適化するツール

プロセッサのロードマップ

大規模AIファクトリを「Gigawatt AI Factory」と呼び、これに向けたプロセッサのロードマップを公開した。今年から2028年までのレンジをカバーし、毎年新たなアーキテクチャのプロセッサが投入され、機能と性能が伸び続けることを明らかにした(下の写真)。同時に、AIモデルを異なるアーキテクチャで稼働させるためのプラットフォーム「CUDA」についても、対象分野を拡大することを明らかにした。プロセッサのアーキテクチャは:

  • Blackwell:2025年、208B トランジスタ、20 PFLOPSの性能
  • Rubin:2026年、50 PFLOPSの性能、288GB HBM4メモリ
  • Rubin Ultra: 2027年、Rubinの強化モデル
  • Feynman:2028年、その次のモデル
出典: Nvidia

トークンの爆発

推論モデルのインファレンスでは言語モデルと比べ格段に多くのトークンが生成され、大規模な計算環境が必要になる。AIファクトリはトークンの製造工場となる。トークンがAIの基本単位で、膨大なデータをインテリジェンスに変換する。推論モデルをベースにAIエージェントが開発され、更に、ヒューマノイド・ロボットなどフィジカルAIに繋がる。基調講演の最後にはディズニーのロボット「Newton」が登場し、フィジカルAI技術の進化を示した(下の写真)。

出典: Nvidia

Nvidiaは世界基礎モデル「Cosmos」を公開、AIは実社会の物理法則を学びPhysical AI(=ロボットと自動運転車)の開発を加速する

CES 2025の基調講演で、Nvidia CEOのJensen Huangはロボットや自動運転車を開発するための世界基礎モデル「Cosmos」を発表した。世界基礎モデル「World Foundation Models」とは、実社会の物理法則を理解し、世界観を習得したモデルとなる。Cosmosは物理法則に忠実なデジタル空間を生成し、ここでロボットや自動運転車の教育を行う。基礎モデル「Foundation Models」はインターネットの知識を習得しコンテンツを生成するが、これに対し、世界基礎モデルは現実社会の仕組みを学習し、物理法則に忠実な仮想社会を生成する。

出典: Nvidia

Cosmosの概要

Cosmosは「物理AI (Physical AI)」を開発するためのプラットフォームとなる。物理AIとはロボットや自動運転車など、実社会で稼働するAIモデルとなる。Cosmosはトランスフォーマで構成され、イメージやビデオを入力すると、次の動きを予想し、それをビデオとして出力する。また、テキストで指示された内容のビデオを生成する。Cosmosで実社会のデジタルツインを生成し、この環境でロボットや自動運転車のアルゴリズムを教育する。(下の写真、テキストの指示に従ってCosmosは視界の悪い夜のハイウェーを生成)

出典: Nvidia

世界基礎モデルとは

Cosmosは「世界基礎モデル(World Foundation Model)」というコンセプトのAIモデルとなる。世界基礎モデルは、テキストやイメージやビデオや動作を入力とし、3D空間を生成し、また、次の動きを予測する機能を持つ。Cosmosは言葉の指示で配送センターを描き出し、ここでロボットのシミュレーションを実行するために使われる(下の写真)。言葉の指示で3D空間を描き出すモデルは沢山あるが、Cosmosは実社会の物理現象を学び、オブジェクトの関係や相互作用を正しく描写する。

出典: Nvidia

ロボットのシミュレーション

Cosmosはロボットのシミュレーション環境を生成する(下の写真)。Nvidiaは3D環境のデジタルツインを生成する技術「Omniverse」を提供しており(左側)、これとCosmosを組み合わせることで、物理法則を正しく反映した3D空間を生み出すことができる(右側)。Omniverseで生成した3Dモデルに、Cosmosが実社会の法則をインポーズする。この3D空間でロボットは作業プロセスを学習しスキルを獲得する。

出典: Nvidia

Cosmosの機能

Cosmosはトランスフォーマで構成されるニューラルネットワークで、物理法則に沿ったビデオを出力する。ChatGPTなど大規模言語モデルがテキストやイメージやビデオを生成するのに対し、Cosmosは実社会の世界観を描きだす。Cosmosの主要機能は:

Autoregressive Models:入力されたイメージやビデオの次のシーンを予測する(下の写真)。モデルはイメージやビデオの構成要素(Tokens)を読み込み、それに続く次のTokenを予測する。ロボットなどに搭載し、リアルタイムで次のシーンを予測し、最適なアクションを出力する。

出典: Nvidia

Diffusion Models:入力されたビデオのノイズを除去するスキルを学習することで高品質なビデオを生成する(下の写真)。入力されたテキストに従ってビデオを生成する機能を持つ。物理法則に準拠したビデオを生成し、これをロボットや自動運転車の教育で使う。

出典: Nvidia

Autoregressive Modelsを使ってみると

NvidiaはCosmosの機能をライブラー「API Library」で公開しており、ここで性能や機能を検証することができる。Autoregressive Modelsについては「cosmos-1.0-autoregressive-5b」のモデルが公開されている(下の写真)。イメージやビデオを入力すると、それに続くシーンを予測し、それをビデオとして出力する。ロボット開発において、最適な次のアクションを選択するために使われる。

出典: Nvidia

Diffusion Modelsを使ってみると

また、Diffusion Modelsについては「cosmos-1.0-diffusion-7b」のモデルが公開されている(下の写真)。テキストを入力すると、Cosmosはそれに従ってビデオを生成する。例えば、「クルマのウェブカメラが雪道をゆっくり進む情景」と指示すると、そのシーンが生成される。自動運転車の開発において、特殊なシーン(雪道や悪天候や夜の情景など) をCosmosで生成し、これを教育データとして使う。

出典: Nvidia

オープンソースとして公開

NvidiaはCosmosをオープンソースとして公開しており、このプラットフォームを使ってロボットや自動運転車の開発を展開できる。CosmosはNvidiaのカタログ「NGC Catalog」とAIオープンスースサイト「Hugging Face」(下の写真)に公開されており、モデルをダウンロードして開発環境を構築する。NvidiaはCosmosをオープンソースとして公開することで、ロボットや自動運転車などPhysical AIの開発が進むと期待している。

出典: Hugging Face

ヒューマノイドロボット開発プロジェクト

Nvidiaはヒューマノイドロボット開発プロジェクト「GR00T」を運用しており、パートナー企業はここで多彩なロボットを開発している。Nvidiaが世界におけるヒューマノイドロボット開発のハブになっている。ヒューマノイドロボットは大規模言語モデルを搭載し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルとなる。Cosmosはこれに次ぐプロジェクトで、ロボット開発のためのシミュレーション環境を生成し、アルゴリズム教育を効率化する。基調講演で、Jensen Huangは共同開発しているヒューマノイドロボットと共に壇上に立ち、エコシステムの広がりをアピールした(下の写真)。

出典: Nvidia