カテゴリー別アーカイブ: Nvidia

Armは事業戦略を「フィジカルAI」に大転換、AIチップの「CPU」部分を担いロボットの頭脳を構成、ヒューマノイドとロボタクシーの製品開発が急進

Armはプロセッサ開発会社でRISCベースのアーキテクチャを開発している。Armは主要プロセッサで採用され世界の標準技術となっている。Armベースのプロセッサはクラウドで使われ計算機インフラを支えている。Armはプラットフォームをデジタルからフィジカルに大転換すると発表した。これは「フィジカルAI」に事業をシフトすることを意味し、Armが自動運転車やロボットの頭脳を構成する。今年はArmを搭載したヒューマノイドが製品化され、ロボティックスの進化を陰で支える。

出典: Arm

Armの会社概要と事業形態

Armはイギリス・ケンブリッジに拠点を置く企業でプロセッサと関連ソフトウェアを開発している。Armの名称はよく知られているが、その事業形態については理解が広がっていない。ArmはIntelなどとは異なり、プロセッサを製造販売するのではなく、プロセッサの知的財産 (Intellectual Property)をライセンスする形態を取る。知的財産とはプロセッサの設計図で、CPUコアの回路、プロセッサのアーキテクチャ(命令セット)、システム構成(チップに実装するときのインターフェイス)などで、企業はこれをベースに回路を最適化して独自の製品を開発する。AppleやQualcommやNvidiaなど主要企業がArmの知的財産をベースに独自プロセッサを開発しこれを販売している。

次世代GPUシステム

NvidiaはArmと提携し知的財産のライセンスを受け次世代GPUシステム「Vera Ruben」を開発した。このシステムは「Vera CPU」と「Ruben GPU」で構成されるスーパーチップとして製品化された(下の写真)。NvidiaはVera CPUの開発でArmから「Olympus」のライセンスを受け、これをベースに88コアの独自のCPUを開発した(下の写真、水色のチップ)。RubenがGPUとして数値演算を超高速で実行し(金色の二つのチップ)、VeraがCPUとしてシステムの制御などを実行する。Linuxなどの基本ソフトがVeraで稼働しシステム全体を制御する。

出典: Nvidia

エッジプロセッサ

またNvidiaは、ロボットや自動運転車向けのプロセッサ「Jetson Thor」を提供しているが(下の写真)、ここでもCPU部分はArmのアーキテクチャを採用している。Jetson Thorはシングルチップ「Silicon-on-Chip」構成で、一つのチップにGPU「Nvidia Blackwell」とCPU「Arm Neoverse-V3AE」を搭載する。CPUはArmの「Neoverse」ファミリーのハイエンドモデル「V-Series」でクラウドやAIプロセッサとして使われる。

出典: Nvidia

配送ロボット

自動運転技術を開発するNuroはNvidiaのエッジプロセッサを使ってロボ配送車両を開発した(下の写真)。ロボタクシーを小売店舗向けに適用し、走るスーパーマーケットとして展開している。クルマのブレインとして「NVIDIA DRIVE AGX Thor」を搭載している。ArmはこのプロセッサのCPUの部分を司り、システムの制御を実行する。

出典: Arm

ヒューマノイド・ロボット

Boston Dynamicsはヒューマノイド・ロボット「Atlas」を開発している(下の写真)。Atlasは関係会社であるHyundai Motor(現代自動車)の製造工場に導入され、人間の作業員に代わりパーツのハンドリングを実行する。また、Boston DynamicsはGoogle DeepMindと提携し、フロンティアモデル「Gemini Robotics AI」を採用することを発表した。これにより、ロボットのインテリジェンスが格段に向上し汎用的なタスクを実行できると期待されている。AtlasはJetson Thorを搭載し、Nvidiaのロボット開発環境「NVIDIA Isaac Lab」で開発された。

出典: Boston Dynamics

フィジカルAI市場が急成長

自動運転車やロボット向けのプロセッサではNvidiaが先行しており、これをQualcommが追う展開となっている。QualcommはフィジカルAIプロセッサとして「Dragonwing」(下の写真)を投入した。DragonwingはQualcommのCPU「Oryon」を搭載し、NPUと共にAI処理を高速で実行する。CPU「Oryon」はQualcommが設計したプロセッサであるが、ここにArmのアーキテクチャを採用している。具体的には、Armのインストラクション・セット(機械命令のセット)を実装し、ソフトウェアの互換性を担保する構成となる。Qualcomm Oryonは自動運転車やロボットで採用が始まり、フィジカルAI市場が急速に拡大している。

出典: Qualcomm 

AIブームを陰で支える

ロボタクシーやヒューマノイド・ロボットでNvidiaやQualcommのAIプロセッサが使われ、製品開発が進み多彩な製品がリリースされている。GPUやNPUがエッジプロセッサのエンジンとなり注目を集めるが、その背後でArmベースのCPUが重要な役割を担っている。GPUやNPUはAIシステムの中の数値計算エンジンとして位置付けられ、CPUは基本ソフトを稼働させシステム全体を制御し効率的な演算を司る。多くのエッジプロセッサがArmアーキテクチャを採用しており、これによりソフトウェアの互換性が保証され、半導体を跨りシステムを稼働することができる。Armはクラウドなどデジタルな領域から、ロボティックスなどフィジカルな領域に事業を拡大し、AIブームを陰で支える。

Nvidiaはオープンソース自動運転技術「Alpamayo」を投入、AI推論機能を搭載しクルマの知能が劇的に向上、停滞しているロボタクシー開発が急進するか

NvidiaのCEOであるJensen HuangはCES 2026の基調講演でAI技術の最新情報を公開した(下の写真)。講演のハイライトはロボティックスで、Nvidiaはヒューマノイド・ロボットと自動運転車を開発するための最新のプラットフォームを投入した。ロボットと自動運転車は共通項が多く、AIフロンティアモデルの推論機能を搭載することでインテリジェンスが格段に向上した。Nvidiaは自動運転車開発フレームワーク「Alpamayo」を開発し、これをオープンソースとしてリリースした。メルセデス・ベンツなどの自動車メーカーはこれをベースに開発を開始し、今年は多彩な製品が登場することになる。

出典: Nvidia

自動運転技術「Alpamayo」

自動運転フレームワーク「Alpamayo」は画期的な技術で、ヒューマノイド・ロボットの技法をクルマに適用した構造となる。クルマはカメラが捉えた映像を入力とし、これを解析することでシーンの意味を理解し、次のトラジェクトリ(進路)を出力する(下の写真)。つまり、クルマはカメラの映像から、人間のように状況を把握し、これをステアリングやブレーキ操作などの機械命令に変換する。特に、Alpamayoは高額なレーザーセンサー(Lidar)を使うことなく、カメラだけで自動走行できることが最大の利点となる。

出典: Nvidia

VLAモデル

この手法は「VLA (Vision-Language-Action)」モデルと呼ばれ、ビジョン(カメラの映像)と言語(人間の命令)をAIモデルが考察し、アクション(デバイスを操作する機械命令)を生成する仕組みとなる。これはロボット開発のコア技術でVLAモデルがロボットのブレインを構築する(下のグラフィックス)。Nvidiaはこの手法をクルマに適用し、自動運転技術のインテリジェンスが高度に進化した。

出典: OpenVLA

AlpamayoのVLAモデル

AlpamayoのVLAモデルはカメラの映像や人間の指示を入力とし、ドライビングにおける判断を下す(Driving Decision)システムとなる(下の写真)。このモデルの特徴は、AIの推論機能により、判断した理由(Causal Reasoning、因果推論)を説明する機能が搭載されたことにある。従来の自動運転車のアルゴリズムはブラックボックスで、クルマの挙動を理解することができなかった。AlpamayoのVLAモデルはアルゴリズムが下した判断の根拠を出力し、クルマの挙動を理解できるようになった。

出典: Nvidia

因果推論(Causal Reasoning)とは

VLAモデルを実装したことでクルマはシーンを解析して因果推論(Causal Reasoning)を実行する。因果推論とは、原因とそれによって生じる事象を推定する機能で、クルマが特定の事象からそれに続く事象を推測することができる。例えば、走行中に歩道からボールが転がってきたら、AIモデルは「ボールを追って子供やペットが飛び出す可能性があり」と次の事象を推論する(下の写真)。更に、AIモデルは「速度を落とし停車できる準備をすること」と、次に取るべきアクションを出力する。

出典: Nvidia

システム構成

Alpamayoはオープンソースの自動運転車開発のプラットフォームで、メーカーはこのモデルを最適化することで独自の製品を開発する。AlpamayoはAIモデル、シミュレーション環境、データセットから構成され、インテリジェントな自動運転技術を開発するスタックとなる:

  • AIモデル「Alpamayo 1」:AIフロンティアモデル、100億のパラメータ、思考の連鎖など高度な推論機能
  • シミュレーション環境「AlpaSim」:クルマのシミュレーション環境、アルゴリズム教育などで利用、異なるシーンを生成し多彩な条件で試験を実行(下の写真)
  • データセット「Physical AI Open Datasets」:1,700時間に及ぶ路上走行試験のデータを格納、システムの教育に活用
出典: Nvidia

メルセデス・ベンツに搭載

Alpamayoはメルセデス・ベンツ「Mercedes-Benz CLA」に搭載され、「レベル2++」の自動運転技術を実現した(下の写真)。これは高度な運転支援システムで、市街地を自律的に走行する。実際にNvidiaはMercedes-Benz CLAがサンフランシスコ市街地をドライバーの介入無く走行するデモを示した。込み合った道路を長時間にわたりクルマが自動で走行し、その完成度の高さを示した。メルセデス・ベンツはAlpamayoをベースに完全自動運転車を開発する。また、Uber、Jaguar Land Rover、Lucid MotorsがAlpamayoをベースとする自動運転車を開発している。

出典: Nvidia

今年の主役はロボット

Nvidiaの基調講演はロボットが主役でヒューマノイド・ロボットからショベルカーまで多彩な形状のモデルが登場した(下の写真)。Nvidiaは自動運転車を含めロボットの開発環境をオープンソースとして公開しており、メーカーはこれを無償で利用し独自の製品を開発する。Nvidiaのビジネスモデルはプロセッサやサービスを有償で販売することで、エコシステムの拡大が重要な戦略となる。特にAlpamayoは高度に知的なモデルで、停滞している自動運転車の開発が一挙に進み、今年は多彩な製品が生まれると期待される。

出典: Nvidia

Nvidia開発者会議レポート:推論コンピューティングの需要が爆発!!「AIファクトリ」でインテリジェンスを製造、100倍高性能なプロセッサが必要

Nvidiaは開発者会議「GTC 2025」を開催し、CEOのJensen Huangは基調講演で、「AIファクトリ」の構想を明らかにした。AIモデルの主流は言語モデルから推論モデルに移り、推論モデルを稼働させるために大規模な計算環境が必要になる。推論モデルの実行に特化したデータセンタをAIファクトリと呼び、ここでの処理量が100倍拡張する。言語モデルが性能の限界に達したとの議論があるが、推論コンピューティングで性能は伸び続け、データセンタの拡張が続くとの見通しを示した。

出典: Nvidia

AIの基本単位

AIの基本単位はトークン「Token」で、言語モデルでは言葉の単位(単語など)を表現する用語となる。トークンは言葉だけでなく、イメージを構成する最小単位となり、AIが写真や動画を生成する。科学技術の分野においては、トークンがイメージを物理情報に変換し、気象予報などで使われている(下の写真、ロスアンゼルスの大火災の解析)。トークンがデータをインテリジェンスに変換し、新薬の開発や、自動運転車の開発や、ロボットの教育で使われる。

出典: Nvidia

スケーリングの法則

言語モデルの開発では拡張性が限界に達し性能の伸びが鈍化したとの議論がある。これはスケーリングの法則(Scaling Law)と呼ばれ、言語モデルの規模を拡大しても、それに従って性能が伸びないポイントに達した。これに対し、Huangはスケーリングの法則を三段階に分割し、性能は伸び続けていることを解説した。プレ教育とポスト教育のあとに、インファレンス(モデル実行)のプロセスが続くが、ここで計算需要が急速に拡大している(下の写真、右上の部分)。

出典: Nvidia

推論モデルの実行

AIモデルは言語モデルから推論モデルが主流となり、推論モデルの実行で性能が伸び続けている。推論モデルの実行は「Long Thinking」という方式で処理が進み、問われたことにワンショットで回答を生成するのではなく、問題を考察し異なる思考法を試し、最適な解答を生成する。これは「Chain-of-Thoughts」など推論技法で、このプロセスを経ることでモデルはインテリジェンスを向上させる。このプロセスでは大量のトークンを生成し、大規模なプロセッサが必要となる。実際に、言語モデルに比べ推論モデルでは、生成するトークンの数が20倍となり、150倍高速なプロセッサが使われる(下の写真)。

出典: Nvidia

推論モデルが注目される

DeepSeekショックで推論モデルへ注目が集まった。DeepSeekは高度な推論モデル「DeepSeek R1」を低コストで開発し、AI開発競争の軸が米国から中国に広がった。OpenAIは推論モデル「o1」を公開し、最新モデル「o3」を開発している。推論モデルは言語モデルを強化学習の手法でポスト教育したもので、論理的な思考機構を搭載し性能が格段に向上した。推論モデルがこれからの基軸モデルとなり、モデルを実行するために大規模な計算機環境が必要となる。

AIファクトリのミッション

Nvidiaは推論モデルを実行するためのデータセンタを「AIファクトリ(AI Factory)」と命名し、ここでインテリジェンスを製造する。AIファクトリは、クルマを生産する工場とは異なり、「トークン」を製造する施設となる。言語モデルでは文章やイメージなどのトークンを生成するが、推論モデルでは思考過程とその結果のトークンを生成する。推論モデルではリアルタイムに大量のトークンが生成され、これは「Inference Problem」と呼ばれ、この需要を満たす大規模なデータセンタが必要となる。上述の通り、インファレンスのプロセスでは、推論モデルは言語モデルに比べ100倍の処理量が要求される。(下の写真、AIファクトリのイメージ、推論モデルの実行でBlackwellはHopperに比べ40倍の性能をマーク)

出典: Nvidia

AIファクトリのシステム構成

AIファクトリはプロセッサだけでなくそれを制御するソフトウェアなどで構成される。NvidiaはAIファクトリのテンプレートとして、必要なハードウェアやソフトウェアをパッケージしたモデルを公開した(下のグラフィックス)。主な構成要素は:

  • プロセッサ:Blackwellと Hopper
  • ネットワーキング:NVLinkとQuantum InfiniBand
  • ソフトウェア:TensorRT、NIM、Dynamoなど
出典: Nvidia

ソフトウェア構成

NvidiaはAIモデルの実行を効率的に行うソフトウェアの開発に重点を置いている。Nvidiaの特徴はツールやライブラリが充実しおり、開発したモデルをGPUで容易に稼働させることができる。AIファクトリの主要ソフトウェアは:

  • TensorRT:AIモデルをGPUで実行する環境、PyTorchやTensorFlowで開発されたAIモデルを稼働させる環境
  • NIM (NVIDIA Inference Microservices):AI実行のマイクロサービス、AIモデルと実行環境を統合したパッケージ
  • Dynamo:AIモデルの最適化エンジン、実行時にAIモデルを動的に最適化するツール

プロセッサのロードマップ

大規模AIファクトリを「Gigawatt AI Factory」と呼び、これに向けたプロセッサのロードマップを公開した。今年から2028年までのレンジをカバーし、毎年新たなアーキテクチャのプロセッサが投入され、機能と性能が伸び続けることを明らかにした(下の写真)。同時に、AIモデルを異なるアーキテクチャで稼働させるためのプラットフォーム「CUDA」についても、対象分野を拡大することを明らかにした。プロセッサのアーキテクチャは:

  • Blackwell:2025年、208B トランジスタ、20 PFLOPSの性能
  • Rubin:2026年、50 PFLOPSの性能、288GB HBM4メモリ
  • Rubin Ultra: 2027年、Rubinの強化モデル
  • Feynman:2028年、その次のモデル
出典: Nvidia

トークンの爆発

推論モデルのインファレンスでは言語モデルと比べ格段に多くのトークンが生成され、大規模な計算環境が必要になる。AIファクトリはトークンの製造工場となる。トークンがAIの基本単位で、膨大なデータをインテリジェンスに変換する。推論モデルをベースにAIエージェントが開発され、更に、ヒューマノイド・ロボットなどフィジカルAIに繋がる。基調講演の最後にはディズニーのロボット「Newton」が登場し、フィジカルAI技術の進化を示した(下の写真)。

出典: Nvidia

Nvidiaは世界基礎モデル「Cosmos」を公開、AIは実社会の物理法則を学びPhysical AI(=ロボットと自動運転車)の開発を加速する

CES 2025の基調講演で、Nvidia CEOのJensen Huangはロボットや自動運転車を開発するための世界基礎モデル「Cosmos」を発表した。世界基礎モデル「World Foundation Models」とは、実社会の物理法則を理解し、世界観を習得したモデルとなる。Cosmosは物理法則に忠実なデジタル空間を生成し、ここでロボットや自動運転車の教育を行う。基礎モデル「Foundation Models」はインターネットの知識を習得しコンテンツを生成するが、これに対し、世界基礎モデルは現実社会の仕組みを学習し、物理法則に忠実な仮想社会を生成する。

出典: Nvidia

Cosmosの概要

Cosmosは「物理AI (Physical AI)」を開発するためのプラットフォームとなる。物理AIとはロボットや自動運転車など、実社会で稼働するAIモデルとなる。Cosmosはトランスフォーマで構成され、イメージやビデオを入力すると、次の動きを予想し、それをビデオとして出力する。また、テキストで指示された内容のビデオを生成する。Cosmosで実社会のデジタルツインを生成し、この環境でロボットや自動運転車のアルゴリズムを教育する。(下の写真、テキストの指示に従ってCosmosは視界の悪い夜のハイウェーを生成)

出典: Nvidia

世界基礎モデルとは

Cosmosは「世界基礎モデル(World Foundation Model)」というコンセプトのAIモデルとなる。世界基礎モデルは、テキストやイメージやビデオや動作を入力とし、3D空間を生成し、また、次の動きを予測する機能を持つ。Cosmosは言葉の指示で配送センターを描き出し、ここでロボットのシミュレーションを実行するために使われる(下の写真)。言葉の指示で3D空間を描き出すモデルは沢山あるが、Cosmosは実社会の物理現象を学び、オブジェクトの関係や相互作用を正しく描写する。

出典: Nvidia

ロボットのシミュレーション

Cosmosはロボットのシミュレーション環境を生成する(下の写真)。Nvidiaは3D環境のデジタルツインを生成する技術「Omniverse」を提供しており(左側)、これとCosmosを組み合わせることで、物理法則を正しく反映した3D空間を生み出すことができる(右側)。Omniverseで生成した3Dモデルに、Cosmosが実社会の法則をインポーズする。この3D空間でロボットは作業プロセスを学習しスキルを獲得する。

出典: Nvidia

Cosmosの機能

Cosmosはトランスフォーマで構成されるニューラルネットワークで、物理法則に沿ったビデオを出力する。ChatGPTなど大規模言語モデルがテキストやイメージやビデオを生成するのに対し、Cosmosは実社会の世界観を描きだす。Cosmosの主要機能は:

Autoregressive Models:入力されたイメージやビデオの次のシーンを予測する(下の写真)。モデルはイメージやビデオの構成要素(Tokens)を読み込み、それに続く次のTokenを予測する。ロボットなどに搭載し、リアルタイムで次のシーンを予測し、最適なアクションを出力する。

出典: Nvidia

Diffusion Models:入力されたビデオのノイズを除去するスキルを学習することで高品質なビデオを生成する(下の写真)。入力されたテキストに従ってビデオを生成する機能を持つ。物理法則に準拠したビデオを生成し、これをロボットや自動運転車の教育で使う。

出典: Nvidia

Autoregressive Modelsを使ってみると

NvidiaはCosmosの機能をライブラー「API Library」で公開しており、ここで性能や機能を検証することができる。Autoregressive Modelsについては「cosmos-1.0-autoregressive-5b」のモデルが公開されている(下の写真)。イメージやビデオを入力すると、それに続くシーンを予測し、それをビデオとして出力する。ロボット開発において、最適な次のアクションを選択するために使われる。

出典: Nvidia

Diffusion Modelsを使ってみると

また、Diffusion Modelsについては「cosmos-1.0-diffusion-7b」のモデルが公開されている(下の写真)。テキストを入力すると、Cosmosはそれに従ってビデオを生成する。例えば、「クルマのウェブカメラが雪道をゆっくり進む情景」と指示すると、そのシーンが生成される。自動運転車の開発において、特殊なシーン(雪道や悪天候や夜の情景など) をCosmosで生成し、これを教育データとして使う。

出典: Nvidia

オープンソースとして公開

NvidiaはCosmosをオープンソースとして公開しており、このプラットフォームを使ってロボットや自動運転車の開発を展開できる。CosmosはNvidiaのカタログ「NGC Catalog」とAIオープンスースサイト「Hugging Face」(下の写真)に公開されており、モデルをダウンロードして開発環境を構築する。NvidiaはCosmosをオープンソースとして公開することで、ロボットや自動運転車などPhysical AIの開発が進むと期待している。

出典: Hugging Face

ヒューマノイドロボット開発プロジェクト

Nvidiaはヒューマノイドロボット開発プロジェクト「GR00T」を運用しており、パートナー企業はここで多彩なロボットを開発している。Nvidiaが世界におけるヒューマノイドロボット開発のハブになっている。ヒューマノイドロボットは大規模言語モデルを搭載し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルとなる。Cosmosはこれに次ぐプロジェクトで、ロボット開発のためのシミュレーション環境を生成し、アルゴリズム教育を効率化する。基調講演で、Jensen Huangは共同開発しているヒューマノイドロボットと共に壇上に立ち、エコシステムの広がりをアピールした(下の写真)。

出典: Nvidia