カテゴリー別アーカイブ: ロボティックス

Teslaは自動車メーカーからロボティックス企業に転身!!ヒューマノイドとロボタクシーが中核技術、半導体ファブを建設しAIチップを製造

Teslaは11月6日、株主総会を開催しElon Muskへの1兆ドルの報酬パッケージが承認された。これを受けて、Muskは規定されたゴール(Trench)を達成するために、企業の新たなビジョンを解説した。Muskは、Teslaは “サステイナブル・アバンダンス(Sustainable Abundance)”企業に転身した、と宣言した。コアビジネスはヒューマノイド・ロボットと自動運転で、高度なAIをフィジカル社会に展開する。このために膨大な量のAIチップが必要となり、Teslaは半導体ファブを建設し自社でAIチップを製造する。会場ではロボットがダンスし、参加者が歓声をあげ、ロックコンサートのようなバイブで株主総会が進んだ(下の写真)。

出典: Tesla

サステイナブル・アバンダンス

Muskは、Teslaは新たなチャプターに足を踏み入れたのではなく、全く新しい会社に転身したと説明した。また、Teslaの社是は「サステイナブル・アバンダンス(Sustainable Abundance)」で、自然や社会環境を保全しながら、テクノロジーの恩恵を幅広く消費者に届ける(下の写真)。サステイナブル・アバンダンスは持続可能な豊かさを意味し、AIやロボティックスにより商品やサービスの価格が劇的に下がり、万人が豊かな生活ができる社会が到来する。

出典: Tesla

ヒューマノイド・ロボット

Teslaはヒューマノイド・ロボット「Optimus」(下の写真)を開発しており、Muskはロボットが会社の最重要製品になるとのビジョンを示した。消費者向けには、各人が1台のロボットを所有する時代が始まる。企業向けには、社員が3-5台のロボットを使って業務を実行する形態になる。報酬パッケージのゴールの一つがOptimusを100万台販売することで、Muskはヒューマノイド・ロボットの販売台数はスマートフォンを上回るとの見通しを示した。

出典: Tesla

ヒューマノイド・ロボットの開発状況

Teslaは自動運転車を開発しており、クルマを四輪ロボットとして捉えることができる。これをヒューマノイド・ロボットに展開することになり、Teslaは既存技術を活用でき有利なポジションにいる。Teslaはシリコンバレーの製造施設で、ヒューマノイド・ロボットの製造開発を進めている(下の写真)。現行のOptimusは「V 2.5」であり、2026年にはこれを「V3」のアップグレードする。更に、2027年には「V4」を2028年には「V5」を開発し、ロボットは人間レベルに急成長する。

出典: Tesla

自動運転技術

Teslaは自動運転技術「Full Self-Driving (FSD)」を開発しており、カメラをセンサーとしクルマが自律的に走行する。現行モデルは「V14.1」で「FSD Supervised」と呼ばれ、人間のスーパービジョンのもとで自動走行する。次期モデルは「V14.2」と「V14.3」で、技術が大きく進化し、人間が監視する必要は無く、クルマが完全自動で走行する。これは「FSD Unsupervised」と呼ばれ、ドライバーは運転中にスマホでテキストメッセージを送信できる。「V14.3」は2025年末までにリリースされる。

出典: Drive Tesla

サイバーキャブ

Teslaはロボタクシー「サイバーキャブ(Cybercab)」の開発を進めており、クルマはステアリングやペダルの無い専用モデルとなる(下の写真)。クルマは完全自動運転でドライバーの介在なく目的地まで走行する。

出典: Tesla

サイバーキャブ製造

サイバーキャブは2026年4月からテキサス州の製造施設「Giga Texas」で生産が始まる(下の写真)。サイバーキャブはクルマより電化製品に近い構造で、生産プロセスを自動化し大量生産する。初期の生産台数は年間200万台から300万台で、最終ゴールは年間500万台となる。

出典: Tesla

AIチップ

Teslaはクルマやロボットに搭載するAIチップを自社で開発している。次世代モデルは「AI5」と呼ばれ、現行モデルから性能が50倍向上する(下の写真)。AI5はインファレンス専用チップで、開発されたAIモデルを実行するために使われる。更に、トランスフォーマの重みの計算では浮動小数点ではなく整数が使われる。これにより演算速度が大きく向上し、AI5はNvidia Blackwellに匹敵する性能を1/10のコストで実現した。但し、AI5とBlackwellはアーキテクチャが大きく異なり、対等に比較することは難しい。AI5はTeslaが開発したAIモデルだけに適用される専用プロセッサで、これに対し、Blackwellは広範囲なAIモデルを稼働させることができる汎用プロセッサとなる。

出典: Tesla

半導体製造ファブ

MuskはAI5など自社製AIプロセッサを製造するためのファブを建設することを明らかにした。これは「Terafab」と呼ばれテキサス州オースティンに建設される。TeslaはAIプロセッサの製造をTSMCやSamsungに委託しているが、新たなロードマップでは大量のAIチップが必要となり、アウトソーシングだけではこの需要を満たすことができない。このため、Muskによると、Intelと提携してファブを建設する。製造量は月産10万ウェーファで、AIチップをクルマ、ロボタクシー、ヒューマノイド・ロボットに搭載する。(下の写真、Terafabの想像イメージ)

出典: Google Gemini 2.5 Flash Image

分散コンピューティング

この構想によりTesla車両には最新のAIチップが搭載され、100万台を超えるクルマが高速プロセッサを運用する。これらのAIチップを連結すると100ギガワット相当の巨大なデータセンタとなる。Muskこれを「Distributed AI Inference Fleet」と呼び、AIモデルを実行するための分散コンピューティング環境となる。ギガワットクラスのデータセンタの建設が進むが、テスラ・フリートが新方式のデータセンタとなる。

サプライチェーンの強化

Teslaはバッテリーのコアコンポーネントであるリチウムの精錬施設の建設を開始した。この施設は「Lithium Refinery」と呼ばれ、テキサス州コーパスクリスティに建設され、リチウムの原料となる鉱石からバッテリーで使う高純度なリチウムを抽出する。また、Teslaはバッテリーのカソードを製造するための工場を建設している。この施設はクルマを製造している「Giga Texas」(テキサス州オースティン)の施設内に建設される。これにより、レアアースを輸入に依存することなく、自社で製造することでサプライチェーンを強化する。(下の写真、Teslaが運用するバッテリー製造工場)

出典: Tesla

Teslaの企業価値

Muskは基調講演の冒頭でTeslaは「サステイナブル・アバンダンス(Sustainable Abundance)」企業に転身したと宣言した。AIやロボティックスや自動運転技術で、製品やサービスの価格が劇的に低下し、Teslaは技術の恩恵を幅広く提供する。Muskはこれにより社会から貧困を撲滅できるとの見解を示した。Teslaのコア技術がロボティックスで、Optimusが企業価値の80%を担うことになる。(下の写真、太陽光発電の電力を貯蔵する大規模バッテリーアレイ)

出典: Tesla

米国で家庭向けヒューマノイド・ロボットの販売開始、価格は2万ドルで家事をこなす、AIフロンティアモデルがロボットの頭脳となり自動でタスクを実行する能力を獲得

シリコンバレーのスタートアップ企業1Xはヒューマノイド・ロボット「NEO」の販売を開始した。NEOは家庭向けのロボットでお手伝いさんとして掃除や洗濯などの家事を実行する(下の写真)。NEOの価格は2万ドルで来年から出荷が始まる。NEOは大規模AIモデルを搭載し、汎用的にタスクを実行するスキルを獲得した。AIの進化でロボティックスが急進し、ヒューマノイド・ロボットが生活の一部となる。一方、難しいタスクは人間がテレオペレーションで実行する仕組みで、全自動で家事をこなすまでには時間を要す。

出典: 1X

NEOの主要機能

NEOは人間の形状を模したヒューマノイド・ロボットで、二足で歩行し、二本の腕と五本の指を持つ手から構成される。NEOはセーターを着装し温かみを演出する。NEOは言葉を理解し、口頭での指示に従ってタスクを実行する(下の写真)。ドアの開閉、電灯の消灯、部屋の片づけ、植物への水やりなどをこなす。一方、洗濯、食器洗い、ペットへの餌やりなど複雑なタスクは、自動で実行することができず、人間のエキスパートがこれを支援する。これはテレオペレーション(Tele-Operation)と呼ばれ、専門スタッフがVRヘッドセットを着装し、NEOを遠隔で操作する。

出典: 1X 

ハードウェアの構造

安全を最優先とするコンセプトで、NEOの表面は3Dラティスのポリマーで覆われている。また、NEOはセーターを着装し、これらがクッションの役割を果たし、接触した際の衝撃を吸収する。NEOの駆動系はハーネスが使われ、モーターの動力をワイヤを介して手足を動かす(下の写真)。これにより、低消費電力で静かな動きを実現する。

出典: 1X

ブレイン:VLAモデル

NEOの最大の特徴は高度なAIモデルをロボットのブレインとして搭載していることにある。このAIモデルは「Redwood AI」と呼ばれ、フロンティアモデルのコア技術であるトランスフォーマを利用している(下の写真、プロセッサ)。AIはセンサーからの視覚情報と人間の言葉を理解し、これをAIモデルで処理し、ロボットのハードウェアを制御する命令(アクション)を生成する。このタイプのAIモデルは「VLA (Vision-Language-Action)」モデルと呼ばれ、これが汎用的なスキルを修得するコア技術となる。

出典: 1X

米国で販売を開始

1Xは今週から米国においてNEOの販売を開始した(下の写真)。価格は2万ドルで2026年から初期アクセス顧客向けに出荷される。また、サブスクリプション方式では月額499ドルでNEOをレンタルできる。ロボットの身長は5’6”(168センチ)で重量は66ポンド(30キロ)と、大人の形状であるが軽量なモデルとなる。NEOは家庭において人間とインタラクションすることを前提にデザインされている。

出典: 1X

テレオペレーションとプライバシー保護

NEOは5Gネットワークや家庭のWi-Fiを通して1Xの監視センタとリンクする。オペレータがNEOの稼働状態をモニターし、複雑なタスクを実行するためのテレオペレーションを実行する。オペレータが屋内の映像を見ることになり、プライバシー保護が重要な要件となる。NEOは目の部分にカメラを搭載し、その画像がセンタに送信されるが、人間の顔の部分はマスクされ、プライバシーを保護する。また、利用者は立ち入り禁止区域「Geo-Fencing」を設定でき、プライバシーを確保する。NEOが収集したデータは、利用者の許諾のもと1Xに送信され、これがロボットの教育データとなる。1Xは初期ユーザと共同でアルゴリズムを開発する戦略を取る。

高齢化社会とヒューマノイド・ロボット

NEOは人間に代わり家事を代行するロボットとして開発されているが、高齢化に向かう米国でシニアの介護を重要な応用分野と位置付ける(下の写真)。多くの高齢者は介護施設に入居する代わりに、自宅で独立した生活を送ることを望んでいる。NEOはこれら高齢者の日常生活を支援することを大きな目的に技術開発を進めている。高齢化が進む日本においても、NEOのシニア介護のソリューションは重要な役割を果たすと考えられる。

出典: 1X

家庭環境が最後の難関

ヒューマノイド・ロボットは企業の製造施設に導入されトライアルが進んでいる。BMWはクルマの製造ラインにヒューマノイド・ロボットを投入しその性能を評価している。これに対し、家庭向けのヒューマノイド・ロボットはNEOが最初のケースとなる。家庭環境で稼働するロボットは遥かに高度なスキルが求められる。製造施設はタスクが綿密に定義されクリーンな環境であるが、家庭においては床に様々なオブジェクトが置かれ、子供やペットなどが動き回り、掃除や炊事や洗濯など、広範なスキルが求められる(下の写真)。ヒューマノイド・ロボットにとって最難関の環境で、ロボットのブレインであるフィジカルAIの能力が試される。

出典: 1X

xAI最新モデル「Grok-4」は破格の性能で他社を圧倒!!推論機能が10倍向上、マスクはこのモデルをヒューマノイドロボットに適用する構想を発表

xAIは7月9日、最新モデル「Grok-4」をリリースした。発表イベントはX Spacesでストリーミングされ、イーロン・マスクと開発者がモデルの機能や性能を解説した。Grok-4は性能が格段に向上し、他社を大きく引き離しトップの座を占めた。特に、AIのインテリジェンスを測定する試験では、他社モデルの二倍の性能をマークし、AGIに一番近い製品となった。マスクはGrok-4をTeslaとヒューマノイドロボット「Optimus」に適用する計画を明らかにした。xAIはGrok-4をクルマやロボットなどの物理社会に展開することで、モデルが世界感「World Models」を理解し、AGI開発で他社との差別化を図る。

出典: xAI

Grok-4の概要

Grok-4はxAIのフロンティアモデルで第四世代の製品となる。xAIは2023年から開発を開始し、マスクの指揮の下で、短期間で急速に性能を伸ばした。Grok-4は世界最大のAIスパコン「Colossal」で開発され、このデータセンタが巨大モデルの開発を支えている。AIモデルを評価するベンチマークではGrok-4は、OpenAI o3-proとGoogle Gemini 2.5 proを抜いてトップの成績をマークした(下のグラフ、左端の棒グラフ)。

出典: Artificial Analysis

AGIの性能を測定するベンチマーク

Grok-4はインテリジェンスを測定するベンチマーク「ARC-AGI-2」で他社の性能を二倍上回り、トップの成績を達成した。これは、AGIの性能を測定するもので、モデルのIQ(知能指数)を査定する指標となる。Grok-4は16%を超える性能を示し、それまでトップであったAnthropic Claude Opus 4の二倍の性能を示した(下のグラフ)。

出典: xAI

推論機能が格段に向上

この背景にはGrok-4の推論機能が大きく向上したことがある。Grok-4はGrok-3に比べ、言語機能の性能の伸びはほぼフラットであるが、推論機能が10倍向上した。また、Grok-4の推論機能の教育では、教育時間に比例して性能が向上する特性「スケーリング(Scaling)」を示した(下のグラフ)。また、実行時には、計算時間を長くすると、これに応じて性能が向上した。この事実は、Grok-4はこれからも性能が伸び続ける可能性を示している。

出典: xAI

AIエージェントの機能

Grok-4はAIエージェントとして高い機能を備えていることを示した。人間に代わりAIエージェントが自動販売機を管理運用するベンチマーク「Vending-Bench」でトップの性能をマークした。この試験は自動販売機をAIエージェントで運用し、その事業成績を競うもので、Grok-4の売り上げ高は4694.15ドルで、今までトップであったAnthropic Claude Opus 4の二倍の成績を達成した。

出典: xAI

本当に性能が高いのか

Grok-4はベンチマークで驚異的な性能を示しAI業界にショックを与えた。市場では研究者や開発者が独自の手法でGrok-4の性能を検証しているが、推論機能の高さが追認されている。研究者や著名人がGrok-4をベンチマークした結果が数多く「X」に掲載されている。Grok-4で物理現象をシミュレーションする試験「Hexagon Vibe Check」では一回のトライアルで合格した(下の写真)。

出典: Flavio Adamo

説明資料が殆ど無い

一方で、Grok-4に関する技術資料は公開されてなく、モデルの構成や開発手法などは明らかにされていない。また、Grokシリーズは「究極の真実を探求するモデル」として開発されているが、ガードレールなどセーフティ技術に関する情報も開示されていない。マスクはオープンな手法でAIを開発すると宣言したが、開示されている情報は限られ、Grok-4のシステム構成や教育手法などを把握することができない。

ヒューマノイドロボット

マスクは発表イベントの中でGrok-4をTeslaが開発しているヒューマノイドロボット「Optimus」(下の写真)に適用する構想を明らかにした。Teslaがロボットのハードウェアを開発し、xAIがロボットのブレインとしてGrok-4を開発する。具体的には、Teslaはロボットのセンサーやアクチュエータなどを開発し、Grok-4はロボットを制御する言語機能や推論機能を提供する。Grok-4の言語機能でロボットは言葉による指示を理解し、人間との対話を通して仕事をこなす。ロボットはコンピュータビジョンで周囲のオブジェクトを認識し、Grok-4の推論機能でその意味を把握し、次のアクションを生成する。

出典: xAI

世界モデル

Grok-4は実社会とのインタラクションを通して、世界モデル「World Models」を学習する。Grok-4はサイバー空間だけでなく物理社会で稼働することで、3D空間における物理現象を学ぶ。更に、これに基づき新たな仮説を生み出し、仮説が正しいかどうかを検証することで、新しい法則を生み出す。これは、ロボティックスだけでなく、AGIの基礎技術となり、Grok-4がAGI開発の重要なステップとなる。

マスクの人気が上昇中

発表イベントは深夜に行われ、マスクと開発者がスライドを説明する形で進行した。マスクはトランプ政権のDOGE(政府効率化省)を退き、政界から遠ざかっていたが、今では政治新党「America Party」を設立すると表明し、再度、政治に関与している。マスクはDOGEにおいて過激な手法で予算を削減し、アメリカ社会で信頼が急落した。一方、新党結成では多くの有権者がこれに賛同しており人気が上昇傾向にある。マスクはX、xAI、Tesla、SpaceXの事業経営と政治活動を掛け持ちしており、AGI開発で成果を上げることができるのか、手腕が試されている。

出典: xAI

Nvidiaはヒューマノイドロボットの開発拠点となる!!生成AIを組み込み汎用的に稼働する人型ロボットの開発基盤を提供

Nvidiaは3月18日、開発者会議「GTC 2024」でヒューマノイドロボットの開発プロジェクト「GR00T」を公開した。ヒューマノイドロボットに生成AIを統合し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルを創り出す。ヒューマノイドロボットのファウンデーションモデルとなり、ロボット開発におけるコア技術を提供する。開発企業はこのプラットフォームを使って独自のヒューマノイドロボットを生成する。

出典: Nvidia

ヒューマノイドロボットの開発

ヒューマノイドロボット(Humanoid Robot)は、人間の形状を模したロボットで「人型ロボット」と呼ばれる。開発者会議の基調講演で、CEOのJansen Huangは、ヒューマノイドロボットの最新技術について解説した(下の写真)。基調講演はビデオでストリーミングされた。Nvidiaがこのモデルに着目する理由は、社会インフラは人間に合わせて造られており、人型ロボットはここで環境を変更することなく、そのまま活躍できるためである。また、生成AIを搭載することにより、ロボットの学習能力が格段に向上し、人間のように汎用的に動けるモデルを生み出すことがゴールとなる。

出典: Nvidia

ロボット開発状況

プロジェクトは「Generalist Robot 00 Technology (RT00T)」と呼ばれ、汎用的に稼働するヒューマノイドロボットを研究開発する。ロボットは汎用基礎モデル(General-Purpose Foundation Model)となり、シミュレーション環境と実社会で学習し、短時間でスキルを習得する。ChatGPTなどが言語に関する基礎モデルであるのに対し、GR00Tは人型ロボットに関する基礎モデルとなる。研究所では多種類のモデルが開発されている(下の写真)。

出典: Nvidia

ロボットを教育する手法

ロボット開発ではシミュレーション環境「Issac Sim」にヒューマノイドのデジタルツインが生成され、この仮想空間でスキルを習得した。ロボットは仮想社会で階段やでこぼこ道で歩行訓練を行い、スキルを学習した(下の写真)。更に、ロボットは開発環境「Isaac Lab」でアルゴリズム教育が実施された。Isaac Labは高度なAIを搭載するロボットの開発環境で、特に強化学習(Reinforcement Learning)のアルゴリズムを教育する環境となる。この他に、模倣学習(Imitation Learning)や転移学習(Transfer Learning)などの手法でロボットはスキルを獲得した。

出典: Nvidia

模倣学習のケース

実際に、ロボットは人間の動作を見てそれを真似る、模倣学習の手法で成果を上げている。人間が動作の手本を示し、ロボットはそれを見て真似ることでスキルを学習する。ロボットが人間のドラマーのプレーを見て、ドラムを演奏するヒューマノイドが紹介された。これはヒューマノイドロボット「Sanctuary AI」の事例で、人間向けに造られた楽器をロボットが演奏した。

出典: Nvidia

ヒューマノイドロボット開発企業

Nvidiaは自社でヒューマノイドロボットを開発するのではなく、その開発環境を提供し、パートナー企業がこの基盤で製品を開発する。基調講演では開発中のヒューマノイドロボットが表示され、エコシステムの広さをアピールした。(下の写真、現在開発中のヒューマノイドロボット、左から、Figure AI、Unitree Robotics、Apptronik、Agility Robotics、(Jensen Huang)、Sanctuary AI、1X Technologies、Fourier Intelligence、Boston Dynamics、XPENG Robotics)。

出典:Nvidia

ロボットと生成AIとの融合

ヒューマノイドロボットがホットな研究テーマになっている。OpenAIはFigure AIに出資し、共同でヒューマノイドロボットの開発を進めている。ロボットに大規模言語モデルを組み込み、人間のようなインテリジェンスを得る。Agility Roboticsの「Digit」は、配送センターで人間の作業員に代わり荷物を搬送する (下の写真、Digitがオーブンからトレイを取り出している様子)。一方、Teslaのヒューマノイドロボット「Optimus」はステージに登場せず、独自方式でモデルを開発している。ヒューマノイドロボットが生成AIと融合し、インテリジェンスが劇的に進化すると期待されている。

出典:Nvidia

Googleは生成AIをロボットに適用、ロボットは人間の言葉を理解しカメラの映像で命令を実行、知能が向上し学習していないタスクを実行できる技能を獲得

Google DeepMindは生成AIでロボットの頭脳「RT-2」を開発した。生成AIはチャットボット「Bard」のエンジンとして使われているが、これをロボットに適用した。RT-2は人間の言葉を理解し、カメラの映像を読み込み、ロボットのアクションを計算する。この手法は、ロボットは教育されていない命令を実行できることを意味し、汎用ロボットの開発に向けて大きな技術進化となる。

出典: Google DeepMind

RT-2とは

Google DeepMindはロボットの頭脳「Robotic Transformer 2 (RT-2)」を開発した。名前の通り、言語モデル「Transformer」で構成されるロボットで、言葉(人間の命令)とイメージ(カメラの映像)をアクション(ロボットの動作)に翻訳する機能を持つ。人間の指示をそのままロボットが実行することを意味し、RT-2は初めての環境でもタスクを実行することができる。RT-2はロボットハードウェアに実装され、カメラで目の前のオブジェクトを捉え、ロボットアームが処理を実行する(上の写真)。

汎用ロボットの開発

GoogleはTransformerを搭載することで汎用ロボットを開発するアプローチを取る。現在のロボットは、特定のタスク(リンゴを掴むなど)を繰り返し練習し、スキルを獲得する。これに対し汎用ロボットは、特定のスキル(リンゴを掴むなど)を習得すると、それを別のタスク(バナナを掴むなど)に応用する。人間のように学習したことを汎用的に使いこなす能力で、ロボット開発のグランドチャレンジとなっている。

RT-1とRT-2を開発

言語モデル「Transformer」をロボットに適用する試みは「RT-1」で始まり、ロボットは学習したスキルを別のロボットに移転することが可能となった。RT-2はRT-1が学習したことを継承し、更に、ウェブ上のデータを学び、世界の知識を習得した。これにより、人間の言葉をロボットの言葉に翻訳し、初めての環境でもタスクを実行し、ロボットの汎用性が向上した。

RT-2の成果:初めてのタスク

RT-2はカメラで捉えたイメージだけで、指示された命令を実行する。具体的には、ロボットが「イチゴを掴んでボールに移す」よう指示されると、RT-2はカメラで捉えたイメージから、次のアクションを予想し、これをロボットが実行する(下の写真左側)。今までのロボットは、イチゴを掴んでボールに移す操作を何回も練習して、このスキルを獲得するが、RT-2は学習していないスキルでも、これを実行することができる。同様に、「テーブルから落ちそうな包みを掴んで」と指示されると、RT-2は初めてのタスクでもこれを実行する(右側)。

出典: Google DeepMind

RT-2の成果:初めての環境

RT-2は今までに学習したことのない環境で、命令を実行することができる。RT-2は、見たことのないオブジェクトを操作できる(下の写真左側)。また、学習していない背景(中央、テーブルクロス)や、学習していない環境(右側、キッチンのシンク)において、指示されたタスクを実行できる。このスキルは汎用化(Generalization)と呼ばれ、学習したことを元に、新しい環境でその知識を応用し、タスクを実行できる能力を指す。

出典: Google DeepMind

RT-2の成果:推論機能

RT-2のモデルが更に改良され、ロボットは推論機能を獲得した。これは「考察の連鎖(chain-of-thought)」と呼ばれるもので、ロボットは複数の思考ステップを経て結論を導き出す。ロボットは「目的」と「アクション」を理解してそれを実行する。具体的には、ロボットに「くぎを打つ」という目的を示し、このために「どのオブジェクトを使えるか」と聞くと、ロボットは「紙」、「石」、「コード」の中から(下の写真左側)、「石」を取り上げる(右側)。RT-2は「金槌」が無い時は「石」を代用できることを推論した。

出典: Google DeepMind

ベンチマーク結果

RT-1とRT-2がタスクを実行できる能力を比較すると、その差は歴然としており、大規模言語モデルを適用することで、性能が向上することが示された(下のグラフ)。具体的には、既に学習したタスク「Seen」を実行できる割合については、両者で互角となる(左端)。しかし、初めてのタスク「Unseen」に関しては、RT-2が実行できる割合がRT-1を大きく上回る(右端)。RT-2は、人間と同じように、学習したことを新しい環境に適用できることを意味し、汎用的に学習する機能を獲得した。(RT-1は灰色のグラフ、RT-2は紫色と薄青色のグラフ。)

RT-2は大規模言語モデルの種類により二つのモデルが開発された。二つの言語モデルは:

  • PaLM-E:言語モデル「PaLM」をロボット向けに最適化。言語とイメージを処理。
  • PaLI-X:言語モデル「PaLI」の小型モデル。多言語とイメージを処理。
出典: Google DeepMind

ロボット開発は進まないが

大規模言語モデル「Transformer」はChatGPTなどチャットボットのエンジンとして使われ、人間の言語能力を凌駕し、社会に衝撃を与えた。Googleはこれをロボットに適用することで、研究開発におけるブレークスルーを目指している。デジタル空間のAIは劇的な進化を続けているが、ロボットなど実社会におけるAIは目立った進展が無い。生成AIでこの壁を破れるのか、世界の研究者が注目している。