カテゴリー別アーカイブ: ロボティックス

Nvidiaはヒューマノイドロボットの開発拠点となる！！生成AIを組み込み汎用的に稼働する人型ロボットの開発基盤を提供

Nvidiaは3月18日、開発者会議「GTC 2024」でヒューマノイドロボットの開発プロジェクト「GR00T」を公開した。ヒューマノイドロボットに生成AIを統合し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルを創り出す。ヒューマノイドロボットのファウンデーションモデルとなり、ロボット開発におけるコア技術を提供する。開発企業はこのプラットフォームを使って独自のヒューマノイドロボットを生成する。

出典: Nvidia

ヒューマノイドロボットの開発

ヒューマノイドロボット(Humanoid Robot)は、人間の形状を模したロボットで「人型ロボット」と呼ばれる。開発者会議の基調講演で、CEOのJansen Huangは、ヒューマノイドロボットの最新技術について解説した(下の写真)。基調講演はビデオでストリーミングされた。Nvidiaがこのモデルに着目する理由は、社会インフラは人間に合わせて造られており、人型ロボットはここで環境を変更することなく、そのまま活躍できるためである。また、生成AIを搭載することにより、ロボットの学習能力が格段に向上し、人間のように汎用的に動けるモデルを生み出すことがゴールとなる。

出典: Nvidia

ロボット開発状況

プロジェクトは「Generalist Robot 00 Technology (RT00T)」と呼ばれ、汎用的に稼働するヒューマノイドロボットを研究開発する。ロボットは汎用基礎モデル(General-Purpose Foundation Model)となり、シミュレーション環境と実社会で学習し、短時間でスキルを習得する。ChatGPTなどが言語に関する基礎モデルであるのに対し、GR00Tは人型ロボットに関する基礎モデルとなる。研究所では多種類のモデルが開発されている(下の写真)。

出典: Nvidia

ロボットを教育する手法

ロボット開発ではシミュレーション環境「Issac Sim」にヒューマノイドのデジタルツインが生成され、この仮想空間でスキルを習得した。ロボットは仮想社会で階段やでこぼこ道で歩行訓練を行い、スキルを学習した(下の写真)。更に、ロボットは開発環境「Isaac Lab」でアルゴリズム教育が実施された。Isaac Labは高度なAIを搭載するロボットの開発環境で、特に強化学習(Reinforcement Learning)のアルゴリズムを教育する環境となる。この他に、模倣学習(Imitation Learning)や転移学習(Transfer Learning)などの手法でロボットはスキルを獲得した。

出典: Nvidia

模倣学習のケース

実際に、ロボットは人間の動作を見てそれを真似る、模倣学習の手法で成果を上げている。人間が動作の手本を示し、ロボットはそれを見て真似ることでスキルを学習する。ロボットが人間のドラマーのプレーを見て、ドラムを演奏するヒューマノイドが紹介された。これはヒューマノイドロボット「Sanctuary AI」の事例で、人間向けに造られた楽器をロボットが演奏した。

出典: Nvidia

ヒューマノイドロボット開発企業

Nvidiaは自社でヒューマノイドロボットを開発するのではなく、その開発環境を提供し、パートナー企業がこの基盤で製品を開発する。基調講演では開発中のヒューマノイドロボットが表示され、エコシステムの広さをアピールした。(下の写真、現在開発中のヒューマノイドロボット、左から、Figure AI、Unitree Robotics、Apptronik、Agility Robotics、(Jensen Huang)、Sanctuary AI、1X Technologies、Fourier Intelligence、Boston Dynamics、XPENG Robotics)。

出典:Nvidia

ロボットと生成AIとの融合

ヒューマノイドロボットがホットな研究テーマになっている。OpenAIはFigure AIに出資し、共同でヒューマノイドロボットの開発を進めている。ロボットに大規模言語モデルを組み込み、人間のようなインテリジェンスを得る。Agility Roboticsの「Digit」は、配送センターで人間の作業員に代わり荷物を搬送する (下の写真、Digitがオーブンからトレイを取り出している様子)。一方、Teslaのヒューマノイドロボット「Optimus」はステージに登場せず、独自方式でモデルを開発している。ヒューマノイドロボットが生成AIと融合し、インテリジェンスが劇的に進化すると期待されている。

出典:Nvidia

Googleは生成AIをロボットに適用、ロボットは人間の言葉を理解しカメラの映像で命令を実行、知能が向上し学習していないタスクを実行できる技能を獲得

Google DeepMindは生成AIでロボットの頭脳「RT-2」を開発した。生成AIはチャットボット「Bard」のエンジンとして使われているが、これをロボットに適用した。RT-2は人間の言葉を理解し、カメラの映像を読み込み、ロボットのアクションを計算する。この手法は、ロボットは教育されていない命令を実行できることを意味し、汎用ロボットの開発に向けて大きな技術進化となる。

出典: Google DeepMind

RT-2とは

Google DeepMindはロボットの頭脳「Robotic Transformer 2 (RT-2)」を開発した。名前の通り、言語モデル「Transformer」で構成されるロボットで、言葉(人間の命令)とイメージ(カメラの映像)をアクション(ロボットの動作)に翻訳する機能を持つ。人間の指示をそのままロボットが実行することを意味し、RT-2は初めての環境でもタスクを実行することができる。RT-2はロボットハードウェアに実装され、カメラで目の前のオブジェクトを捉え、ロボットアームが処理を実行する(上の写真)。

汎用ロボットの開発

GoogleはTransformerを搭載することで汎用ロボットを開発するアプローチを取る。現在のロボットは、特定のタスク(リンゴを掴むなど)を繰り返し練習し、スキルを獲得する。これに対し汎用ロボットは、特定のスキル(リンゴを掴むなど)を習得すると、それを別のタスク(バナナを掴むなど)に応用する。人間のように学習したことを汎用的に使いこなす能力で、ロボット開発のグランドチャレンジとなっている。

RT-1とRT-2を開発

言語モデル「Transformer」をロボットに適用する試みは「RT-1」で始まり、ロボットは学習したスキルを別のロボットに移転することが可能となった。RT-2はRT-1が学習したことを継承し、更に、ウェブ上のデータを学び、世界の知識を習得した。これにより、人間の言葉をロボットの言葉に翻訳し、初めての環境でもタスクを実行し、ロボットの汎用性が向上した。

RT-2の成果：初めてのタスク

RT-2はカメラで捉えたイメージだけで、指示された命令を実行する。具体的には、ロボットが「イチゴを掴んでボールに移す」よう指示されると、RT-2はカメラで捉えたイメージから、次のアクションを予想し、これをロボットが実行する(下の写真左側)。今までのロボットは、イチゴを掴んでボールに移す操作を何回も練習して、このスキルを獲得するが、RT-2は学習していないスキルでも、これを実行することができる。同様に、「テーブルから落ちそうな包みを掴んで」と指示されると、RT-2は初めてのタスクでもこれを実行する(右側)。

出典: Google DeepMind

RT-2の成果：初めての環境

RT-2は今までに学習したことのない環境で、命令を実行することができる。RT-2は、見たことのないオブジェクトを操作できる(下の写真左側)。また、学習していない背景(中央、テーブルクロス)や、学習していない環境(右側、キッチンのシンク)において、指示されたタスクを実行できる。このスキルは汎用化(Generalization)と呼ばれ、学習したことを元に、新しい環境でその知識を応用し、タスクを実行できる能力を指す。

出典: Google DeepMind

RT-2の成果：推論機能

RT-2のモデルが更に改良され、ロボットは推論機能を獲得した。これは「考察の連鎖(chain-of-thought)」と呼ばれるもので、ロボットは複数の思考ステップを経て結論を導き出す。ロボットは「目的」と「アクション」を理解してそれを実行する。具体的には、ロボットに「くぎを打つ」という目的を示し、このために「どのオブジェクトを使えるか」と聞くと、ロボットは「紙」、「石」、「コード」の中から(下の写真左側)、「石」を取り上げる(右側)。RT-2は「金槌」が無い時は「石」を代用できることを推論した。

出典: Google DeepMind

ベンチマーク結果

RT-1とRT-2がタスクを実行できる能力を比較すると、その差は歴然としており、大規模言語モデルを適用することで、性能が向上することが示された(下のグラフ)。具体的には、既に学習したタスク「Seen」を実行できる割合については、両者で互角となる(左端)。しかし、初めてのタスク「Unseen」に関しては、RT-2が実行できる割合がRT-1を大きく上回る(右端)。RT-2は、人間と同じように、学習したことを新しい環境に適用できることを意味し、汎用的に学習する機能を獲得した。(RT-1は灰色のグラフ、RT-2は紫色と薄青色のグラフ。)

RT-2は大規模言語モデルの種類により二つのモデルが開発された。二つの言語モデルは：

PaLM-E：言語モデル「PaLM」をロボット向けに最適化。言語とイメージを処理。
PaLI-X：言語モデル「PaLI」の小型モデル。多言語とイメージを処理。

出典: Google DeepMind

ロボット開発は進まないが

大規模言語モデル「Transformer」はChatGPTなどチャットボットのエンジンとして使われ、人間の言語能力を凌駕し、社会に衝撃を与えた。Googleはこれをロボットに適用することで、研究開発におけるブレークスルーを目指している。デジタル空間のAIは劇的な進化を続けているが、ロボットなど実社会におけるAIは目立った進展が無い。生成AIでこの壁を破れるのか、世界の研究者が注目している。

Teslaが世界最大のロボット企業になる！？自動走行技術をヒューマノイドに応用、クルマのように部品を標準化し大量生産により低価格を実現

TeslaはAI技術を発表するイベント「Tesla AI Day 2022」を開催し、ロボットの開発状況を明らかにした。このロボットは「Optimus」と呼ばれ、昨年のイベントではそのプロトタイプが公開された。今年は、その開発プラットフォームが登場し、ステージの上をゆっくりと歩くデモが実施された(下の写真)。Elon Muskはロボットを大量生産する計画で、価格はクルマより安く、2万ドルになるとの予測を示した。更に、経済生産性の観点からは、ロボットはクルマより重要で、Teslaはロボット会社に転身することを暗示した。

出典: Tesla

Optimusとは

Teslaが開発しているロボット「Optimus」は、人間の骨格を模したヒューマノイドで、二足歩行し、両手でものを持つことができる。人間は自然界で進化し、骨格や関節や筋肉などが最適化され、効率的に動くことができる。Optimusは最適化された人間の物理構造を参考に設計された。ロボットは配送センターで荷物を運び、また、製造工場では部品の組み立てなどに使われる。(下の写真、Optimusが両手で荷物を持ち、それを運んでいるシーン。)

出典: Tesla

ロボットの構造

ロボット(下の写真中央)は、人間の筋肉に相当するアクチュエータ(赤色の部分)と、神経系に相当する電気系統(水色の部分)から構成される。28のアクチュエータを搭載し、人間の動きを再現する。電気系統ではバッテリーを搭載し、また、ロボットの頭脳としてTeslaが設計した半導体(SoC)を実装する。通信技術としてはWi-FiとLTEを採用するとしている。

出典: Tesla

視覚とナビゲーション

ロボットはカメラを搭載しており、周囲を撮影しオブジェクトを把握する。ロボットがプランターの植物に水をあげる時には(下の写真左側)、植物の位置を認識し(右側)、じょうろを的確に動かす。また、屋内を移動するときには、カメラで家具などのランドマークを認識し、安全なルートを算出する。ここには、Teslaの自動運転技術が使われているとしているが、技術詳細は公開されなかった。

出典: Tesla

アクチュエータ

Teslaは人間のように効率的に動けるヒューマノイドを目指していて、このためにアクチュエータの最適なデザインを模索している。アクチュエータは人間の筋肉に相当し、その動きは速度とトルクの関係で定義される。センサーでそれらを計測し、一番効率的に動かすための関係を検証した。その結果、アクチュエータの種類を６とし、解析結果をもとに最適なデザインを開発した。(下の写真、６つのアクチュエータは色分けして示されている。グラフはそれぞれのアクチュエータの速度とトルクの関係。)

出典: Tesla

開発過程

昨年のイベントではOptimusのプロトタイプ(下の写真左側)が紹介され、今年はその開発プラットフォーム(中央)を中心に、開発状況が示された。更に、最新版のOptimus(右側)がステージに登場したが、実際に歩行することはできなかった。

出典: Tesla

最新版のOptimus

ライブデモの代わりに、Teslaは最新版Optimusが研究室で歩行訓練をしている様子を公開した。2022年4月に、最初の一歩を踏み出し、技術開発を進め、腕を振り、つま先をあげることができるようになったが、まだ歩くことはできない。最新版Optimusは、アクチュエータやバッテリーなど必要なハードウェアを搭載しており、現在、ソフトウェアを中心に技術開発を進めている。

出典: Tesla

ロボットを開発する理由

イベントでMuskは、Optimus(下の写真)は経済生産性を二けた向上することができると、繰り返し述べた。ロボットが人間に代わり、荷物を運び、部品を組み立てることで、経済生産性が大きく向上する。ビジネスの観点からは、クルマよりロボットのほうが、将来性があると述べ、Teslaはロボット企業に転身することを示唆した。

出典: Elon Musk

Muskの発言の解釈

Muskの発言が業界に衝撃を与えているが、同時に、これをそのまま受け止めるのではなく、割り引いて解釈すべきとの意見も少なくない。Muskは壮大な構想を打ち出し、社会の注目を集めるが、これが不発に終わるケースは少なくない。また、Optimusは優秀なエンジニアを雇い入れるためのPRだという解釈もある。Muskの発言は、厳密なロードマップとは異なり、柔らかい構想を示したもので、これをどこまで実現できるのか、ウォッチしていく必要がある。

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を３D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。

自動運転ロボット「Nuro」がシリコンバレーで営業運転を開始、実際に使ってみたが自動運転車が注文した商品を玄関先まで配送

自動運転ロボット「Nuro」がシリコンバレーで営業運転を開始した。Nuroはトヨタ・プリウスをベースとした自動運転車で、注文した商品を玄関先まで配送する。今はセーフティドライバーが搭乗しているが、将来は、無人車両が商品を配送する。コロナの感染拡大で、Eコマースによる宅配事業が急拡大しており、自動運転ロボットへの期待が高まっている。

出典: Nuro

セブンイレブンと提携

Nuroはコンビニ「セブンイレブン」と提携し、カリフォルニア州マウンテンビュー市で宅配サービスを開始した。オンラインで購入した商品を、トヨタ・プリウスをベースとした自動運転ロボットが、消費者宅まで配送する(上の写真)。Nuroはドライバーの介在なく自動で走行する。Nuroは、専用車両「R2」を開発しており(上の写真左端の車両)、次のステップは、ロボットが無人で商品を宅配する。

実際に使ってみると

早速、Nuroによる配送を試してみたが、全てのプロセスがスムーズに動いた。セブンイレブンで商品を購入するために、専用アプリ「７NOW」を使った(下の写真)。ショッピング画面(左側)で宅配を選択し、希望する商品を購入した(中央)。支払い処理が終わると、店舗側で商品をNuroに積み込む作業が始まる。その後、Nuroがセブンイレブンを出発し、目的地に向かった。Nuroの位置はマップに表示され、運行状態を確認できた(右側)。

出典: VentureClef

Nuroが無事に到着

Nuroは、自宅前に停止し(下の写真)、配送スタッフが購入した商品を玄関先まで届けてくれた。Nuroには、セーフティドライバーが搭乗しており、クルマを安全に運行する。スタッフに話を聞いてみると、Nuroは殆どの区間を自動で走行するが、時々、セーフティドライバーがステアリングを操作するとのこと。(実際、Nuroは玄関前を通り越し、隣の家で停車したため、セーフティドライバーがマニュアル操作で、Uターンして自宅前にクルマを移動した。)

出典: VentureClef

カリフォルニア州の認可

Nuroは、営業運転を開始するにあたり、カリフォルニア州の陸運局 (Department of Motor Vehicles)から、公道を無人走行するための認可を受けた。走行できる地域が指定されており、Nuroはサンタクララ群とサンマテオ群で営業運転を展開できる。また、走行できる道路も規定され、定められたルートを安全に走行する。事実、営業運転は、サンタクララ群のマウンテンビュー市で開始された。(下の写真、試験走行中のNuro)

出典: VentureClef

次のステップ

Nuroは自動運転ロボット「R2」を開発している(下の写真)。R2はレベル５の自動運転車で、ロボットが無人で、商品を消費者宅に配送する。消費者は、ウェブサイトで商品を購入すると、R2がこれを配送する。R2は玄関先に停車し、消費者は貨物ベイのハッチを開けて商品を取り出す仕組みとなる。現在は、食料品の配送が中心であるが、将来は、医薬品の配送も計画されている。

出典: Nuro

ロボット宅配需要が高騰

新型コロナの変異株「Omicron」の感染が広がり、パンデミックの終息が見通せなくなり、宅配サービスの需要が急騰している。レストランの出前サービスの他に、食料品の配送ビジネスが拡大している。小売店舗側はNuroと提携し、ロボットによる宅配サービスを進めている。セブンイレブンの他に、スーパーマーケット「Kroger」やドラッグストア「CVS」がNuroによる宅配サービスを展開している。これらの需要に応えるため、Nuroは技術開発を加速している。

Emerging Technology Review

シリコンバレーからの最新技術レポート

カテゴリー別アーカイブ: ロボティックス

Nvidiaはヒューマノイドロボットの開発拠点となる！！生成AIを組み込み汎用的に稼働する人型ロボットの開発基盤を提供

Googleは生成AIをロボットに適用、ロボットは人間の言葉を理解しカメラの映像で命令を実行、知能が向上し学習していないタスクを実行できる技能を獲得

Teslaが世界最大のロボット企業になる！？自動走行技術をヒューマノイドに応用、クルマのように部品を標準化し大量生産により低価格を実現

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

自動運転ロボット「Nuro」がシリコンバレーで営業運転を開始、実際に使ってみたが自動運転車が注文した商品を玄関先まで配送