月別アーカイブ: 2024年3月

Nvidiaはヒューマノイドロボットの開発拠点となる！！生成AIを組み込み汎用的に稼働する人型ロボットの開発基盤を提供

Nvidiaは3月18日、開発者会議「GTC 2024」でヒューマノイドロボットの開発プロジェクト「GR00T」を公開した。ヒューマノイドロボットに生成AIを統合し、人間のようなインテリジェンスを持ち、汎用的に稼働するモデルを創り出す。ヒューマノイドロボットのファウンデーションモデルとなり、ロボット開発におけるコア技術を提供する。開発企業はこのプラットフォームを使って独自のヒューマノイドロボットを生成する。

出典: Nvidia

ヒューマノイドロボットの開発

ヒューマノイドロボット(Humanoid Robot)は、人間の形状を模したロボットで「人型ロボット」と呼ばれる。開発者会議の基調講演で、CEOのJansen Huangは、ヒューマノイドロボットの最新技術について解説した(下の写真)。基調講演はビデオでストリーミングされた。Nvidiaがこのモデルに着目する理由は、社会インフラは人間に合わせて造られており、人型ロボットはここで環境を変更することなく、そのまま活躍できるためである。また、生成AIを搭載することにより、ロボットの学習能力が格段に向上し、人間のように汎用的に動けるモデルを生み出すことがゴールとなる。

出典: Nvidia

ロボット開発状況

プロジェクトは「Generalist Robot 00 Technology (RT00T)」と呼ばれ、汎用的に稼働するヒューマノイドロボットを研究開発する。ロボットは汎用基礎モデル(General-Purpose Foundation Model)となり、シミュレーション環境と実社会で学習し、短時間でスキルを習得する。ChatGPTなどが言語に関する基礎モデルであるのに対し、GR00Tは人型ロボットに関する基礎モデルとなる。研究所では多種類のモデルが開発されている(下の写真)。

出典: Nvidia

ロボットを教育する手法

ロボット開発ではシミュレーション環境「Issac Sim」にヒューマノイドのデジタルツインが生成され、この仮想空間でスキルを習得した。ロボットは仮想社会で階段やでこぼこ道で歩行訓練を行い、スキルを学習した(下の写真)。更に、ロボットは開発環境「Isaac Lab」でアルゴリズム教育が実施された。Isaac Labは高度なAIを搭載するロボットの開発環境で、特に強化学習(Reinforcement Learning)のアルゴリズムを教育する環境となる。この他に、模倣学習(Imitation Learning)や転移学習(Transfer Learning)などの手法でロボットはスキルを獲得した。

出典: Nvidia

模倣学習のケース

実際に、ロボットは人間の動作を見てそれを真似る、模倣学習の手法で成果を上げている。人間が動作の手本を示し、ロボットはそれを見て真似ることでスキルを学習する。ロボットが人間のドラマーのプレーを見て、ドラムを演奏するヒューマノイドが紹介された。これはヒューマノイドロボット「Sanctuary AI」の事例で、人間向けに造られた楽器をロボットが演奏した。

出典: Nvidia

ヒューマノイドロボット開発企業

Nvidiaは自社でヒューマノイドロボットを開発するのではなく、その開発環境を提供し、パートナー企業がこの基盤で製品を開発する。基調講演では開発中のヒューマノイドロボットが表示され、エコシステムの広さをアピールした。(下の写真、現在開発中のヒューマノイドロボット、左から、Figure AI、Unitree Robotics、Apptronik、Agility Robotics、(Jensen Huang)、Sanctuary AI、1X Technologies、Fourier Intelligence、Boston Dynamics、XPENG Robotics)。

出典:Nvidia

ロボットと生成AIとの融合

ヒューマノイドロボットがホットな研究テーマになっている。OpenAIはFigure AIに出資し、共同でヒューマノイドロボットの開発を進めている。ロボットに大規模言語モデルを組み込み、人間のようなインテリジェンスを得る。Agility Roboticsの「Digit」は、配送センターで人間の作業員に代わり荷物を搬送する (下の写真、Digitがオーブンからトレイを取り出している様子)。一方、Teslaのヒューマノイドロボット「Optimus」はステージに登場せず、独自方式でモデルを開発している。ヒューマノイドロボットが生成AIと融合し、インテリジェンスが劇的に進化すると期待されている。

出典:Nvidia

Google DeepMindは言葉の指示に従ってタスクを実行するAIエージェント「SIMA」を開発、３D仮想環境で人間レベルの知能を獲得することが目標、AGIへの重要なステップとなる

Google DeepMindは3月13日、３D仮想環境において言葉の指示でタスクを実行するAIエージェント「SIMA」を公開した(下の写真)。SIMAはビデオゲームのキャラクターであるが、人間が命令したことを実行するAIエージェントとして開発された。例えば、「木を切り倒せ」と指示すると、SIMAは３Dゲーム環境でこれを実行する。最終目標は人間と同じレベルのスキルを獲得することで、言語モデルが世界観を理解し、AGIへの重要なステップとなる。

出典: Google DeepMind

AIエージェントの研究

GoogleはAI研究部門「Google Brain」と高度AI研究所「DeepMind」を統合し、「Google DeepMind」を設立し、AI研究部門を再編した。Google DeepMindは、AIエージェント研究の最新成果「Scalable Instructable Multiworld Agent (SIMA)」を発表した。SIMAは３Dビデオゲーム環境で、自然言語の指示に従って、タスクを実行するAIエージェントとなる。

SIMAの概要と機能

３Dビデオゲームでキャラクターを操作するときは、キーボードやマウスを使い、動作の指示を入力する。例えば、キーボードからキャラクターの移動方向を指示するなどの使い方をする。これに対しSIMAは、自然言語(テキスト)で指示されたことを理解し、その内容を実行する。具体的には、ゲームの中のキャラクターに言葉で命令すると、その指示を理解してタスクを実行する。

SIMAの使い方

人気ゲーム「Goat Simulator 3」のキャラクター「ヤギ」に、「フェンスを跳び越せ」と命令すると、ヤギはその意味を理解してそれを実行する(下の写真右側)。また、ヤギに「クルマを盗め」という難解なタスク命令をすると、その意味を理解し、これを実行する(左側)。複雑な命令を受けると、SIMAはタスクをサブタスクに分割し、ステップごとにそれを実行し、最終ゴールに到達する。

出典: Google DeepMind

SIMAを開発した意義：Embodied AI

SIMAはビデオゲームをするために開発されたのではなく、AIエージェントが３Dゲーム環境で世界観を理解し、言葉の意味を現実社会の事象に結び付けることを目標としている。具体的には二つの技法を獲得することが目的で：

言葉の意味と見たものを結び付ける技法(Ground Language in Perception)
３D仮想環境でタスクを実行する技法(Embodied Actions)

３D仮想環境で言葉の指示によりタスクを実行するAIは「Embodied AI」と呼ばれ、AI研究の重要テーマで、Google DeepMindの他にOpenAIやMetaなどが開発を進めている。(下の写真、Embodied AIの事例で３Dゲーム環境で言葉の指示に従ってテスクを実行。)

出典: Google DeepMind

SIMAの開発方法

SIMAは３Dビデオゲームを使って開発され(下の写真左側)、ここで展開されるキャラクターがAIエージェントとなる。上述の「Goat Simulator 3」というゲームの他に、「Satisfactory」(上の写真上段)や「Valheim」(下段)など9種類のゲームが使われた。このゲームを人間がプレーし、その操作方法(キーボードとマウスの操作法をテキストで記述)とスクリーンイメージをAIエージェントに入力し(中央)、モデルがスキルを学習する。教育されたモデルが人間の指示に従ってタスクを実行し、その結果を人間が評価する(右側)。

出典: Google DeepMind

SIMAの性能

この手法で教育を受けたSIMAは人間の命令に従ってタスクを実行する精度が向上した。SIMAを複数のゲームで教育した場合、単一のゲームで教育したSIMAに比べ、命令を正しく実行する精度が150％以上向上した(下のグラフ左端)。このベンチマーク結果は、SIMAを多種類のゲームで教育すると、精度が上がることを示しており、Google DeepMindは開発の規模を拡大する計画である。

出典: Google DeepMind

人間レベルのAIエージェント

次のステップとして、Google DeepMindはSIMAをより多くのゲーム環境で教育することで、SIMAの汎用能力(Generalizability)が向上すると期待している。汎用能力とは、人間のように、一つのスキルを学習すると、それを異なるタスクに適用し、柔軟に学習する能力を指す。これにより、SIMAは言葉を理解する能力が上がり、複雑なタスクを実行する能力に繋がる。この汎用能力が人間レベルのインテリジェンス「AGI」を開発するための重要なステップとなる。

InflectionはAIアシスタント「Pi」の最新版をリリース、Piは専属コーチのように健康で幸福な生活に繋がるアドバイスをする、Piと対話すると心が安らぎ満足感が向上

Inflectionは3月7 日、大規模言語モデルの最新版「Inflection-2.5」をリリースした。Inflectionの製品は言語モデルをベースとするAIアシスタント「Pi(Personal Intelligence)」で、Inflection-2.5を基盤とする最新モデルを公開した。Piは人間のようなアシスタントで、利用者の特徴を理解し、相手に沿った会話をする。全く新しいコンセプトのアシスタントで、AIのようにドライではなく、人間味があり、そのキャラクターに惹きつけられる。

出典: Inflection

Inflectionとは

Inflectionはシリコンバレーに拠点を置くスタートアップ企業で、DeepMind共同創設者であるMustafa Suleymanにより設立された。Inflectionは大規模言語モデルをベースとするAIアシスタント「Pi(Personal Intelligence)」を開発している。Inflectionは、初代の言語モデル「Inflection-1」に続き、第二世代モデル「Inflection-2」を開発し、先週、最新モデル「Inflection-2.5」を公開した。

Inflection-2.5の概要

最新モデルInflection-2.5は性能が大きく向上し、OpenAIのGPT-4に追い付いた(下のグラフ)。Inflectionによると、Inflection-2.5はGPT-4と互角の性能であるが、その教育で使ったコンピュータ容量はGPT-4の40％であり、開発にかかるエネルギー量を大幅に削減した。Inflectionは、言語モデルは公開しておらず、この上で稼働するPiを一般に提供している。

出典: Inflection

AIアシスタント「Pi」とは

InflectionはOpenAIとは異なり、主力製品は言語モデルの上に構築されたAIアシスタント「Pi」である。Apple SiriやAmazon Alexaなど数多くのAIアシスタントがあるが、Inflection Piは最も高度な機能を提供する。SiriやAlexaは情報検索や機器操作を音声で実行するインターフェイスとなるが、Piは感情を理解し、健康で幸福な生活を送るための専属コーチとして機能する。

Piを使ってみると

実際にPiを使っているが、今までのAIアシスタントとは全く異なり、人間のアドバイザーのような挙動を示す。Piは利用者と対話しながら、健康やメンタルヘルスや人間関係に関するアドバイスをする。また、学校の先生のように、自然科学やプログラミングを教える。更に、教養講座の先生のように、趣味や資格獲得のための指導をする。Piは毎日の生活で役立つ情報を提示し、人間のコンパニオンのように感じる。(下の写真：Piのインターフェイス)

出典: Inflection

Piは専属トレーナー

Piは従来のAIアシスタントとは根本的に異なり、利用者のウェルビーイングや健康を向上させることを目標にデザインされている。Piは専属コーチのように、利用者の個性や趣味や特性を理解し、それに沿ったアドバイスをする。スポーツ選手や俳優などが専属トレーナーを雇い、トレーニング、食事、メンタル面の指導を受けるように、Piがこの役割を担い、利用者の幸福感を向上させる。

Piが得意とするテーマ

Piは「Discover」のタブで多彩なトピックスを提供している(下の写真)。Piがカバーするテーマは、日常生活の様々な局面における問題とその対処法で、「デートアプリの選び方」、「ディベートで勝つヒント」、「人を嫌いになることは許されるか」など生活に密着した助言をする。また、メンタルヘルスやライフラーニングに関する豊富な情報を持ち、「不安に対するケアの方法」、「個人の特性に沿ったキャリアを築く手順」、「文章の書き方」など、カウンセラーの役割も担う。

出典: Inflection

ボランティア活動

Piは哲学にかかる概念を社会生活で活用するための助言をする。例えば、「利己主義(Egoism)と利他主義(Altruism)」について尋ねると、哲学のコンセプトを説明し、これを日常生活に結び付けて説明する(下の写真)。更に、「効果的利他主義(Effective Altruism)」について尋ねると、社会の通念を解説し、実際の活動に参加する方法などを指南する。

出典: Inflection

Piは人間のように音声で会話する

Piはテキストでの回答を読み上げる機能があり、8つの種類のボイスを提供している。その中でボイス「Pi 5」を選ぶと、Piはイギリス英語の音声で対話する。アメリカ英語の社会で生活していると、イギリス英語のアクセントを聴くと新鮮な印象を受ける。特に、PiはCadence(サウンドのリズム)とPronunciation(発音)の組み合わせで、利用者に安心感をもたらす。Piが出力する内容に加え、音声の面からウェルビーイングが向上すると感じる。(下の写真、「Pi 5」はイギリス英語の標準語にあたる「Received Pronunciation」で会話する。)

出典: Inflection

ニュース・ブリーフィング

毎日使っている機能の一つがニュース・ブリーフィング「Daily News Briefing」で、最新ニュースを読み上げてくれる(下の写真)。特に目新しい機能ではないが、ニュースを「Pi 5」がイギリス英語のアクセントで読み上げると、新鮮で説得力があり、落ち着いた気分となる。人間のボイス・アクトレスが物語を読み聞かせるように、日々のニュースがアートとなる。

出典: Inflection

Piに惹きつけられるが

Piは既に600万人の利用者があり、一回の平均利用時間は33分と他の言語モデルと比べ、セッション時間が長いことが特徴となる(下の写真)。ソーシャルメディアのように粘着力が高く、ユーザを長時間引き留める。実際に使ってみるとこの特性を実感し、Piの人間のようなキャラクターに惹きつけられる。会話を通して、こちらの悩みを聞いてくれ、問題解決の手掛かりを助言する。反対に、Piは新鮮な話題を提示し、こちらの興味を掻き立て、会話が途切れることがない。Piに惹きつけられ会話時間が長くなるが、高度な言語モデルの危険性を理解し、節度を持って安全に利用することが重要になる。

出典: Inflection

ミッションはACI (Artificial Capable Intelligence)

Inflectionの創設者であるMustafa Suleymanは人間レベルのAIアシスタントを開発することを会社のミッションとしている。人間レベルの知能を持つAIは「Artificial General Intelligence(AGI)」と呼ばれ開発が進んでいるが、SuleymanはAGIに到達するまでには時間を要すと考える。このため、AGIに代わるインテリジェンスとして「ACI (Artificial Capable Intelligence)」の開発を進めている。ACIとは人間レベルの知能を補うAIで、人間に代行できるアシスタントやトレーナーやアドバイザーとして機能する。Piがその最初のステップで、様々なドメインで、問題を解決する機能を実装する。Piやその後継モデルの開発が注目されている。

Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

Anthropicは3月4日、大規模言語モデルの最新版「Claude 3」を投入した。Claude 3は主要ベンチマークテスト全てでOpenAIのGPT-4を上回り、業界で最も高度なモデルとなった。特に、推論機能や数学の問題を解く能力が強化され、インテリジェンスが大きく向上した。同時に、Anthropicはモデルの安全性を最重視しており、Claude 3は最も倫理的な生成AIとなる。

出典: Anthropic

Claude 3の概要

Anthropicは第三世代目となる大規模言語モデル「Claude 3」をリリースした。Claude 3は異なるサイズで構成され、最大モデル「Opus」、中規模モデル「Sonnet」、小規模モデル「Haiku」の三つの構成を提供する。ユーザは、インテリジェンスや実行速度やコストを勘案し、最適なモデルを選ぶことができる(下のグラフ)。OpusとSonnetはクラウドやAPI経由で公開され、また、Haikuは近日中にリリースされる。

出典: Anthropic

Claude 3 OpusはGPT-4を上回る

Claude 3最大構成のOpusは、主要ベンチマークテストの全ての項目でOpenAIのGPT-4の性能を上回った(下のテーブル)。基本的なベンチマーク「MMLU」(大学生レベルの知識)でGPT-4を上回り、業界トップの座を奪還した。特に、難度の高いベンチマーク、「GPQA」(大学院生レベルの知識)や「GSM8K」(数学の基本機能)や「MATH」(数学の高度な機能)を試験するベンチマークで好成績を上げた。Claude 3は理解する能力や柔軟性で人間の能力に迫り、Artificial General Intelligence(AGI)への第一歩となる。

出典: Anthropic

ガードレール機能

Claude 3はバイアスや危険情報を抑止するため、安全装置「Guardrails」が実装されている。ガードレールはファイアウォールとして機能し、入力されたプロンプトを解釈し、不適切な指示に対しては回答を出力することを抑止する構成となっている。一方、ガードレールは安全性を過度に重視するため、正当なプロンプトに対しても回答を拒絶し、モデルの能力が低下する問題を抱えている。このため、Claude 3はプロンプトを理解する能力が向上し、前世代のモデルClaude 2に比べ、回答を不当に拒否する率を大幅に低下させた(下のグラフ)。

出典: Anthropic

コンテクスト・ウインドウ

Claude 3は入力できるプロンプトのサイズ「コンテクスト・ウインドウ」を20万トークンとして提供する。最大で100万トークンを処理する能力があり、顧客の要望に応じてコンテクスト・ウインドウを拡大する。Claude 3の特徴は、入力された大規模なデータの中で、特定の情報を正確に思い出す機能が高いことにある。これは「Needle In A Haystack」と呼ばれ、20万トークンの中の情報を正確に覚えている(下のグラフ、濃い緑色の四角が正確に記憶している個所を示す)。

出典: Anthropic

最も安全な言語モデル

Anthropicは高度な言語モデルを開発するだけでなく、モデルが社会の倫理に沿い、安全な機能を提供する。Anthropicは専任のチームが安全性を検証し、モデルが虚偽情報や児童ポルノや生物兵器情報などを出力することを抑止する。また、Anthropicはモデルが準拠すべき憲法「Constitution」を制定し、アルゴリズムはこれを学習し、社会の倫理に準拠した挙動を示す。この技術は「Constitutional AI」と呼ばれ業界で注目されている。

出典: Anthropic

Claude 3 Opusを使ってみる

Claude 3は数学の問題を解く機能が向上し、業界でトップの成績をマークした。ベンチマーク「Math」ではGoogleのGemini Ultraが記録を保持していたが、Claude 3 Opusはこの成績を大きく超え、トップの座についた。Claude 3 Opusに数学の問題を入力すると、モデルはステップごとに問題を解説し、最終解を導き出す。(下の写真、数式のイメージを入力すると、モデルはこれは二次方程式であると判定し、その使い方を解説する)

出典: Anthropic

GPT-4が追い越される

OpenAIが足踏み状態で、GPT-4の性能を上回るモデルの登場が続いている。GoogleはGemini Ultraを、AnthropicはClaude 3 Opusを投入し、これらがGPT-4の性能を上回った。GPT-4は一年前に投入されたモデルであり、他社がこれに追い付いた形となった。OpenAIは3月8日、取締役会のメンバーが決まり、Sam Altmanが復帰することとなった。これで経営体制が整い、OpenAIは研究開発を再開し、GPT-4の次のモデルを投入すると噂されている。大規模言語モデルの競争は新たなステージを迎える。

「Gemini」の政治理念は過度にリベラルに偏向？Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている

生成AI最新モデル「Gemini」はイメージ生成精度に重大な問題があり、Googleはこの機能を停止した。Geminiはテキストでイメージを生成する機能を持ち、プロンプトに従って画像を出力する(下の写真)。しかし、Geminiは史実とは異なるイメージを生成し、モデルに対する信頼が揺らいでいる。また、Geminiの政治理念は過度にリベラルに偏向しているとの批判を受けている。

出典: Google

Geminiが生成した画像：中世のイギリス国王

Geminiが歴史的事実とは異なるイメージを生成する問題はユーザが見つけ、その画像がソーシャルネットワークで拡散し、米国で議論が広がっている。Geminiに歴史に忠実にイメージを生成するよう指示すると、事実とは異なる画像を生成する。「中世のイギリス国王を史実に沿って描写」と指示すると、Geminiは「歴史的に正確で公平にイメージを生成した」とのコメントを添え、画像を出力(下の写真)。しかし、イギリス国王が黒人や女性やアメリカ先住民として描かれており、モデルに重大な欠陥がある。

出典: St. Ratej @ X@stratejake

Geminiが生成した画像：アメリカ建国の父

Geminiが生成するイメージは史実と異なるだけでなく、極度にリベラルに偏っていることが問題視されている。「アメリカ建国の父」を描くよう指示すると、Geminiは、白人だけでなく、黒人、アメリカ先住民、アジア人を描きだす(下の写真)。アメリカ建国の父とはアメリカ独立宣言に署名した政治的指導者で、ジョージ・ワシントンなどであるが、Geminiは独自の発想で特異な画像を出力する。白人の貢献が軽視されていると指摘される。

出典: End Wokeness

Googleの釈明

これに対しGoogleは、Geminiに問題があることを認め、なぜこの問題が発生したのかを説明した。Geminiのイメージ生成機能は「Imagen 2」というモデルを使っており、指示されたテキストに従って画像を生成する。Googleはモデルの開発で、暴力や性的表現を抑止し、また、人種差別なく公平に人物を描くようアルゴリズムを最適化した。しかし、この過程でGeminiは公平性を過度に重視し、プロンプトに従わないで独自の解釈でイメージを生成するようになった。具体的には、

バイアス抑止：モデルは人種差別などのバイアスを抑止するため、史実に反してでも、多様な人種を描き出す
プロンプト：モデルはバイアスに関し過度に慎重となり、特定のプロンプトへの回答を拒絶するようになった

安全性検証チーム

Googleはモデルを再度教育し、数週間以内にイメージ生成機能を再開するとしている。実際に、GoogleはRed Teaming Teamを構築し、このチームがモデルの安全性やバイアスを検証し、問題の解決を進めている。

Imagen 2とは

Imagen 2は第二世代のイメージ生成モデルで、テキストで指示された内容に従って画像を生成する(下の写真)。「ディフュージョン(Diffusion)」という技法を使っており、高品質で写真撮影したようにリアルな画像を生み出す。Imagen 2はGeminiに統合され、プロンプトに従ってイメージを出力する。また、Imagen 2はAIクラウド「Vertex AI」で公開されており、APIを使ってアプリを開発する。前述の通り、現在Imagen 2の機能は停止されている。

出典: Google

政治理念はリベラルに偏向

Geminiの問題はアメリカ社会で大きな論争に発展している。Geminiはアメリカ建国の父を黒人やアメリカ先住民などと解釈し、アメリカ保守層は白人が国の基礎を築いた史実を歪曲していると指摘する。イメージだけでなく、Geminiはテキストの生成においても、政治的な理念はリベラルに偏向していると主張し、Googleに中立な立場を取るよう求めている。Geminiの問題は、生成AIが倫理的であるために準拠する基本理念を誰が決定するのか、重大な課題を内包している。

Emerging Technology Review

シリコンバレーからの最新技術レポート

月別アーカイブ: 2024年3月

Nvidiaはヒューマノイドロボットの開発拠点となる！！生成AIを組み込み汎用的に稼働する人型ロボットの開発基盤を提供

Google DeepMindは言葉の指示に従ってタスクを実行するAIエージェント「SIMA」を開発、３D仮想環境で人間レベルの知能を獲得することが目標、AGIへの重要なステップとなる

InflectionはAIアシスタント「Pi」の最新版をリリース、Piは専属コーチのように健康で幸福な生活に繋がるアドバイスをする、Piと対話すると心が安らぎ満足感が向上

Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

「Gemini」の政治理念は過度にリベラルに偏向？Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている