作成者別アーカイブ: nad00251

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を３D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。

Nvidiaはリアルなデジタルヒューマンを生成するクラウドを公開、メタバースでアバターが人間に代わりアシスタントとして活躍する

Nvidiaは、今週、コンピュータグラフィックス学会「SIGGRAPH 2022」で、メタバースに関連する技術を発表した。公開された技術は、アバター技術、メタバース開発技術、AIグラフィック技術で、これらが３D仮想社会を生み出すプラットフォームとなる。SIGGRAPHはメタバースとの関連が深く、ここで３DグラフィックスやAIグラフィックスの最新技術が発表された。

出典: Nvidia

アバターを開発するクラウド

Nvidiaはメタバース関連技術の中で、アバターの開発を重点的に進め、最新モデル「Avatar Cloud Engine (ACE)」を発表した。ACEとはクラウドベースのAIモデルで、実物と見分けのつかない高精度なアバターやデジタルヒューマンを開発するための基盤となる。企業はACEを使い、リアルなアバターを生成し、メタバースにおいて人間に代わるアシスタントとして利用する。アバターはゲームや映画の中のキャラクターとして使われるだけでなく、銀行のテラーやホテルのレセプショニストとして活躍する。

アバターの機能

アバターは外観が人間そっくりであることに加え、高度な言語能力を備え、言葉でインタラクティブに応対する(上の写真)。人間が話しかけると、アバターはそれに返答し、両者間で会話が進む。アバターが話すときは、口がそれに同期して動き、顔の表情が変わる。また、英語だけでなく、日本語やフランス語(下の写真)など、多言語で会話できる。更に、アバターは会話のシチュエーションを理解し、それに応じた受け答えをする。

出典: Nvidia

アバターを生成する仕組み

Nvidiaはアバター生成の基礎技術として「Audio2Face」を開発した。これはオーディオを入力すると、ニューラルネットワークが３Dのアニメーションを生成する仕組みとなる(下のグラフィックス)。入力された言葉に従って、それを喋る３Dアバターが生成される。アバターはリアルタイムで生成されるため、人間と対話するモデルで使うことができる。

出典: Nvidia

感情の表現

SIGGRAPHではその最新モデルとして、感情を表現できるアバターが公開された。これは「Audio2Emotion」と呼ばれ、入力されるオーディオの感情を読み取り、ニューラルネットワークはそれに合わせたアバターを生成する。例えば、入力オーディオが「自分がどこにいるのか分からない！」という怒りを込めた言葉であると、AIは怒っている表情のアバターを生成する(下の写真、ビデオへのリンク)。

出典: Nvidia

アバターの利用方法

生成されるアバターは３D仮想社会で人間に代わり様々なタスクをこなす。Nvidiaはそのリファレンスモデルとして「Toy Jensen」を公開した。これはCEOであるJensen Huangをモデルにしたフィギュアで、難しい質問に回答する大学の先生として機能する(下の写真)。また、アバターはレストランのモニターで、顧客と対話しながらメニューを紹介する。更に、アバターは自動運転車に搭載され、コンシェルジュとして、ドライバーと対話しながら道案内をする。

出典: Nvidia

AIで構成されるアバター

ACEで生成されるアバターは、高精度な３Dレンダリングに加え、人間と自然な会話ができるよう、多彩なAIが組み込まれている。人間が話す言葉を理解し、アバターはそれに対する返答をリアルタイムで生成し、会話を続ける。また、AIはアバターの顔の表情や手の動きなど、アニメーションを生成する。具体的には、ACEが提供するAI機能は次の通り：

Riva：会話のためのAI
Metropolis：ビデオ解析のAI
Merlin：推奨エンジン
NeMo Megatron：大規模言語モデル
Omniverse：メタバースの開発環境

メタバース開発でリード

多くの企業がメタバースを開発しているが、高精度な３D仮想社会を生成する技法が、ビジネス成功のカギとなる。Nvidiaはこの開発環境を「Omniverse」として提供しており、メタバース開発で業界標準のツールとして認識されている。メタバースでは、利用者のデジタルツインであるアバターを介して交流が進み、如何に精巧なモデルを生成できるか、各社が競い合って技術開発を進めている。Nvidiaはアバター開発でも業界をリードしており、人間と見分けのつかない、精巧で知的なデジタルツインを生み出している。

メタバースでデートする、仮想空間で恋人を探し現実社会で交際を始める

メタバースでデートして交際相手を探すライフスタイルが始まろうとしている。メタバースはネット上に構築された３D仮想空間で、次世代のインターネットとして開発が進んでいる。メタバースで様々なモデルが試されているが、仮想空間でデートするプラットフォームとして注目されている。アバターを介してデートして(下の写真)、お互いに気に入れば、現実社会で交際を始める。メタバースが、男女間や同性間の仲立ちになるのか、トライアルが始まった。

出典: Flirtual

Flirtualという企業

この技術を開発しているのはカナダ・トロント郊外に拠点を置くFlirtualという新興企業で、メタバースでデートするアプリを提供している。Flirtualはメタバース向けの“デートアプリ”で、相性の良い相手を探し、その人とVR空間でデートする場を提供する。VRヘッドセットを着装し、３D仮想空間で自分のアバターを介し、相手のアバターと交流する。

アプリの機能

まず、アプリにアバターとプロフィールを登録し、自分と相性の良い相手を検索する。アバターはアニメのキャラクターから選び、プロフィールには、名前や年齢や性別を登録し、自己紹介などを書き込む。また、趣味やパーソナリティを記入し、これらがマッチングする相手を探すキーワードとなる。相手が見つかると、その人とテキストメッセージで会話して、デートする場所や時間などを決める。(下の写真、Flirtualのインターフェイス)

出典: Flirtual

VR仮想空間でのデート

デートはVR仮想空間で行われ、VRヘッドセットを着装し、相手のアバターと会話しながら交流を進める。デートする場所が用意されており、シチュエーションに合わせて最適な場所を選ぶ。安心してデートできるよう、公園や水族館やカフェなどを選択できる。また二人で楽しめるように、ビリヤードやミニゴルフなどでプレーできる。また、二人で仮想の草に触ることもできる(下の写真)。

出典: OpenAI

アバター

二人はアバターを介してデートするため、相手の容姿を見ることができない。デジタルツイン同士で交流することになり、自分の素顔を見られず、安心してデートできる(下の写真)。交際が進むと、相手にタッチすることもできる。これは「Phantom Touch」と呼ばれ、相手のアバターにタッチすることで、触覚のフィードバックは無いが、親愛の情を表現できる。VR空間で気が合えば、お互いの素性を明らかにし、現実社会での交際に進むことになる。

出典: Flirtual

VR空間での交流アプリ

VR空間における人の交流はメタバースの中心機能で、多くのアプリが開発されている。ビジネス向けにはMicrosoftが３Dアバターによるビデオ会議「Mesh」を運用している。また、Metaはメタバース会議環境「Horizon Workrooms」を開発している。プライベートな交流では「VRChat」が事実上の標準ツールとなっている。VRChatはサンフランシスコに拠点を置く新興企業で、VR空間で交流するための環境を提供している。ここでイベントなどが開催され、アバターを介して多くの知人と交流する(下の写真)。

出典: VRChatChat

新しいライフスタイル

これらVR交流アプリに対し、Flirtualはデート専用のプラットフォームで、交際するための機能が充実している。ポストコロナのワークスタイルが遠隔勤務に向かっているように、人の交流もオンラインになり、VR空間で交際するライフスタイルが広がろうとしている。メタバースの技術開発が進むにつれ、デートアプリの重要性に注目が集まり、多くの企業が製品開発を進めている。

AIアートが生成するイメージは創作か盗作か、著作物でアルゴリズムを教育することは合法か、テキストをイメージに変換する「DALL·E 2」が知的財産権の議論を引き起こす

OpenAIが開発した「DALL·E 2」は、言葉の指示に従ってイメージを生成するAIである。OpenAIは、先週、DALL·E 2の販売を開始することを発表し、企業や個人はこれを有償で使うことができる。この発表を契機に、DALL·E 2が生成するイメージの法的解釈に関する議論が始まった。DALL·E 2は、著名芸術家のタッチを踏襲し、人気キャラクターのイメージを生成するが、これらは著作権の侵害なのか、議論が白熱している。AIアートの法的な位置づけが問われている。 (下の写真、DALL·E 2が制作した葛飾北斎の富嶽三十六景の「神奈川沖浪裏」で、オリジナルの作品をズームアウトした構成となっている。)

出典: OpenAI

DALL·E 2の機能

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、人気アニメの「シンプソン(Homer Simpson)がビットコインの暴落に驚く様子」 (下の写真左側)や、人気ゲームの「マリオ(Marion)がピーチ(Princess Peach)と離婚手続きを進めているシーン」 (右側)など、DALL·E 2は架空の世界を高精度で描き出す。

出典: OpenAI

アルゴリズムの教育

DALL·E 2は、イメージとテキストの対で教育され、言葉と画像の関係を学習した。これらイメージとテキストはインターネットから収集し、この作業はスクレイピング(Scraping)と呼ばれる。OpenAIは、6億5000万対のイメージとテキストをスクレイピングし、これらを使ってDALL·E 2のアルゴリズムを教育した。暴力シーンなど有害なコンテンツは削除されているが、ここには商標や著作権で保護されているイメージが含まれている。

出典: OpenAI

(上の写真、DALL·E 2は、レオナルド・ダ・ヴィンチ(Leonardo da Vinci)が描いた「モナ・リザ(Mona Lisa)」(左側)とヨハネス・フェルメール（Johannes Vermeer）が制作した「真珠の耳飾りの少女(Girl with a Pearl Earring)」のオリジナル作品をズームアウトしたイメージを生成した。モナ・リザは湖を背景に立ち、少女は掃除中であることが分かる。)

OpenAIの著作権に関する見解

OpenAIは、商標や著作権で保護されているデータでDALL·E 2を教育したが、DALL·E 2が生成するイメージは著作権を侵害していない、とのポジションを取る。AIを著作物で教育することは「フェアユース(Fair Use)」であり、法律上許容される利用法であるとの見解を示している。フェアユースとは、著作物の一部を引用するケースで、DALL·E 2の教育はこれに当たるとしている。一方、DALL·E 2が著作物の複製を生成するなど、著作権を侵害するケースが発生した場合は、著作者と話し合うとのポジションを取っている。

出典: OpenAI

(上の写真、DALL·E 2が制作した映画キャラクター「ミニオンズ(Minions)」(左側)と「きかんしゃトーマス(Thomas & Friends)」のレントゲン写真(右側)。)

業界の解釈

米国では、商標や著作権で保護されているデータでニューラルネットワークを教育することは違法ではない、との解釈が一般的である。企業や大学は、インターネット上のテキストやイメージをダウンロードし、これでアルゴリズムを教育するが、開発されたAIが著作権を侵害しているとの判例や事例は無い。このため、商標や著作権で保護されているデータを使ったアルゴリズム教育が容認されている。

AI教育に関する議論

しかし、高度なAIが開発されるにつれ、この慣習の妥当性が議論されている。MicrosoftはプログラミングできるAI「Copilot」を開発した。Copilotは言語モデル「GPT-3」で構成され、GitHubに公開されているコードで教育された。エンジニアに代わりAIがプログラミングするため、生産性が上がり注目を集めている。しかし、Copilotは教育されたコードを出力し、著作権に関する議論が始まった。

出典: OpenAI

(上の写真、DALL·E 2は「古代エジプトの王妃がテキストメッセージを送信」しているシーンや、英国の人気キャラクター「くまのパディントン(Paddington Bear)が雨のプラットフォームに立っている」状況を描き出す。)

AI教育に関する裁判

米国では、AI教育データの利用はフェアユースに該当するとの解釈が一般的であるが、明確な判例があるわけでは無い。いまこの状況が変わろうとしている。リトアニアのソフトウェア企業Planner 5Dは、Metaなどを、著作権侵害で被害を受けたとして提訴した。MetaはPlanner 5Dが開発した３Dモデルを使ってAIを教育し、空間を移動しオブジェクトを認識できるアルゴリズムを開発した。この裁判は2023年3月から開始される予定で、AI教育データに関するフェアユースの解釈に、法的な判定が下されることになる。

著作者の保護

この議論の背景には、DALL·E 2は著作物で教育され、生成されたイメージがビジネスで使われ、クリエーターの職が脅かされることにある。著作物を無料で利用し、教育されたAIを有償で提供することに対する不合理性がある。AIアートだけでなく、AI言語モデルなどが含まれ、今まで曖昧になっていた慣習に光が当たることになる。

AIアートは予想外に好評！！OpenAIはテキストをイメージに変換するAI「DALL·E 2」の販売を開始、アルゴリズムが新時代の芸術を創作

「DALL·E 2」はOpenAIが開発したAIで、言葉の指示に従ってイメージを生成する。生成されるイメージは高品質で、人間が制作したものと区別はつかない。OpenAIはDALL·E 2を販売することを決定し、企業や個人はこれをサブスクリプションベースで使うことができる。雑誌の表紙のデザイン、商品カタログの生成、子供向けの絵本の制作など、利用分野は幅広く、新たなAIビジネスが生まれると期待されている。

出典: OpenAI

DALL·E 2とは

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「駅で猫と一緒に電車を待つ少女」(左側)や「ゴールデンゲートブリッジを走る列車」(右側)など、DALL·E 2は架空の世界を高精度で描き出す(下の写真)。DALL·Eは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: OpenAI / maderix / Danielle Baskin

DALL·E 2を販売

OpenAIはDALL·E 2をサブスクリプションベースで販売することを決定した。米国のメディアが報道した。初回は100万人が対象となり、クラウドからDALL·E 2にアクセスする。料金は15ドルで、115のクレジットを購入する。１クレジットで1回アクセスでき、テキストを送信すると、それに従ってイメージが４枚生成される。15ドルで460枚のイメージを生成できる。

AIアートの爆発

DALL·E 2は非公開であるが、OpenAIは世界のクリエーターと共同で、イメージ生成機能について検証を進めてきた。DALL·E 2は世界118か国で3,000人のアーティストが使っており、作品を生み出す過程に、このAIを組み込んでいる。アーティストは様々な形でDALL·E 2を使っており、AIアートが爆発的に成長する兆しを示している。

雑誌のカバー

女性向けのファッション雑誌「Cosmopolitan」はDALL·E 2が生成したイメージを雑誌のカバーとして採用した(下の写真)。これは6月22日に出版されたもので、世界初のAIが生成した雑誌カバーとして話題を集めた。このイメージはデジタルアーティストKaren X ChengがDALL·E 2を使って生成したもので、開発に要した時間は20秒としている。

出典: OpenAI / Karen X Cheng / Cosmopolitan

芸術写真を創作

芸術写真はカメラの代わりにDALL·E 2で制作される。メキシコ在住の写真キュレータMichael Greenは、DALL·E 2で著名写真家のスタイルで作品を創作した(下の写真)。左側はDALL·E 2が写真家Helmut Newtonのスタイルで生成したイメージで、右側は写真家Lee Jeffriesのスタイルで生成したイメージ。Newtonはファッション雑誌向けの写真家で挑発的なイメージが特徴。Jeffriesは世界のホームレスの写真を撮り続けている。リアルな写真に見えるがこれらはDALL·E 2が生成したイメージである。

出典: OpenAI / Michael Green

芸術家の作品

Leopold Museumはウィーンの美術館で、オーストリアの画家Egon Schieleの作品を数多く収集している。Schieleは前衛画家で活躍が期待されていたが、1918年に28歳で亡くなった。いま、DALL·E 2を使ってSchieleの画風で絵画を生成するプロジェクトが進んでいる。DALL·E 2に「Egon Schieleのスタイルで作画」するよう指示すると、そのイメージを生成する(下の写真)。もしSchieleが生きていたら、どんな作品が生み出されたかを探求するもので、美術館はこれらのイメージを本人の作品と合わせて展示する。

出典: OpenAI / Stefan Kutzenberger

ビジネスが生まれる

これらトライアルの結果を見ると、DALL·E 2のインパクトは予想外に大きく、AIアートの位置づけが大きく変わろうとしている。DALL·E 2がクリエーターに代わり、雑誌の表紙をデザインする。子供向けの絵本のイラストをDALL·E 2が制作することも計画されている。また、企業は、商品のコンセプトやプロトタイプのイメージをDALL·E 2で生成する。商品カタログのデザインもDALL·E 2が担当する。AIアートへの需要は大きく新たなビジネスが生まれようとしている。

問題点を抱えながら

期待されるDALL·E 2であるが、倫理的な問題点を数多く抱えているのも事実である。DALL·E 2は、女性やマイノリティに関してバイアスがあり、出力するイメージは公平でないことが分かっている。また、現実と見分けのつかないリアルなイメージを生成するので、実在の人物を描くことは禁止されている。また、DALL·E 2はクリエーターを置き換え、人間の職を奪うことになり、失業対策が喫緊の課題となる。多くの問題を抱えながら、DALL·E 2の販売が始まる。

Emerging Technology Review

シリコンバレーからの最新技術レポート

作成者別アーカイブ: nad00251

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Nvidiaはリアルなデジタルヒューマンを生成するクラウドを公開、メタバースでアバターが人間に代わりアシスタントとして活躍する

メタバースでデートする、仮想空間で恋人を探し現実社会で交際を始める

AIアートが生成するイメージは創作か盗作か、著作物でアルゴリズムを教育することは合法か、テキストをイメージに変換する「DALL·E 2」が知的財産権の議論を引き起こす

AIアートは予想外に好評！！OpenAIはテキストをイメージに変換するAI「DALL·E 2」の販売を開始、アルゴリズムが新時代の芸術を創作