月別アーカイブ: 2022年4月

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する

Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。Googleが開発した巨大モデルは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能でブレークスルーを達成した。

出典: Sharan Narang et al.

PaLMとは

Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。

言葉を理解する能力

AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。

出典: Sharan Narang et al. 

因果関係

言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。

出典: Sharan Narang et al. 

下の写真;絵文字を使ったゲーム。絵文字で示された内容を理解し、それが示す映画を当てるゲーム。絵文字は「ロボット」、「昆虫」、「若葉」、「地球」で、これらと関係する映画を当てる問題。PaLMは、絵文字というイメージを理解し、それをもとに映画「Wall-E」と回答。正しく推論できる能力を示した。

出典: Sharan Narang et al. 

推論機能

PaLMは言語能力の中で「推論(Reasoning)」機能でブレークスルーを達成した。推論とは、いくつかの命題から、結論を引き出す思考方法で、人間の理性を代表する能力である。PaLMは、数学計算における推論 (multi-step arithmetic reasoning)と、常識に基づく推論 (common-sense reasoning)で高い性能を発揮した。

数学計算における推論機能

数学計算における推論機能とは、計算問題を解くための推論機能を指す。下の写真右側下段;算数の問題。「カフェテリアに23個のリンゴがあり、ここから20個を使い、新たに6個を購入した。リンゴはいくつあるか?」という問題で、人間は簡単に解くことができるが、AI言語モデルにとっては難解。PaLMは「11」と正しく回答した。PaLMは、9歳から12歳の子供が算数の問題を解く能力の60%に到達した。

ステップに分けて推論

数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。

出典: Sharan Narang et al. 

常識に基づく推論機能:ジョークを説明

常識に基づく推論機能とは、文章の意味を、社会常識を使い、言葉を理解し、推測する機能を指す。例えば、ジョークについて、なぜ面白いのか、PaLMはそのオチを説明することができる。下の写真;PaLMがジョークを理解しそのオチを説明。ジョーク「GoogleはTPUチームにクジラを採用した。クジラが異なるPodの間でコミュニケーションする」。PaLMがジョークの意味を解説「PodとはTPUプロセッサの集合体で、また、Podはクジラの集団という意味がある。採用したクジラは、他のTPUチームとコミュニケーションできることを意味している。」

出典: Sharan Narang et al. 

常識に基づく推論機能:論理的推論

PaLMは提示された文章の内容を論理的に推論することができる。一見、不条理で意味不明な文章を示されると、PaLMはそれを論理的に推測し、その真意を把握する。下の写真;提示された文章を考察し、PaLMがその意味を推論する問題。意味不明な文章「長い間、頭を持っている山があり、それを見学するためにドライブした。その東隣の州都はどこか?」。PaLMの推論:「頭を持っている山は、ラシュモア山(Mount Rushmore)で、サウスダコタ州にある。その東隣はミネソタ州で州都はミネアポリス。」(ラシュモア山には大統領の胸像が彫られている。)

出典: Sharan Narang et al. 

プログラミング機能

PaLMはプログラミングする技術を習得した。具体的には、人間が言葉で指示した内容をPaLMがプログラムに変換する(下の写真)。また、PaLMがプログラムを他の言語に変換する。更に、PaLMはプログラムのバグを修正することができる。下の写真;人間が言葉でタスクを指示すると(左側)、PaLMはその内容をプログラミングする(右側)。ここでは異なる音符の長さを合計するコードを生成。

出典: Sharan Narang et al. 

アルゴリズムのバイアス

PaLMが判定した結果は、公正ではなく、バイアスしているため、この危険性を事前に評価した。また、アルゴリズムが、性別や人種に関し、危険な表現を出力する可能性を指摘した。例えば、PaLMは、イスラム教(Islam)という言葉に暴力を結び付ける傾向が強い。これは教育に使われたデータが公正ではないために起こる現象で、Googleはこれらを事前に測定し、制限事項としてドキュメントに纏めた。このドキュメントは「Model Card」と呼ばれ、PaLMの使用説明書となり、ここに機能概要や制限事項が記載されている(下の写真、Model Cardの一部)。AIは医薬品と同じように、使い方を誤ると生活に支障をきたすので、その使用手引きが重要な役割を担う。

出典: Sharan Narang et al. 

プロセッサ構成

PaLMの開発は、Googleが開発したAIプロセッサ「TPU V4」で実行された。AIプロセッサはラックに搭載され、「Cloud TPU v4 Pods」というAI専用サーバを構成する(下の写真)。PaLMの開発では、2台のCloud TPU v4 Podsが使われ、合計で6144台のTPU V4でアルゴリズムの教育が実行された。このシステムはGoogleが構築した最大構成のTPU Podで、ここでPaLMの教育が並列に実行された。

出典: Google

Pathwaysとは

PaLMは「Pathways Language Model」の略で、AIモデル「Transformer」を「Pathways」という方式で教育した言語モデルを意味する。Pathwaysとは、大規模なアルゴリズムの教育を並列に実行する方式で、多重で処理することで処理効率を上げることができる(下の写真)。教育では二つのPod(Pod 1とPod 2)を使い、教育データを二分割 (AとB)し、それぞれのPodで実行する。Aのデータで教育が終了すると、その結果(Gradient)をBに送り、残りの半分のデータを教育する。これにより、Podを効率的に使うことができ、稼働率57.8%を達成した。

出典: Sharan Narang et al. 

AI言語モデルの開発競争

AI言語モデルの開発競争がし烈を極め、ニューラルネットワークのサイズが急速に拡大している。OpenAIは「GPT-3」(パラメータの数は1750億)を開発し、AIモデルが巨大化する口火を切った。これに対し、MicrosoftとNvidia連合は「Turing NLG」(パラメータの数は5300億)というモデルを開発し、NvidiaのGPUスパコンでアルゴリズム教育を実行した。GoogleのPaLMはこれを100億上回り、世界最大規模のAIモデルとなった。

大規模AIモデルを開発する理由

各社が競って大規模AIモデルを開発する理由は、ニューラルネットワークはサイズが大きくなるにつれ、機能が格段に向上するためである。基礎機能が強化されることに加え、アルゴリズムが新たな能力を習得することが分かっている。PaLMでもこの事象が観測され、ニューラルネットワークのサイズを更に大きくすることで、推論機能など知能の一部を獲得した。これから更にAIの規模を拡大すると、人間レベルの知能を得ることができると期待されている。

AIが制作したデジタルアートの著作権は誰に帰属する?AIを著作権者として登録できる?

米国著作権局(United States Copyright Office)は、AIが制作したデジタルアートを、著作物として登録することはできない、との判定を下した。AIが生成したデジタルアートは、著作権法による保護の対象にはならない、ということを意味する。判定の理由は、著作権の対象は人間が生成したコンテンツで、AIは人間ではないので、著作権法で保護されないとしている。AIが高度に進化し、人間の技量に相当するデジタルアートを創作するが、これらは著作権の保護の対象とはならない。この判決でAIアートを販売するビジネスが影響を受けることになり、米国社会に波紋が広がっている。

出典: Imagination Engines, Inc.

AIアートの著作権登録を申請

発明家であるStephen Thalerは、AIで創作したデジタルアートの著作権の登録を申請した。このAIは「Creativity Machine」という名前で、アルゴリズムが人間の介在無しに、デジタルアートを生成する。ThalerはAIに代わり、アルゴリズムが生成したアート (上の写真)の登録申請を行った。この作品は「A Recent Entrance to Paradise」という題名で、人工頭脳であるニューラルネットワークが、死に直面した状態を描いたものである。

米国著作権局の判決

この申請に対し、米国著作権局の委員会は、2022年2月、AIが生成したアートは人間が創作に関与しておらず、著作権の登録はできないとの判定を下した(下の写真)。著作権で保護できる著作物は、人間が制作したものに限られる、との解釈を示した。人間以外のものが創作した著作物は、著作権の保護の対象とはならないことになる。

出典: United States Copyright Office

米国の著作権

米国でも日本と同様に、著作物を創作すると著作権は自動的に発生するため、改めて登録の必要はない。一方、米国では、著作権の侵害を未然に防ぐため、著作権が存在する事実を証明するために、米国著作権局に著作権登録をするケースが少なくない。Thalerのケースは、著作物が違法に複製されるのを防ぐため、また、AIという先端技術が著作権法でどう解釈されるのかを明らかにすることを目的としている。

サルの自撮り写真

これに先立ち、サルが自撮りした写真は、著作権で保護される対象となるかが争われた。このサルは「Naruto」という名前で、写真家David Slaterのカメラを使い、自分の顔を撮影した(下の写真)。この写真がソーシャルメディアに掲載され大人気となった。Slaterは、写真集を出版し、ここに自撮りしたサルの写真を掲載した。これに対し、動物保護団体「動物の倫理的扱いを求める人々の会(People for the Ethical Treatment of Animals (PETA))」は、サルに代わり、Slaterを著作権侵害で提訴した。

出典: Naruto, a Sulawesi crested macaque

裁判所の判決

これに対し、アメリカ合衆国第9巡回区控訴裁判所(United States Court of Appeals for the Ninth Circuit)は、サルの自撮り写真の著作権侵害の訴訟を棄却した。裁判所は、著作権で保護される対象は人間で、サルは保護の対象とはならないとの判決を下した。米国の裁判所は、著作権侵害で訴えることができるのは人間だけで、AIや動物は保護の対象とはならないとの解釈を示した。

ビジネスへの影響

これにより、AIが創作したデジタルアートを販売しても、作品は著作権で保護されないことになる。販売されたAIデジタルアートの複製を作っても訴訟されることはない。現行の著作権法の元では、AIアートの事業は成立しないことになる。一方、デジタルアート制作の過程で人間の関与があれば、創作物は著作権で保護される対象となる。このため、人間のクリエーターが、AIというツールを使って、デジタルアートを生成すると、この作品を著作権物として登録することができる。AIアートの事業では、表向きはAIと人間の合作という看板が必要となる。

NFTとして販売

今では、AIが生成したデジタルアートはNFT(Non-Fungible Tokens)として販売されている。NFTとはブロックチェーンで構成されるトークンで、アートの所有者を証明する証文となる。NFTのマーケットプレイス「OpenSea」で様々なAIアートが売買されている。「GanStarryNight」というクリエーターは、高度なAIである「Generative Adversarial Network (GAN)」で作品を生成し販売している。GANはリアルなイメージを生成するAIで、このケースでは、ゴッホ(Vincent van Gogh)の「星月夜(The Starry Night)」をモチーフとする作品を生成した。クリエーターはそれをNFTに変換して販売している(下の写真)。一点が0.02 Ether ($60.59)ほどで、GANで生成した作品が数多く掲載されている。これらの作品はGANが自動で生成したものであるが、作品はクリエーターの名前で販売されている。

出典: GanStarryNight

絵画の次は音楽

今では、多くの音楽はAIで作曲されている。AIミュージックの技術進歩は激しく、アルゴリズムが人間の作曲家を上回る技量を示している。これからは、トップチャートの20%から30%はAIが作曲するとの予測もある。AIミュージックに関する著作権訴訟は発生していないが、音楽でも絵画と同じ問題を内包している。著作権法はアルゴリズムによる創作は想定しておらず、AIミュージックに関しても様々な議論が起こりそうだ。

OpenAIの「DALL·E 2」はテキストを高品質なイメージに変換、AIがイラストレータとなり命令されたことを描き出す

OpenAIは言葉の指示に従ってイメージを生成するAI「DALL·E 2」を開発した。生成されるイメージは高品質で、人間が作成したものと区別はつかない。描きたい内容をテキストで入力すると、DALL·E 2はそれに沿った画像を生成する。「馬に乗った、宇宙飛行士を、写真イメージで」と入力すると、DALL·E 2は架空の世界を描き出す(下の写真)。画家サルバドール・ダリ(Salvador Dali)のように、機知に富んだ芸術性を発揮する。

出典: OpenAI

DALL·E 2とは

OpenAIは2022年4月、テキストをイメージに変換する機能を持つDALL·E 2を公開した。初代のモデルは「DALL·E」と呼ばれ、2021年1月にリリースされた。DALL·E 2は機能が大きく進化し、高品質なイメージを生成できるだけでなく、生成したイメージを編集する機能が加わった。DALL·E 2が描き出すイメージは高品質で、テキストだけでなく、グラフィックスの領域でも、AIが人間を上回る機能を示した。

出典: OpenAI

(上の写真、「朝日の中で、草原にいるキツネを、モネのスタイルで」と指示すると、DALL·Eはそれに沿ったイメージを描き出す。左側が初代のDALL·Eで、右側がDALL·E 2。DALL·E 2は解像度が上がり、品質が向上していることが分かる。)

言葉の指示に従って作画

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「画家ダリの、肖像画を、半分ロボットで」と指示すると、DALL·E 2はその命令に従った画像を生成する(下の写真左端)。また、「柴犬が、ベレー帽と、タートルネックをまとう」と入力すると、そのイメージを生成する(下の写真中央)。因みに、DALL·Eとは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: Aditya Ramesh et al. 

イメージを編集する機能

DALL·E 2は画像を高精度で編集する機能を持っている。画像の中で編集する場所を示し、そこに指定したオブジェクトを挿入する。例えば、画像の中の②の場所に、フラミンゴを挿入、と指示すると(下の写真左側)、それに沿ったイメージを生成する(下の写真右側)。挿入されたフラミンゴは、環境に溶け込み、水面での反射も表示されている。DALL·E 2は、画像に描かれたオブジェクトを把握し、その特性を理解する。

出典: OpenAI

スタイル変換

DALL·E 2は、オリジナルのスタイルを踏襲して、異なるイメージを生成する。例えば、画家グスタフ・クリムト(Gustav Klimt)の作品「接吻(The Kiss)」のイメージをベースに(下の写真左側)、DALL·E 2は異なる作品を生成する(下の写真右側)。巨匠のタッチを学習し、その秀作を創り出す。

出典: OpenAI

テキストと画像の関係を学習

DALL·E 2は、テキストと画像の関係を学習し、入力されたテキストに従ってイメージを出力する。例えば、DALL·E 2は「コアラ(Koala Bears)」というテキストに対応するコアラの画像を数多く学習し、両者の関係を学習する。また、DALL·E 2は、「バイク(Motorcycle)」というテキストに対応するバイクの画像を学習する。そして、DALL·E 2は、コアラとバイクという概念を把握し、「バイクを運転するコアラ」のイメージを生成できるようになる(下の写真)。

出典: OpenAI

開発された目的

DALL·E 2は商用モデルではなく、AIの基礎研究のために開発された。DALL·E 2は、クリエーター向けには、簡単に思い通りのイメージを生成するツールとなる。創造性の発揮を支援するAIとして位置付けられる。また、AI研究者は、DALL·E 2のアルゴリズムが何を学んだかを検証できる。例えば、DALL·E 2に「Tree Bark」と指示すると、アルゴリズムは「木の樹皮」(下の写真左側)や「木に向かって吠える犬」(下の写真右側)を出力する。DALL·E 2は「Bark」という言葉を「樹皮」と「吠える」という意味に解釈していることが分かる。このように、DALL·E 2は、AIが人間の世界をどう解釈しているかがイメージで示され、アルゴリズムのブラックボックスを開き、判定理由を説明する機能を提供する。

出典: OpenAI

制限事項

DALL·E 2が生成するイメージは、教育データが正しいことを前提にしている。間違った教育データを使うと、DALL·E 2は間違ったイメージを生成する。例えば、「飛行機」の写真を「犬」の写真と、間違って教育されると、DALL·E 2は教えられた通り、間違ったイメージを生成する。また、教育を受けていない事項を問われると、間違った回答をする。例えば、サルの一種である「Howler Monkey(ホエザル)」と指示されると、DALL·E 2はこの単語について教育を受けておらず、「吠えているサル」のイメージを出力する(下の写真左側)。Howling Monkeyは南米を中心に生息するサルの一種(下の写真右側)。

出典: OpenAI / Wikipedia

危険性の評価

DALL·E 2はAIが内包している危険性が高く、一般には公開されていない。現在、OpenAIのチームが、どのような危険性があるのか、アルゴリズムを評価している。DALL·E 2は、ヌードイメージ、ヘイトスピーチ、暴力など、危険なコンテンツを生成する可能性がある。特に、著名人に関連する危険なイメージが生成されると、その社会的な影響は甚大で、取り扱いには注意を要す。また、DALL·E 2が悪用されると、自由自在に高品質なフェイクイメージを生成でき、世論操作などに使われるリスクがある。

バイアス

DALL·E 2が出力するイメージは、人種や性別に関し公平ではなく、バイアスしていることも分かっている。これは教育データが特定の種別に偏っているためで、生成されるイメージは白人が中心で、西洋のライフスタイルが描写される。また、性別によるバイアスもあり、「a flight attendant」と指示すると、DALL·E 2は女性のキャビンアテンダントを生成する(下の写真)。ここには男性のキャビンアテンダントは含まれていない。DALL·E 2はアルゴリズムのバイアスを検知するツールとして使われる。

出典: OpenAI

AIがクリエーターを置き換える

研究成果はソーシャルメディアにも公開されており、DALL·E 2が生成したイメージは好意的に受け止められている。DALL·E 2は、現実社会には存在しない仮想空間を幻想的に描き、表現が感動的とのコメントが目立つ。同時に、DALL·E 2は人間レベルのスキルに達し、これからクリエーターがアルゴリズムで置き換わることになる。AIがアニメを制作する時代になり、また一つ人間の雇用が脅かされる。(下の写真左側「ウサギの探偵が、ベンチに腰掛け新聞を読む、ビクトリア風に」に描いたもの。下の写真右側「16世紀の日常生活を、8K HDで、詳細に」描いたもの。)

出典: Loreto Parisi / Merzmensch Kosmopol

Waymoは自動運転車のカメラで撮影したイメージをAIで繋ぎ合わせサンフランシスコのデジタルツインを生成

Waymoはサンフランシスコ市街地の3DモデルをAIで生成した。Waymoはサンフランシスコで自動運転車の試験走行を展開しており、クルマのカメラで撮影した写真をAIで繋ぎ合わせ、市街地の3Dマップを生成した。Google Street Viewを立体化した形状で、サンフランシスコのデジタルツインとなる。この中を自由自在に移動でき、自動運転車やロボットの開発において、アルゴリズムのシミュレーションで使われる。

出典: Waymo

写真を繋げ3Dモデルを生成

このAIは「Block-NeRF (Neural Radiance Fields)」と呼ばれ、自動運転車で撮影した写真を繋ぎ合わせ、3Dマップを生成する機能を持つ。上の写真は「グレース大聖堂(Grace Cathedral)」の前を走行しているところで、クルマの車窓から見るように風景が流れていく。ビデオ撮影した景色とは異なり、Block-NeRFで生成したモデルは、カメラのアングルを変えるなど、画像を自由に編集できる。(ビデオへのリンク。)

Dモデルの機能

Waymoはサンフランシスコのアラモ地区(Alamo Square、下の写真左側)で撮影した写真280万枚をBlock-NeRFで繋ぎ合わせて3Dモデル(下の写真右側)を生成した。生成されたモデルは、視点を変えて360度の方向から見ることができる。また、3Dモデルは一塊のデータではなく、撮影されたオブジェクトを自由に編集できる。具体的には、道路や歩道にクルマや歩行者が写っているが、Block-NeRFでこれらを消し去ることができる(下の写真右側、クルマや歩行者写っていない)。また、モデルの環境を設定することもでき、晴れの日の午後などのイメージを生成できる。

出典: Matthew Tancik et al.

NeRFとは

NeRFとは、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する手法を指す。この技法はUC BerkeleyとGoogle Researchのチームが開発した(下の写真、ドラムセットの3Dモデルを生成)。オブジェクトを周囲から撮影し、その写真をNeRFで繋ぎ合わせて3Dモデルを生成する。簡単に立体モデルを生成でき、それを柔軟に操作できるため、この技法が注目されている。

出典: B. Mildenhall, P. P. Srinivasan, M. Tancik et al.

Block-NeRFとは

NeRFは身の回りのもの(ドラムセットなど)や人物など、比較的小さな形状のオブジェクトが対象となる。これに対し、Block-NeRFは市街地のように、大規模な3Dモデルを構築できることが特徴となる。Block-NeRFは複数のNeRFを組み合わせて最終モデルを生成する。実際には、市街地を区画し、それぞれの区画でNeRFで3Dモデルを生成する。各区画で生成した3Dモデルを結合し、市街地全体の3Dモデルを生成する手順となる(下の写真左側、オレンジ色のドットが各区画で使われたNeRFを示す)。NeRFは形状(Visibility)と色彩(Color)で構成され、これを機見合わせ3Dマップを生成する。街中の景観が変わると、その部分のNeRFだけを再教育し、3Dマップを更新する(下の写真右側、上段の景観が下段に変わったケース)。市街地全体のアルゴリズムを再教育する必要はなく、効率的にモデルをアップデートできる。

出典: Matthew Tancik et al.

Block-NeRFの利用方法

生成された3Dモデルは自動運転車やロボットの開発で使われる。自動運転車はLidarやカメラで撮影したイメージから、現在地をピンポイントで特定する。これはLocalizationと呼ばれる処理で、このプロセスをBlock-NeRFで生成した3Dマップで実行する。また、自動運転車の運行を検証するため、シミュレーション環境を制作するために使われる。サンフランシスコのデジタルツインを生成し、ここで自動運転車を走行させ安全性を検証する。

メタバースへの応用

Block-NeRFで生成したモデルは、道路の走行だけでなく、上空を飛行することもできる。例えば、世界一曲がりくねった坂道「ロンバード・ストリート(Lombard Street)」の上を飛行することもできる。(ビデオへのリンク。) Waymoはコメントしていないが、都市のデジタルツインを生成し、これをメタバースの仮想社会として利用することもできる。

出典: Waymo

Waymoの走行試験

Waymoはサンフランシスコで試験走行を進めている(下の写真)。住民が被験者となり、Waymoに搭乗し、安全性の検証が行われている。先月からは、Waymoはセーフティドライバーが搭乗しない無人車両で試験走行を開始した。このケースではWaymo社員が被験者となり、無人車両に搭乗し、安全性の確認が続いている。Waymoはサンフランシスコで6か月間、試験走行を実行してきたが、無人車両での試験走行が商用化に向けた最後のステップとなる。

出典: Waymo

Nvidiaは2D写真をAIで繋げ3Dモデルを高速で生成する技法を開発、メタバースやアバターの生成に適用

Nvidiaは開発者会議「GTC 2022」をオンラインで開催した。分科会でAI研究の最新成果として、3Dモデルを高速で生成する技法を発表した。これは「Instant NeRF」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3D世界を構築する技法である。オブジェクトや人の3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Nvidia

3Dモデルを生成する技術

撮影した写真を張り合わせ、被写体の3Dモデルを生成する技術は数多く存在し、ビジネスなどで利用されている。一般に、3Dモデルを生成するためには、奥行きを計測できるカメラ「Depth Camera」を使い、被写体を撮影し、それを立体的に張り合わせ、3Dモデルを生成する。また、自動運転車はLidarを使って道路や市街地の3Dモデルを作成し、この3Dマップに従って安全に走行する。

NeRFという技法

これに対し、Neural Radiance Fields(NeRF)は、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する。2D写真をAIで3Dに再構築するため、簡単に立体モデルを生成でき、それを柔軟に操作できる。具体的には、カメラで被写体を異なる位置から撮影し(下の写真)、撮影された写真をニューラルネットワークに入力し、被写体を3Dで描写する(先頭の写真)。3Dモデルが完成すると、被写体の周囲を自由に移動でき、異なるアングルから見ることができる。Nvidiaは高速でNeRFを生成する技術「Instant NeRF」を開発し、そのビデオを公開している。(ビデオへのリンク)。

出典: Nvidia

NeRFのコンセプト

NeRFを使うとオブジェクトを簡単に3D化することができる。例えば、レゴで組み立てたブルドーザーを異なるアングルから撮影し、それをNeRFで処理すると、その3Dモデルが生成される(下の写真)。スマホカメラで写真を撮ると2DイメージがJPEGに圧縮されるように、複数の写真をNeRFで圧縮すると、3Dモデルが生成される。NeRFは「3Dカメラ」の基礎技術と位置付けられる。

出典: Nvidia

NeRFの利用方法

NeRFの利用法は様々であるが、メタバースの基礎技術として注目されている。Nvidiaはオブジェクトや人のデジタルツインを生成し、メタバースでそれをシミュレーションする手法を取る。その際に、オブジェクトの3DモデルをNeRFで生成する。また人のデジタルツインとなるアバターをNeRFで生成する。(下の写真、Instant NeRFで生成された制御室、3Dモデルの解像度は高く、また、ケーブルの陰になっている部分も正確に描写されている。)

出典: Nvidia

NeRFの仕組み

NeRFは異なるアングルから撮影した写真を入力とし、それらを色と形状に変換するニューラルネットワークとなる(下のグラフィックス)。実際には、写真を撮影した位置(Position、(x, y, z))と視線(View Angle、(θ, Φ))を入力し、ニューラルネットワークは色(RGB)と密度(Density、σ)を出力する。ニューラルネットワークを複数の写真で教育し、完成したNeRFに見る方向を入力すると、そのイメージを出力する。つまり、オブジェクトを周囲から見渡せるようになる。

出典: Nvidia

Instant NeRF

NvidiaはNeRFの高速版である「Instant NeRF」を開発した。入力するデータを前処理することで、従来のNeRFに比べ1,000倍高速で処理できる。例えば、オブジェクトを撮影した写真40枚程度でニューラルネットワークを教育すると、その処理時間は数秒程度となる。また、完成したInstant NeRFで3Dイメージを生成するにはミリセカンドで実行できる。ほぼリアルタイムで3Dモデルを生成できるようになり、応用分野が大きく広がると期待される。(下の写真、レゴのブルドーザーの写真でInstant NeRFを教育し3Dモデルを生成。)

出典: Nvidia

Dモデルの普及

Nvidiaによると、75年前にポラロイドカメラ(Polaroid Camera)が開発され、3Dモデルを瞬時に2Dの写真に変換することに成功した。Instant NeRFは逆のプロセスで、2Dの写真から瞬時に3Dモデルを生成する。ポラロイドカメラが写真が普及する礎を築いたように、NeRFにより3Dモデルが普及すると期待されている。