OpenAIの「DALL·E 2」はテキストを高品質なイメージに変換、AIがイラストレータとなり命令されたことを描き出す

OpenAIは言葉の指示に従ってイメージを生成するAI「DALL·E 2」を開発した。生成されるイメージは高品質で、人間が作成したものと区別はつかない。描きたい内容をテキストで入力すると、DALL·E 2はそれに沿った画像を生成する。「馬に乗った、宇宙飛行士を、写真イメージで」と入力すると、DALL·E 2は架空の世界を描き出す(下の写真)。画家サルバドール・ダリ(Salvador Dali)のように、機知に富んだ芸術性を発揮する。

出典: OpenAI

DALL·E 2とは

OpenAIは2022年4月、テキストをイメージに変換する機能を持つDALL·E 2を公開した。初代のモデルは「DALL·E」と呼ばれ、2021年1月にリリースされた。DALL·E 2は機能が大きく進化し、高品質なイメージを生成できるだけでなく、生成したイメージを編集する機能が加わった。DALL·E 2が描き出すイメージは高品質で、テキストだけでなく、グラフィックスの領域でも、AIが人間を上回る機能を示した。

出典: OpenAI

(上の写真、「朝日の中で、草原にいるキツネを、モネのスタイルで」と指示すると、DALL·Eはそれに沿ったイメージを描き出す。左側が初代のDALL·Eで、右側がDALL·E 2。DALL·E 2は解像度が上がり、品質が向上していることが分かる。)

言葉の指示に従って作画

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「画家ダリの、肖像画を、半分ロボットで」と指示すると、DALL·E 2はその命令に従った画像を生成する(下の写真左端)。また、「柴犬が、ベレー帽と、タートルネックをまとう」と入力すると、そのイメージを生成する(下の写真中央)。因みに、DALL·Eとは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: Aditya Ramesh et al. 

イメージを編集する機能

DALL·E 2は画像を高精度で編集する機能を持っている。画像の中で編集する場所を示し、そこに指定したオブジェクトを挿入する。例えば、画像の中の②の場所に、フラミンゴを挿入、と指示すると(下の写真左側)、それに沿ったイメージを生成する(下の写真右側)。挿入されたフラミンゴは、環境に溶け込み、水面での反射も表示されている。DALL·E 2は、画像に描かれたオブジェクトを把握し、その特性を理解する。

出典: OpenAI

スタイル変換

DALL·E 2は、オリジナルのスタイルを踏襲して、異なるイメージを生成する。例えば、画家グスタフ・クリムト(Gustav Klimt)の作品「接吻(The Kiss)」のイメージをベースに(下の写真左側)、DALL·E 2は異なる作品を生成する(下の写真右側)。巨匠のタッチを学習し、その秀作を創り出す。

出典: OpenAI

テキストと画像の関係を学習

DALL·E 2は、テキストと画像の関係を学習し、入力されたテキストに従ってイメージを出力する。例えば、DALL·E 2は「コアラ(Koala Bears)」というテキストに対応するコアラの画像を数多く学習し、両者の関係を学習する。また、DALL·E 2は、「バイク(Motorcycle)」というテキストに対応するバイクの画像を学習する。そして、DALL·E 2は、コアラとバイクという概念を把握し、「バイクを運転するコアラ」のイメージを生成できるようになる(下の写真)。

出典: OpenAI

開発された目的

DALL·E 2は商用モデルではなく、AIの基礎研究のために開発された。DALL·E 2は、クリエーター向けには、簡単に思い通りのイメージを生成するツールとなる。創造性の発揮を支援するAIとして位置付けられる。また、AI研究者は、DALL·E 2のアルゴリズムが何を学んだかを検証できる。例えば、DALL·E 2に「Tree Bark」と指示すると、アルゴリズムは「木の樹皮」(下の写真左側)や「木に向かって吠える犬」(下の写真右側)を出力する。DALL·E 2は「Bark」という言葉を「樹皮」と「吠える」という意味に解釈していることが分かる。このように、DALL·E 2は、AIが人間の世界をどう解釈しているかがイメージで示され、アルゴリズムのブラックボックスを開き、判定理由を説明する機能を提供する。

出典: OpenAI

制限事項

DALL·E 2が生成するイメージは、教育データが正しいことを前提にしている。間違った教育データを使うと、DALL·E 2は間違ったイメージを生成する。例えば、「飛行機」の写真を「犬」の写真と、間違って教育されると、DALL·E 2は教えられた通り、間違ったイメージを生成する。また、教育を受けていない事項を問われると、間違った回答をする。例えば、サルの一種である「Howler Monkey(ホエザル)」と指示されると、DALL·E 2はこの単語について教育を受けておらず、「吠えているサル」のイメージを出力する(下の写真左側)。Howling Monkeyは南米を中心に生息するサルの一種(下の写真右側)。

出典: OpenAI / Wikipedia

危険性の評価

DALL·E 2はAIが内包している危険性が高く、一般には公開されていない。現在、OpenAIのチームが、どのような危険性があるのか、アルゴリズムを評価している。DALL·E 2は、ヌードイメージ、ヘイトスピーチ、暴力など、危険なコンテンツを生成する可能性がある。特に、著名人に関連する危険なイメージが生成されると、その社会的な影響は甚大で、取り扱いには注意を要す。また、DALL·E 2が悪用されると、自由自在に高品質なフェイクイメージを生成でき、世論操作などに使われるリスクがある。

バイアス

DALL·E 2が出力するイメージは、人種や性別に関し公平ではなく、バイアスしていることも分かっている。これは教育データが特定の種別に偏っているためで、生成されるイメージは白人が中心で、西洋のライフスタイルが描写される。また、性別によるバイアスもあり、「a flight attendant」と指示すると、DALL·E 2は女性のキャビンアテンダントを生成する(下の写真)。ここには男性のキャビンアテンダントは含まれていない。DALL·E 2はアルゴリズムのバイアスを検知するツールとして使われる。

出典: OpenAI

AIがクリエーターを置き換える

研究成果はソーシャルメディアにも公開されており、DALL·E 2が生成したイメージは好意的に受け止められている。DALL·E 2は、現実社会には存在しない仮想空間を幻想的に描き、表現が感動的とのコメントが目立つ。同時に、DALL·E 2は人間レベルのスキルに達し、これからクリエーターがアルゴリズムで置き換わることになる。AIがアニメを制作する時代になり、また一つ人間の雇用が脅かされる。(下の写真左側「ウサギの探偵が、ベンチに腰掛け新聞を読む、ビクトリア風に」に描いたもの。下の写真右側「16世紀の日常生活を、8K HDで、詳細に」描いたもの。)

出典: Loreto Parisi / Merzmensch Kosmopol

Waymoは自動運転車のカメラで撮影したイメージをAIで繋ぎ合わせサンフランシスコのデジタルツインを生成

Waymoはサンフランシスコ市街地の3DモデルをAIで生成した。Waymoはサンフランシスコで自動運転車の試験走行を展開しており、クルマのカメラで撮影した写真をAIで繋ぎ合わせ、市街地の3Dマップを生成した。Google Street Viewを立体化した形状で、サンフランシスコのデジタルツインとなる。この中を自由自在に移動でき、自動運転車やロボットの開発において、アルゴリズムのシミュレーションで使われる。

出典: Waymo

写真を繋げ3Dモデルを生成

このAIは「Block-NeRF (Neural Radiance Fields)」と呼ばれ、自動運転車で撮影した写真を繋ぎ合わせ、3Dマップを生成する機能を持つ。上の写真は「グレース大聖堂(Grace Cathedral)」の前を走行しているところで、クルマの車窓から見るように風景が流れていく。ビデオ撮影した景色とは異なり、Block-NeRFで生成したモデルは、カメラのアングルを変えるなど、画像を自由に編集できる。(ビデオへのリンク。)

Dモデルの機能

Waymoはサンフランシスコのアラモ地区(Alamo Square、下の写真左側)で撮影した写真280万枚をBlock-NeRFで繋ぎ合わせて3Dモデル(下の写真右側)を生成した。生成されたモデルは、視点を変えて360度の方向から見ることができる。また、3Dモデルは一塊のデータではなく、撮影されたオブジェクトを自由に編集できる。具体的には、道路や歩道にクルマや歩行者が写っているが、Block-NeRFでこれらを消し去ることができる(下の写真右側、クルマや歩行者写っていない)。また、モデルの環境を設定することもでき、晴れの日の午後などのイメージを生成できる。

出典: Matthew Tancik et al.

NeRFとは

NeRFとは、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する手法を指す。この技法はUC BerkeleyとGoogle Researchのチームが開発した(下の写真、ドラムセットの3Dモデルを生成)。オブジェクトを周囲から撮影し、その写真をNeRFで繋ぎ合わせて3Dモデルを生成する。簡単に立体モデルを生成でき、それを柔軟に操作できるため、この技法が注目されている。

出典: B. Mildenhall, P. P. Srinivasan, M. Tancik et al.

Block-NeRFとは

NeRFは身の回りのもの(ドラムセットなど)や人物など、比較的小さな形状のオブジェクトが対象となる。これに対し、Block-NeRFは市街地のように、大規模な3Dモデルを構築できることが特徴となる。Block-NeRFは複数のNeRFを組み合わせて最終モデルを生成する。実際には、市街地を区画し、それぞれの区画でNeRFで3Dモデルを生成する。各区画で生成した3Dモデルを結合し、市街地全体の3Dモデルを生成する手順となる(下の写真左側、オレンジ色のドットが各区画で使われたNeRFを示す)。NeRFは形状(Visibility)と色彩(Color)で構成され、これを機見合わせ3Dマップを生成する。街中の景観が変わると、その部分のNeRFだけを再教育し、3Dマップを更新する(下の写真右側、上段の景観が下段に変わったケース)。市街地全体のアルゴリズムを再教育する必要はなく、効率的にモデルをアップデートできる。

出典: Matthew Tancik et al.

Block-NeRFの利用方法

生成された3Dモデルは自動運転車やロボットの開発で使われる。自動運転車はLidarやカメラで撮影したイメージから、現在地をピンポイントで特定する。これはLocalizationと呼ばれる処理で、このプロセスをBlock-NeRFで生成した3Dマップで実行する。また、自動運転車の運行を検証するため、シミュレーション環境を制作するために使われる。サンフランシスコのデジタルツインを生成し、ここで自動運転車を走行させ安全性を検証する。

メタバースへの応用

Block-NeRFで生成したモデルは、道路の走行だけでなく、上空を飛行することもできる。例えば、世界一曲がりくねった坂道「ロンバード・ストリート(Lombard Street)」の上を飛行することもできる。(ビデオへのリンク。) Waymoはコメントしていないが、都市のデジタルツインを生成し、これをメタバースの仮想社会として利用することもできる。

出典: Waymo

Waymoの走行試験

Waymoはサンフランシスコで試験走行を進めている(下の写真)。住民が被験者となり、Waymoに搭乗し、安全性の検証が行われている。先月からは、Waymoはセーフティドライバーが搭乗しない無人車両で試験走行を開始した。このケースではWaymo社員が被験者となり、無人車両に搭乗し、安全性の確認が続いている。Waymoはサンフランシスコで6か月間、試験走行を実行してきたが、無人車両での試験走行が商用化に向けた最後のステップとなる。

出典: Waymo

Nvidiaは2D写真をAIで繋げ3Dモデルを高速で生成する技法を開発、メタバースやアバターの生成に適用

Nvidiaは開発者会議「GTC 2022」をオンラインで開催した。分科会でAI研究の最新成果として、3Dモデルを高速で生成する技法を発表した。これは「Instant NeRF」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3D世界を構築する技法である。オブジェクトや人の3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Nvidia

3Dモデルを生成する技術

撮影した写真を張り合わせ、被写体の3Dモデルを生成する技術は数多く存在し、ビジネスなどで利用されている。一般に、3Dモデルを生成するためには、奥行きを計測できるカメラ「Depth Camera」を使い、被写体を撮影し、それを立体的に張り合わせ、3Dモデルを生成する。また、自動運転車はLidarを使って道路や市街地の3Dモデルを作成し、この3Dマップに従って安全に走行する。

NeRFという技法

これに対し、Neural Radiance Fields(NeRF)は、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する。2D写真をAIで3Dに再構築するため、簡単に立体モデルを生成でき、それを柔軟に操作できる。具体的には、カメラで被写体を異なる位置から撮影し(下の写真)、撮影された写真をニューラルネットワークに入力し、被写体を3Dで描写する(先頭の写真)。3Dモデルが完成すると、被写体の周囲を自由に移動でき、異なるアングルから見ることができる。Nvidiaは高速でNeRFを生成する技術「Instant NeRF」を開発し、そのビデオを公開している。(ビデオへのリンク)。

出典: Nvidia

NeRFのコンセプト

NeRFを使うとオブジェクトを簡単に3D化することができる。例えば、レゴで組み立てたブルドーザーを異なるアングルから撮影し、それをNeRFで処理すると、その3Dモデルが生成される(下の写真)。スマホカメラで写真を撮ると2DイメージがJPEGに圧縮されるように、複数の写真をNeRFで圧縮すると、3Dモデルが生成される。NeRFは「3Dカメラ」の基礎技術と位置付けられる。

出典: Nvidia

NeRFの利用方法

NeRFの利用法は様々であるが、メタバースの基礎技術として注目されている。Nvidiaはオブジェクトや人のデジタルツインを生成し、メタバースでそれをシミュレーションする手法を取る。その際に、オブジェクトの3DモデルをNeRFで生成する。また人のデジタルツインとなるアバターをNeRFで生成する。(下の写真、Instant NeRFで生成された制御室、3Dモデルの解像度は高く、また、ケーブルの陰になっている部分も正確に描写されている。)

出典: Nvidia

NeRFの仕組み

NeRFは異なるアングルから撮影した写真を入力とし、それらを色と形状に変換するニューラルネットワークとなる(下のグラフィックス)。実際には、写真を撮影した位置(Position、(x, y, z))と視線(View Angle、(θ, Φ))を入力し、ニューラルネットワークは色(RGB)と密度(Density、σ)を出力する。ニューラルネットワークを複数の写真で教育し、完成したNeRFに見る方向を入力すると、そのイメージを出力する。つまり、オブジェクトを周囲から見渡せるようになる。

出典: Nvidia

Instant NeRF

NvidiaはNeRFの高速版である「Instant NeRF」を開発した。入力するデータを前処理することで、従来のNeRFに比べ1,000倍高速で処理できる。例えば、オブジェクトを撮影した写真40枚程度でニューラルネットワークを教育すると、その処理時間は数秒程度となる。また、完成したInstant NeRFで3Dイメージを生成するにはミリセカンドで実行できる。ほぼリアルタイムで3Dモデルを生成できるようになり、応用分野が大きく広がると期待される。(下の写真、レゴのブルドーザーの写真でInstant NeRFを教育し3Dモデルを生成。)

出典: Nvidia

Dモデルの普及

Nvidiaによると、75年前にポラロイドカメラ(Polaroid Camera)が開発され、3Dモデルを瞬時に2Dの写真に変換することに成功した。Instant NeRFは逆のプロセスで、2Dの写真から瞬時に3Dモデルを生成する。ポラロイドカメラが写真が普及する礎を築いたように、NeRFにより3Dモデルが普及すると期待されている。

Nvidiaは地球のデジタルツインで気候変動研究を進める、現行の数学モデルに代わりAIが台風発生を予測

Nvidiaは、今週、開発者会議「GTC 2022」をオンラインで開催した。基調講演でCEOのJensen HuangがNvidiaのAI研究の最新成果を発表した。Nvidiaは科学技術向けメタバースである地球のデジタルツインを生成し、この3Dモデルで気候変動の研究を進めている(下の写真)。Nvidiaは米国国立研究所と共同で、地球のデジタルツインで台風や集中豪雨の発生を予測するモデルを開発した。数学モデルではなく、AIで気象の変化を予測することで、処理時間を劇的に短くすることに成功した。

出典: Nvidia

現行の天気予報の仕組み

天気予報は、海洋や陸地の状態を数値予報モデル(Numerical Weather Prediction)で表し、これをスパコンでシミュレーションする手法となる。具体的には、数値予報モデルに、現在の気象データを入力し、将来の値を計算することで状態の変化を予測する。様々な数値予測モデルが使われているが、ヨーロッパ中期予報センター(ECMWF)が開発した「Integrated Forecast System」がその代表となる。これは「欧州モデル(European Model)」とも呼ばれる。

米国のモデル

一方、米国においては、アメリカ国立気象局(National Weather Service)が開発した「Global Forecast System」が使われる。これは「米国モデル(American Model)」と呼ばれ、米国内の天気予報で使われている。一般に、欧州モデルのほうが高性能で正確な予測ができるとされる。一方、米国モデルは長期レンジ(最長16日先まで)の予測ができる点に特長がある。両モデルともシステム規模が巨大で、これを実行するには世界でトップクラスのスパコンが必要になる。

AIで天気を予測する

これらに対して、Nvidiaなどが開発した予測モデルはAIを使って気象の状態を予測する。この予測モデルは「Fourier ForeCasting Neural Network(FourCastNet)」と呼ばれ、短期から中期レンジで、台風(Typhoon)や集中豪雨(Atmospheric River)など、異常気象を予測することができる(下のグラフィックス、中段)。FourCastNetは、短時間に高精度で天気を予測することができる。欧州モデルに比べ45,000倍高速で予測することができる。

出典: Jaideep Pathak et al.

AIで予測する仕組み

現行の数値予報モデルは、数学モデルをスパコンで計算し、その解を求める手法であるが、FourCastNetはニューラルネットワークで気象を予測する。ニューラルネットワークが過去の気象データを学習し、将来のイベントを高精度で予測する。FourCastNetの教育では、ヨーロッパ中期予報センターの気象データ「ERA5」が使われ、10TBのデータでニューラルネットワークが教育された。

気象予測の事例

FourCastNetを使うと台風の発生を正確に予想できる。実際に、FourCastNetは「Typhoon Mangkhut(平成30年台風第22号)」の発生を正確に予測した(上のグラフィックス)。この台風は、フィリピンや中国、香港などに甚大な被害をもたらした。FourCastNetが予測する範囲はグローバルで、地球全体をカバーする(中央部)。日本の南の海上でMangkhutが発生した(左側最下段)が、FourCastNetはこれを正確に予測した(左側中段)。

ModulusとOmiverse

FourCastNetは地球のデジタルツインに構築され(下の写真)、気象モデルをインタラクティブに操作できる。デジタルツイン生成では「NVIDIA Omniverse」が使われ、スパコン「Earth-2」で実行された。また、AIモデルは「NVIDIA Modulus」が使われ、AIで物理問題を解析するためのツールが揃っている。具体的には、変微分方程式(partial differential equations)を解くためのニューラルネットワークが使われた。

出典: Nvidia

地球温暖化の研究

地球のデジタルツインを生成し、FourCastNetというAIモデルで気象予測を実行するのは、日々の天気予報を求めるためではなく、地球温暖化問題を解明する研究の一環となる。現行モデルで気象予測を実行すると、スパコンを使っても長時間かかる。これに対し、FourCastNetをEarth-2で実行すると、45,000倍速く予測結果を得ることができる。つまり、数多くのモデルを並列して実行でき(下の写真)、地球温暖化対策の研究を効率的に進めることができる。

出典: Nvidia

ゼレンスキー大統領のフェイクビデオが登場、Metaは即時にこれを検知し記事を削除、AIを使ったデジタル戦が拡大

ウクライナ(Ukraine)政府はロシアがフェイクビデオを使って情報操作する危険性を表明し、国民に冷静な対応を呼びかけていた。実際に、ゼレンスキー(Zelensky)大統領のフェイクビデオがメディアに掲載された(下の写真)。偽の大統領は国民に、武器を捨ててロシアに投降するよう呼びかけた。MetaはこのビデオはDeepfakesであると判定し、プラットフォームから削除した。戦時下においてはAIを使った情報戦が展開されるが、今回はそのプロトタイプが登場し、デジタル兵器の攻防が始まった。

出典: Operational Report @ Telegram

ゼレンスキー大統領の偽ビデオ

3月16日、ゼレンスキー大統領がビデオメッセージで、国民に武器を捨ててロシアに投降するよう呼びかけた。これはウクライナに対する情報戦で、ビデオはアルゴリズムにより生成されたDeepfakesで、本人の演説ではない。Metaはこれをフェイクビデオであると特定し、プラットフォームから記事を削除した(下の写真)。ロシアがウクライナに侵攻した後、Metaは特別チーム「Special Operations Center」を形成し、24時間体制で情報操作をモニターしており、このフェイクビデオを即座に検知することができた。

出典: Meta

ロシアでビデオが拡散

このフェイクビデオはMetaのプラットフォームからは削除されたが、他のソーシャルネットワークで拡散している。メッセージングアプリ「Telegram」にこのフェイクビデオが掲載され、ここには、「ハッカーがウクライナのサイトにこのビデオを掲載した」とのコメントが添えられている (先頭の写真)。また、ロシアのソーシャルネットワーク「VK」にも同じビデオが掲載され、クレムリンを指示するグループで拡散している。

テレビ局のハッキング

これに先立ち、ウクライナのテレビ局「Ukraine 24」がハッキングされ、テレビ画面に偽のテロップが表示された。フェイク・テロップはニュース画面の下部に表示され、ゼレンスキー大統領からのメッセージと偽り、「戦闘を止め武器を捨てる」よう国民に訴えた(下の写真、最下部)。また、「大統領は交渉に失敗し、キエフを去った」とも伝えている。

出典: Ukraine Now @ Telegram

ゼレンスキー大統領の対応

フェイクビデオに対し、ゼレンスキー大統領はショートビデオを公開し、偽情報を打ち消した(下の写真、Instagramから配信)。ショートビデオで、拡散したビデオは偽情報で、つたない手法の攻撃であると非難した。大統領はオフィシャルサイトから、定常的に国民にメッセージをショートビデオで配信しており、今回も、このアカウントから真実の情報を伝えた。

出典: Zelensky @ Instagram

フェイクビデオの完成度

実際に、フェイクビデオを見ると、完成度は低く、これは本物ではないと感じる。頭部が体に比べて大きく、不自然さを感じる。また、喋っている時に、頭部は動くが、体は不動のままで、強い違和感を覚える。Deepfakesを生成する高度なGANが開発されているが、このビデオは技術的には未熟で、完成の域に達していないことが分かる。このフェイクビデオはプロトタイプと解釈することもでき、これから技術改良が進み、判別が困難になると予想される。

Metaの特別チーム

ロシアはフェイクニュースなどを使って情報戦を展開しており、西側諸国が被害を受けている。米国においては、2016年の大統領選挙で、ロシアは大規模な情報操作戦を展開し、これがトランプ大統領の当選に繋がったとされる。Meta(当時はFacebook)は、ネットワークに掲載された偽情報を削除するなどの措置は取らず、米国社会から強い批判を受けた。これを教訓に、2020年の大統領選挙では、特別チームを形成し、偽情報をリアルタイムでモニターし、ロシアのデジタル攻撃を防いだ。ロシアのウクライナ侵攻では、再度、独別チームを形成し、デジタル戦を防衛している。