カテゴリー別アーカイブ: 人工知能

AIが制作したデジタルアートの著作権は誰に帰属する?AIを著作権者として登録できる?

米国著作権局(United States Copyright Office)は、AIが制作したデジタルアートを、著作物として登録することはできない、との判定を下した。AIが生成したデジタルアートは、著作権法による保護の対象にはならない、ということを意味する。判定の理由は、著作権の対象は人間が生成したコンテンツで、AIは人間ではないので、著作権法で保護されないとしている。AIが高度に進化し、人間の技量に相当するデジタルアートを創作するが、これらは著作権の保護の対象とはならない。この判決でAIアートを販売するビジネスが影響を受けることになり、米国社会に波紋が広がっている。

出典: Imagination Engines, Inc.

AIアートの著作権登録を申請

発明家であるStephen Thalerは、AIで創作したデジタルアートの著作権の登録を申請した。このAIは「Creativity Machine」という名前で、アルゴリズムが人間の介在無しに、デジタルアートを生成する。ThalerはAIに代わり、アルゴリズムが生成したアート (上の写真)の登録申請を行った。この作品は「A Recent Entrance to Paradise」という題名で、人工頭脳であるニューラルネットワークが、死に直面した状態を描いたものである。

米国著作権局の判決

この申請に対し、米国著作権局の委員会は、2022年2月、AIが生成したアートは人間が創作に関与しておらず、著作権の登録はできないとの判定を下した(下の写真)。著作権で保護できる著作物は、人間が制作したものに限られる、との解釈を示した。人間以外のものが創作した著作物は、著作権の保護の対象とはならないことになる。

出典: United States Copyright Office

米国の著作権

米国でも日本と同様に、著作物を創作すると著作権は自動的に発生するため、改めて登録の必要はない。一方、米国では、著作権の侵害を未然に防ぐため、著作権が存在する事実を証明するために、米国著作権局に著作権登録をするケースが少なくない。Thalerのケースは、著作物が違法に複製されるのを防ぐため、また、AIという先端技術が著作権法でどう解釈されるのかを明らかにすることを目的としている。

サルの自撮り写真

これに先立ち、サルが自撮りした写真は、著作権で保護される対象となるかが争われた。このサルは「Naruto」という名前で、写真家David Slaterのカメラを使い、自分の顔を撮影した(下の写真)。この写真がソーシャルメディアに掲載され大人気となった。Slaterは、写真集を出版し、ここに自撮りしたサルの写真を掲載した。これに対し、動物保護団体「動物の倫理的扱いを求める人々の会(People for the Ethical Treatment of Animals (PETA))」は、サルに代わり、Slaterを著作権侵害で提訴した。

出典: Naruto, a Sulawesi crested macaque

裁判所の判決

これに対し、アメリカ合衆国第9巡回区控訴裁判所(United States Court of Appeals for the Ninth Circuit)は、サルの自撮り写真の著作権侵害の訴訟を棄却した。裁判所は、著作権で保護される対象は人間で、サルは保護の対象とはならないとの判決を下した。米国の裁判所は、著作権侵害で訴えることができるのは人間だけで、AIや動物は保護の対象とはならないとの解釈を示した。

ビジネスへの影響

これにより、AIが創作したデジタルアートを販売しても、作品は著作権で保護されないことになる。販売されたAIデジタルアートの複製を作っても訴訟されることはない。現行の著作権法の元では、AIアートの事業は成立しないことになる。一方、デジタルアート制作の過程で人間の関与があれば、創作物は著作権で保護される対象となる。このため、人間のクリエーターが、AIというツールを使って、デジタルアートを生成すると、この作品を著作権物として登録することができる。AIアートの事業では、表向きはAIと人間の合作という看板が必要となる。

NFTとして販売

今では、AIが生成したデジタルアートはNFT(Non-Fungible Tokens)として販売されている。NFTとはブロックチェーンで構成されるトークンで、アートの所有者を証明する証文となる。NFTのマーケットプレイス「OpenSea」で様々なAIアートが売買されている。「GanStarryNight」というクリエーターは、高度なAIである「Generative Adversarial Network (GAN)」で作品を生成し販売している。GANはリアルなイメージを生成するAIで、このケースでは、ゴッホ(Vincent van Gogh)の「星月夜(The Starry Night)」をモチーフとする作品を生成した。クリエーターはそれをNFTに変換して販売している(下の写真)。一点が0.02 Ether ($60.59)ほどで、GANで生成した作品が数多く掲載されている。これらの作品はGANが自動で生成したものであるが、作品はクリエーターの名前で販売されている。

出典: GanStarryNight

絵画の次は音楽

今では、多くの音楽はAIで作曲されている。AIミュージックの技術進歩は激しく、アルゴリズムが人間の作曲家を上回る技量を示している。これからは、トップチャートの20%から30%はAIが作曲するとの予測もある。AIミュージックに関する著作権訴訟は発生していないが、音楽でも絵画と同じ問題を内包している。著作権法はアルゴリズムによる創作は想定しておらず、AIミュージックに関しても様々な議論が起こりそうだ。

OpenAIの「DALL·E 2」はテキストを高品質なイメージに変換、AIがイラストレータとなり命令されたことを描き出す

OpenAIは言葉の指示に従ってイメージを生成するAI「DALL·E 2」を開発した。生成されるイメージは高品質で、人間が作成したものと区別はつかない。描きたい内容をテキストで入力すると、DALL·E 2はそれに沿った画像を生成する。「馬に乗った、宇宙飛行士を、写真イメージで」と入力すると、DALL·E 2は架空の世界を描き出す(下の写真)。画家サルバドール・ダリ(Salvador Dali)のように、機知に富んだ芸術性を発揮する。

出典: OpenAI

DALL·E 2とは

OpenAIは2022年4月、テキストをイメージに変換する機能を持つDALL·E 2を公開した。初代のモデルは「DALL·E」と呼ばれ、2021年1月にリリースされた。DALL·E 2は機能が大きく進化し、高品質なイメージを生成できるだけでなく、生成したイメージを編集する機能が加わった。DALL·E 2が描き出すイメージは高品質で、テキストだけでなく、グラフィックスの領域でも、AIが人間を上回る機能を示した。

出典: OpenAI

(上の写真、「朝日の中で、草原にいるキツネを、モネのスタイルで」と指示すると、DALL·Eはそれに沿ったイメージを描き出す。左側が初代のDALL·Eで、右側がDALL·E 2。DALL·E 2は解像度が上がり、品質が向上していることが分かる。)

言葉の指示に従って作画

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「画家ダリの、肖像画を、半分ロボットで」と指示すると、DALL·E 2はその命令に従った画像を生成する(下の写真左端)。また、「柴犬が、ベレー帽と、タートルネックをまとう」と入力すると、そのイメージを生成する(下の写真中央)。因みに、DALL·Eとは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: Aditya Ramesh et al. 

イメージを編集する機能

DALL·E 2は画像を高精度で編集する機能を持っている。画像の中で編集する場所を示し、そこに指定したオブジェクトを挿入する。例えば、画像の中の②の場所に、フラミンゴを挿入、と指示すると(下の写真左側)、それに沿ったイメージを生成する(下の写真右側)。挿入されたフラミンゴは、環境に溶け込み、水面での反射も表示されている。DALL·E 2は、画像に描かれたオブジェクトを把握し、その特性を理解する。

出典: OpenAI

スタイル変換

DALL·E 2は、オリジナルのスタイルを踏襲して、異なるイメージを生成する。例えば、画家グスタフ・クリムト(Gustav Klimt)の作品「接吻(The Kiss)」のイメージをベースに(下の写真左側)、DALL·E 2は異なる作品を生成する(下の写真右側)。巨匠のタッチを学習し、その秀作を創り出す。

出典: OpenAI

テキストと画像の関係を学習

DALL·E 2は、テキストと画像の関係を学習し、入力されたテキストに従ってイメージを出力する。例えば、DALL·E 2は「コアラ(Koala Bears)」というテキストに対応するコアラの画像を数多く学習し、両者の関係を学習する。また、DALL·E 2は、「バイク(Motorcycle)」というテキストに対応するバイクの画像を学習する。そして、DALL·E 2は、コアラとバイクという概念を把握し、「バイクを運転するコアラ」のイメージを生成できるようになる(下の写真)。

出典: OpenAI

開発された目的

DALL·E 2は商用モデルではなく、AIの基礎研究のために開発された。DALL·E 2は、クリエーター向けには、簡単に思い通りのイメージを生成するツールとなる。創造性の発揮を支援するAIとして位置付けられる。また、AI研究者は、DALL·E 2のアルゴリズムが何を学んだかを検証できる。例えば、DALL·E 2に「Tree Bark」と指示すると、アルゴリズムは「木の樹皮」(下の写真左側)や「木に向かって吠える犬」(下の写真右側)を出力する。DALL·E 2は「Bark」という言葉を「樹皮」と「吠える」という意味に解釈していることが分かる。このように、DALL·E 2は、AIが人間の世界をどう解釈しているかがイメージで示され、アルゴリズムのブラックボックスを開き、判定理由を説明する機能を提供する。

出典: OpenAI

制限事項

DALL·E 2が生成するイメージは、教育データが正しいことを前提にしている。間違った教育データを使うと、DALL·E 2は間違ったイメージを生成する。例えば、「飛行機」の写真を「犬」の写真と、間違って教育されると、DALL·E 2は教えられた通り、間違ったイメージを生成する。また、教育を受けていない事項を問われると、間違った回答をする。例えば、サルの一種である「Howler Monkey(ホエザル)」と指示されると、DALL·E 2はこの単語について教育を受けておらず、「吠えているサル」のイメージを出力する(下の写真左側)。Howling Monkeyは南米を中心に生息するサルの一種(下の写真右側)。

出典: OpenAI / Wikipedia

危険性の評価

DALL·E 2はAIが内包している危険性が高く、一般には公開されていない。現在、OpenAIのチームが、どのような危険性があるのか、アルゴリズムを評価している。DALL·E 2は、ヌードイメージ、ヘイトスピーチ、暴力など、危険なコンテンツを生成する可能性がある。特に、著名人に関連する危険なイメージが生成されると、その社会的な影響は甚大で、取り扱いには注意を要す。また、DALL·E 2が悪用されると、自由自在に高品質なフェイクイメージを生成でき、世論操作などに使われるリスクがある。

バイアス

DALL·E 2が出力するイメージは、人種や性別に関し公平ではなく、バイアスしていることも分かっている。これは教育データが特定の種別に偏っているためで、生成されるイメージは白人が中心で、西洋のライフスタイルが描写される。また、性別によるバイアスもあり、「a flight attendant」と指示すると、DALL·E 2は女性のキャビンアテンダントを生成する(下の写真)。ここには男性のキャビンアテンダントは含まれていない。DALL·E 2はアルゴリズムのバイアスを検知するツールとして使われる。

出典: OpenAI

AIがクリエーターを置き換える

研究成果はソーシャルメディアにも公開されており、DALL·E 2が生成したイメージは好意的に受け止められている。DALL·E 2は、現実社会には存在しない仮想空間を幻想的に描き、表現が感動的とのコメントが目立つ。同時に、DALL·E 2は人間レベルのスキルに達し、これからクリエーターがアルゴリズムで置き換わることになる。AIがアニメを制作する時代になり、また一つ人間の雇用が脅かされる。(下の写真左側「ウサギの探偵が、ベンチに腰掛け新聞を読む、ビクトリア風に」に描いたもの。下の写真右側「16世紀の日常生活を、8K HDで、詳細に」描いたもの。)

出典: Loreto Parisi / Merzmensch Kosmopol

Waymoは自動運転車のカメラで撮影したイメージをAIで繋ぎ合わせサンフランシスコのデジタルツインを生成

Waymoはサンフランシスコ市街地の3DモデルをAIで生成した。Waymoはサンフランシスコで自動運転車の試験走行を展開しており、クルマのカメラで撮影した写真をAIで繋ぎ合わせ、市街地の3Dマップを生成した。Google Street Viewを立体化した形状で、サンフランシスコのデジタルツインとなる。この中を自由自在に移動でき、自動運転車やロボットの開発において、アルゴリズムのシミュレーションで使われる。

出典: Waymo

写真を繋げ3Dモデルを生成

このAIは「Block-NeRF (Neural Radiance Fields)」と呼ばれ、自動運転車で撮影した写真を繋ぎ合わせ、3Dマップを生成する機能を持つ。上の写真は「グレース大聖堂(Grace Cathedral)」の前を走行しているところで、クルマの車窓から見るように風景が流れていく。ビデオ撮影した景色とは異なり、Block-NeRFで生成したモデルは、カメラのアングルを変えるなど、画像を自由に編集できる。(ビデオへのリンク。)

Dモデルの機能

Waymoはサンフランシスコのアラモ地区(Alamo Square、下の写真左側)で撮影した写真280万枚をBlock-NeRFで繋ぎ合わせて3Dモデル(下の写真右側)を生成した。生成されたモデルは、視点を変えて360度の方向から見ることができる。また、3Dモデルは一塊のデータではなく、撮影されたオブジェクトを自由に編集できる。具体的には、道路や歩道にクルマや歩行者が写っているが、Block-NeRFでこれらを消し去ることができる(下の写真右側、クルマや歩行者写っていない)。また、モデルの環境を設定することもでき、晴れの日の午後などのイメージを生成できる。

出典: Matthew Tancik et al.

NeRFとは

NeRFとは、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する手法を指す。この技法はUC BerkeleyとGoogle Researchのチームが開発した(下の写真、ドラムセットの3Dモデルを生成)。オブジェクトを周囲から撮影し、その写真をNeRFで繋ぎ合わせて3Dモデルを生成する。簡単に立体モデルを生成でき、それを柔軟に操作できるため、この技法が注目されている。

出典: B. Mildenhall, P. P. Srinivasan, M. Tancik et al.

Block-NeRFとは

NeRFは身の回りのもの(ドラムセットなど)や人物など、比較的小さな形状のオブジェクトが対象となる。これに対し、Block-NeRFは市街地のように、大規模な3Dモデルを構築できることが特徴となる。Block-NeRFは複数のNeRFを組み合わせて最終モデルを生成する。実際には、市街地を区画し、それぞれの区画でNeRFで3Dモデルを生成する。各区画で生成した3Dモデルを結合し、市街地全体の3Dモデルを生成する手順となる(下の写真左側、オレンジ色のドットが各区画で使われたNeRFを示す)。NeRFは形状(Visibility)と色彩(Color)で構成され、これを機見合わせ3Dマップを生成する。街中の景観が変わると、その部分のNeRFだけを再教育し、3Dマップを更新する(下の写真右側、上段の景観が下段に変わったケース)。市街地全体のアルゴリズムを再教育する必要はなく、効率的にモデルをアップデートできる。

出典: Matthew Tancik et al.

Block-NeRFの利用方法

生成された3Dモデルは自動運転車やロボットの開発で使われる。自動運転車はLidarやカメラで撮影したイメージから、現在地をピンポイントで特定する。これはLocalizationと呼ばれる処理で、このプロセスをBlock-NeRFで生成した3Dマップで実行する。また、自動運転車の運行を検証するため、シミュレーション環境を制作するために使われる。サンフランシスコのデジタルツインを生成し、ここで自動運転車を走行させ安全性を検証する。

メタバースへの応用

Block-NeRFで生成したモデルは、道路の走行だけでなく、上空を飛行することもできる。例えば、世界一曲がりくねった坂道「ロンバード・ストリート(Lombard Street)」の上を飛行することもできる。(ビデオへのリンク。) Waymoはコメントしていないが、都市のデジタルツインを生成し、これをメタバースの仮想社会として利用することもできる。

出典: Waymo

Waymoの走行試験

Waymoはサンフランシスコで試験走行を進めている(下の写真)。住民が被験者となり、Waymoに搭乗し、安全性の検証が行われている。先月からは、Waymoはセーフティドライバーが搭乗しない無人車両で試験走行を開始した。このケースではWaymo社員が被験者となり、無人車両に搭乗し、安全性の確認が続いている。Waymoはサンフランシスコで6か月間、試験走行を実行してきたが、無人車両での試験走行が商用化に向けた最後のステップとなる。

出典: Waymo

Nvidiaは2D写真をAIで繋げ3Dモデルを高速で生成する技法を開発、メタバースやアバターの生成に適用

Nvidiaは開発者会議「GTC 2022」をオンラインで開催した。分科会でAI研究の最新成果として、3Dモデルを高速で生成する技法を発表した。これは「Instant NeRF」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3D世界を構築する技法である。オブジェクトや人の3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Nvidia

3Dモデルを生成する技術

撮影した写真を張り合わせ、被写体の3Dモデルを生成する技術は数多く存在し、ビジネスなどで利用されている。一般に、3Dモデルを生成するためには、奥行きを計測できるカメラ「Depth Camera」を使い、被写体を撮影し、それを立体的に張り合わせ、3Dモデルを生成する。また、自動運転車はLidarを使って道路や市街地の3Dモデルを作成し、この3Dマップに従って安全に走行する。

NeRFという技法

これに対し、Neural Radiance Fields(NeRF)は、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する。2D写真をAIで3Dに再構築するため、簡単に立体モデルを生成でき、それを柔軟に操作できる。具体的には、カメラで被写体を異なる位置から撮影し(下の写真)、撮影された写真をニューラルネットワークに入力し、被写体を3Dで描写する(先頭の写真)。3Dモデルが完成すると、被写体の周囲を自由に移動でき、異なるアングルから見ることができる。Nvidiaは高速でNeRFを生成する技術「Instant NeRF」を開発し、そのビデオを公開している。(ビデオへのリンク)。

出典: Nvidia

NeRFのコンセプト

NeRFを使うとオブジェクトを簡単に3D化することができる。例えば、レゴで組み立てたブルドーザーを異なるアングルから撮影し、それをNeRFで処理すると、その3Dモデルが生成される(下の写真)。スマホカメラで写真を撮ると2DイメージがJPEGに圧縮されるように、複数の写真をNeRFで圧縮すると、3Dモデルが生成される。NeRFは「3Dカメラ」の基礎技術と位置付けられる。

出典: Nvidia

NeRFの利用方法

NeRFの利用法は様々であるが、メタバースの基礎技術として注目されている。Nvidiaはオブジェクトや人のデジタルツインを生成し、メタバースでそれをシミュレーションする手法を取る。その際に、オブジェクトの3DモデルをNeRFで生成する。また人のデジタルツインとなるアバターをNeRFで生成する。(下の写真、Instant NeRFで生成された制御室、3Dモデルの解像度は高く、また、ケーブルの陰になっている部分も正確に描写されている。)

出典: Nvidia

NeRFの仕組み

NeRFは異なるアングルから撮影した写真を入力とし、それらを色と形状に変換するニューラルネットワークとなる(下のグラフィックス)。実際には、写真を撮影した位置(Position、(x, y, z))と視線(View Angle、(θ, Φ))を入力し、ニューラルネットワークは色(RGB)と密度(Density、σ)を出力する。ニューラルネットワークを複数の写真で教育し、完成したNeRFに見る方向を入力すると、そのイメージを出力する。つまり、オブジェクトを周囲から見渡せるようになる。

出典: Nvidia

Instant NeRF

NvidiaはNeRFの高速版である「Instant NeRF」を開発した。入力するデータを前処理することで、従来のNeRFに比べ1,000倍高速で処理できる。例えば、オブジェクトを撮影した写真40枚程度でニューラルネットワークを教育すると、その処理時間は数秒程度となる。また、完成したInstant NeRFで3Dイメージを生成するにはミリセカンドで実行できる。ほぼリアルタイムで3Dモデルを生成できるようになり、応用分野が大きく広がると期待される。(下の写真、レゴのブルドーザーの写真でInstant NeRFを教育し3Dモデルを生成。)

出典: Nvidia

Dモデルの普及

Nvidiaによると、75年前にポラロイドカメラ(Polaroid Camera)が開発され、3Dモデルを瞬時に2Dの写真に変換することに成功した。Instant NeRFは逆のプロセスで、2Dの写真から瞬時に3Dモデルを生成する。ポラロイドカメラが写真が普及する礎を築いたように、NeRFにより3Dモデルが普及すると期待されている。

Nvidiaは地球のデジタルツインで気候変動研究を進める、現行の数学モデルに代わりAIが台風発生を予測

Nvidiaは、今週、開発者会議「GTC 2022」をオンラインで開催した。基調講演でCEOのJensen HuangがNvidiaのAI研究の最新成果を発表した。Nvidiaは科学技術向けメタバースである地球のデジタルツインを生成し、この3Dモデルで気候変動の研究を進めている(下の写真)。Nvidiaは米国国立研究所と共同で、地球のデジタルツインで台風や集中豪雨の発生を予測するモデルを開発した。数学モデルではなく、AIで気象の変化を予測することで、処理時間を劇的に短くすることに成功した。

出典: Nvidia

現行の天気予報の仕組み

天気予報は、海洋や陸地の状態を数値予報モデル(Numerical Weather Prediction)で表し、これをスパコンでシミュレーションする手法となる。具体的には、数値予報モデルに、現在の気象データを入力し、将来の値を計算することで状態の変化を予測する。様々な数値予測モデルが使われているが、ヨーロッパ中期予報センター(ECMWF)が開発した「Integrated Forecast System」がその代表となる。これは「欧州モデル(European Model)」とも呼ばれる。

米国のモデル

一方、米国においては、アメリカ国立気象局(National Weather Service)が開発した「Global Forecast System」が使われる。これは「米国モデル(American Model)」と呼ばれ、米国内の天気予報で使われている。一般に、欧州モデルのほうが高性能で正確な予測ができるとされる。一方、米国モデルは長期レンジ(最長16日先まで)の予測ができる点に特長がある。両モデルともシステム規模が巨大で、これを実行するには世界でトップクラスのスパコンが必要になる。

AIで天気を予測する

これらに対して、Nvidiaなどが開発した予測モデルはAIを使って気象の状態を予測する。この予測モデルは「Fourier ForeCasting Neural Network(FourCastNet)」と呼ばれ、短期から中期レンジで、台風(Typhoon)や集中豪雨(Atmospheric River)など、異常気象を予測することができる(下のグラフィックス、中段)。FourCastNetは、短時間に高精度で天気を予測することができる。欧州モデルに比べ45,000倍高速で予測することができる。

出典: Jaideep Pathak et al.

AIで予測する仕組み

現行の数値予報モデルは、数学モデルをスパコンで計算し、その解を求める手法であるが、FourCastNetはニューラルネットワークで気象を予測する。ニューラルネットワークが過去の気象データを学習し、将来のイベントを高精度で予測する。FourCastNetの教育では、ヨーロッパ中期予報センターの気象データ「ERA5」が使われ、10TBのデータでニューラルネットワークが教育された。

気象予測の事例

FourCastNetを使うと台風の発生を正確に予想できる。実際に、FourCastNetは「Typhoon Mangkhut(平成30年台風第22号)」の発生を正確に予測した(上のグラフィックス)。この台風は、フィリピンや中国、香港などに甚大な被害をもたらした。FourCastNetが予測する範囲はグローバルで、地球全体をカバーする(中央部)。日本の南の海上でMangkhutが発生した(左側最下段)が、FourCastNetはこれを正確に予測した(左側中段)。

ModulusとOmiverse

FourCastNetは地球のデジタルツインに構築され(下の写真)、気象モデルをインタラクティブに操作できる。デジタルツイン生成では「NVIDIA Omniverse」が使われ、スパコン「Earth-2」で実行された。また、AIモデルは「NVIDIA Modulus」が使われ、AIで物理問題を解析するためのツールが揃っている。具体的には、変微分方程式(partial differential equations)を解くためのニューラルネットワークが使われた。

出典: Nvidia

地球温暖化の研究

地球のデジタルツインを生成し、FourCastNetというAIモデルで気象予測を実行するのは、日々の天気予報を求めるためではなく、地球温暖化問題を解明する研究の一環となる。現行モデルで気象予測を実行すると、スパコンを使っても長時間かかる。これに対し、FourCastNetをEarth-2で実行すると、45,000倍速く予測結果を得ることができる。つまり、数多くのモデルを並列して実行でき(下の写真)、地球温暖化対策の研究を効率的に進めることができる。

出典: Nvidia