カテゴリー別アーカイブ: 人工知能

AIアートが生成するイメージは創作か盗作か、著作物でアルゴリズムを教育することは合法か、テキストをイメージに変換する「DALL·E 2」が知的財産権の議論を引き起こす

OpenAIが開発した「DALL·E 2」は、言葉の指示に従ってイメージを生成するAIである。OpenAIは、先週、DALL·E 2の販売を開始することを発表し、企業や個人はこれを有償で使うことができる。この発表を契機に、DALL·E 2が生成するイメージの法的解釈に関する議論が始まった。DALL·E 2は、著名芸術家のタッチを踏襲し、人気キャラクターのイメージを生成するが、これらは著作権の侵害なのか、議論が白熱している。AIアートの法的な位置づけが問われている。 (下の写真、DALL·E 2が制作した葛飾北斎の富嶽三十六景の「神奈川沖浪裏」で、オリジナルの作品をズームアウトした構成となっている。)

出典: OpenAI

DALL·E 2の機能

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、人気アニメの「シンプソン(Homer Simpson)がビットコインの暴落に驚く様子」 (下の写真左側)や、人気ゲームの「マリオ(Marion)がピーチ(Princess Peach)と離婚手続きを進めているシーン」 (右側)など、DALL·E 2は架空の世界を高精度で描き出す。

出典: OpenAI

アルゴリズムの教育

DALL·E 2は、イメージとテキストの対で教育され、言葉と画像の関係を学習した。これらイメージとテキストはインターネットから収集し、この作業はスクレイピング(Scraping)と呼ばれる。OpenAIは、6億5000万対のイメージとテキストをスクレイピングし、これらを使ってDALL·E 2のアルゴリズムを教育した。暴力シーンなど有害なコンテンツは削除されているが、ここには商標や著作権で保護されているイメージが含まれている。

出典: OpenAI

(上の写真、DALL·E 2は、レオナルド・ダ・ヴィンチ(Leonardo da Vinci)が描いた「モナ・リザ(Mona Lisa)」(左側)とヨハネス・フェルメール(Johannes Vermeer)が制作した「真珠の耳飾りの少女(Girl with a Pearl Earring)」のオリジナル作品をズームアウトしたイメージを生成した。モナ・リザは湖を背景に立ち、少女は掃除中であることが分かる。)

OpenAIの著作権に関する見解

OpenAIは、商標や著作権で保護されているデータでDALL·E 2を教育したが、DALL·E 2が生成するイメージは著作権を侵害していない、とのポジションを取る。AIを著作物で教育することは「フェアユース(Fair Use)」であり、法律上許容される利用法であるとの見解を示している。フェアユースとは、著作物の一部を引用するケースで、DALL·E 2の教育はこれに当たるとしている。一方、DALL·E 2が著作物の複製を生成するなど、著作権を侵害するケースが発生した場合は、著作者と話し合うとのポジションを取っている。

出典: OpenAI

(上の写真、DALL·E 2が制作した映画キャラクター「ミニオンズ(Minions)」(左側)と「きかんしゃトーマス(Thomas & Friends)」のレントゲン写真(右側)。)

業界の解釈

米国では、商標や著作権で保護されているデータでニューラルネットワークを教育することは違法ではない、との解釈が一般的である。企業や大学は、インターネット上のテキストやイメージをダウンロードし、これでアルゴリズムを教育するが、開発されたAIが著作権を侵害しているとの判例や事例は無い。このため、商標や著作権で保護されているデータを使ったアルゴリズム教育が容認されている。

AI教育に関する議論

しかし、高度なAIが開発されるにつれ、この慣習の妥当性が議論されている。MicrosoftはプログラミングできるAI「Copilot」を開発した。Copilotは言語モデル「GPT-3」で構成され、GitHubに公開されているコードで教育された。エンジニアに代わりAIがプログラミングするため、生産性が上がり注目を集めている。しかし、Copilotは教育されたコードを出力し、著作権に関する議論が始まった。

出典: OpenAI

(上の写真、DALL·E 2は「古代エジプトの王妃がテキストメッセージを送信」しているシーンや、英国の人気キャラクター「くまのパディントン(Paddington Bear)が雨のプラットフォームに立っている」状況を描き出す。)

AI教育に関する裁判

米国では、AI教育データの利用はフェアユースに該当するとの解釈が一般的であるが、明確な判例があるわけでは無い。いまこの状況が変わろうとしている。リトアニアのソフトウェア企業Planner 5Dは、Metaなどを、著作権侵害で被害を受けたとして提訴した。MetaはPlanner 5Dが開発した3Dモデルを使ってAIを教育し、空間を移動しオブジェクトを認識できるアルゴリズムを開発した。この裁判は2023年3月から開始される予定で、AI教育データに関するフェアユースの解釈に、法的な判定が下されることになる。

著作者の保護

この議論の背景には、DALL·E 2は著作物で教育され、生成されたイメージがビジネスで使われ、クリエーターの職が脅かされることにある。著作物を無料で利用し、教育されたAIを有償で提供することに対する不合理性がある。AIアートだけでなく、AI言語モデルなどが含まれ、今まで曖昧になっていた慣習に光が当たることになる。

AIアートは予想外に好評!!OpenAIはテキストをイメージに変換するAI「DALL·E 2」の販売を開始、アルゴリズムが新時代の芸術を創作

DALL·E 2」はOpenAIが開発したAIで、言葉の指示に従ってイメージを生成する。生成されるイメージは高品質で、人間が制作したものと区別はつかない。OpenAIはDALL·E 2を販売することを決定し、企業や個人はこれをサブスクリプションベースで使うことができる。雑誌の表紙のデザイン、商品カタログの生成、子供向けの絵本の制作など、利用分野は幅広く、新たなAIビジネスが生まれると期待されている。

出典: OpenAI

DALL·E 2とは

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「駅で猫と一緒に電車を待つ少女」(左側)や「ゴールデンゲートブリッジを走る列車」(右側)など、DALL·E 2は架空の世界を高精度で描き出す(下の写真)。DALL·Eは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: OpenAI / maderix / Danielle Baskin

DALL·E 2を販売

OpenAIはDALL·E 2をサブスクリプションベースで販売することを決定した。米国のメディアが報道した。初回は100万人が対象となり、クラウドからDALL·E 2にアクセスする。料金は15ドルで、115のクレジットを購入する。1クレジットで1回アクセスでき、テキストを送信すると、それに従ってイメージが4枚生成される。15ドルで460枚のイメージを生成できる。

AIアートの爆発

DALL·E 2は非公開であるが、OpenAIは世界のクリエーターと共同で、イメージ生成機能について検証を進めてきた。DALL·E 2は世界118か国で3,000人のアーティストが使っており、作品を生み出す過程に、このAIを組み込んでいる。アーティストは様々な形でDALL·E 2を使っており、AIアートが爆発的に成長する兆しを示している。

雑誌のカバー

女性向けのファッション雑誌「Cosmopolitan」はDALL·E 2が生成したイメージを雑誌のカバーとして採用した(下の写真)。これは6月22日に出版されたもので、世界初のAIが生成した雑誌カバーとして話題を集めた。このイメージはデジタルアーティストKaren X ChengがDALL·E 2を使って生成したもので、開発に要した時間は20秒としている。

出典: OpenAI / Karen X Cheng / Cosmopolitan

芸術写真を創作

芸術写真はカメラの代わりにDALL·E 2で制作される。メキシコ在住の写真キュレータMichael Greenは、DALL·E 2で著名写真家のスタイルで作品を創作した(下の写真)。左側はDALL·E 2が写真家Helmut Newtonのスタイルで生成したイメージで、右側は写真家Lee Jeffriesのスタイルで生成したイメージ。Newtonはファッション雑誌向けの写真家で挑発的なイメージが特徴。Jeffriesは世界のホームレスの写真を撮り続けている。リアルな写真に見えるがこれらはDALL·E 2が生成したイメージである。

出典: OpenAI / Michael Green

芸術家の作品

Leopold Museumはウィーンの美術館で、オーストリアの画家Egon Schieleの作品を数多く収集している。Schieleは前衛画家で活躍が期待されていたが、1918年に28歳で亡くなった。いま、DALL·E 2を使ってSchieleの画風で絵画を生成するプロジェクトが進んでいる。DALL·E 2に「Egon Schieleのスタイルで作画」するよう指示すると、そのイメージを生成する(下の写真)。もしSchieleが生きていたら、どんな作品が生み出されたかを探求するもので、美術館はこれらのイメージを本人の作品と合わせて展示する。

出典: OpenAI / Stefan Kutzenberger

ビジネスが生まれる

これらトライアルの結果を見ると、DALL·E 2のインパクトは予想外に大きく、AIアートの位置づけが大きく変わろうとしている。DALL·E 2がクリエーターに代わり、雑誌の表紙をデザインする。子供向けの絵本のイラストをDALL·E 2が制作することも計画されている。また、企業は、商品のコンセプトやプロトタイプのイメージをDALL·E 2で生成する。商品カタログのデザインもDALL·E 2が担当する。AIアートへの需要は大きく新たなビジネスが生まれようとしている。

問題点を抱えながら

期待されるDALL·E 2であるが、倫理的な問題点を数多く抱えているのも事実である。DALL·E 2は、女性やマイノリティに関してバイアスがあり、出力するイメージは公平でないことが分かっている。また、現実と見分けのつかないリアルなイメージを生成するので、実在の人物を描くことは禁止されている。また、DALL·E 2はクリエーターを置き換え、人間の職を奪うことになり、失業対策が喫緊の課題となる。多くの問題を抱えながら、DALL·E 2の販売が始まる。

Metaは200言語を翻訳するAIを開発、これをオープンソースとして無償で提供、最終ゴールはユニバーサル機械翻訳AIの開発

MetaのAI研究所Meta AIは、単一モデルで200言語を翻訳できるAIを開発した。AI翻訳の対象は世界の主要言語に限られていたが、このモデルによりその数が一気に拡大した。MetaはこのAIをFacebookやInstagramに適用し、多言語の利用者を呼び込む。また、MetaはこのAIをオープンソースとして公開し、企業や大学はこれをベースに独自の翻訳システムを開発できる。Metaは社外の研究機関と共同で、ユニバーサル機械翻訳AIの開発を進める。

出典: Meta

プロジェクト概要

このプロジェクトは「No Language Left Behind (NLLB)」と呼ばれ、英語や中国語などメジャー言語以外の、マイナー言語(少数言語)のAI翻訳技術を開発することを目的とする。マイナー言語は、利用者数が少なく、AIを教育するためのデータが限られており、「Low-Resource Languages」とも呼ばれる。これがマイナー言語を対象とするAI機械翻訳技術の開発が進まない原因となっている。マイナー言語はアジアやアフリカに多く存在し、ビルマ語(Burmese、ミャンマーで使われている言葉、上の写真)がこれに含まれる。

AI機械翻訳の仕組み

このプロジェクトは、単一のAIモデルで多言語を翻訳する、ユニバーサル機械翻訳(Universal Language Translator)を開発することを目指している。2020年から開発を始め、今月、200言語を翻訳するモデル「NLLB-200」の開発に成功した。NLLB-200がマイナー言語を高精度で翻訳できる理由は、AIで教育データを創り出す技術にある。このシステムは、四つのコンポーネントから構成される(下のグラフィックス):

  1. マイナー言語を母国語とする開発者による研究
  2. 限られた言語情報からAI(LASER3)が大量の教育データを生成
  3. この教育データを元にAI機械翻訳モデル「NLLB-200」を開発
  4. NLLB-200の精度をベンチマークデータ(FLORES-200)を使って検証
出典: Marta R. Costa-jussà et al.

翻訳精度

この方式により、NLLB-200は従来モデルに比べ、翻訳精度が44%向上した(下のグラフ)。MetaはNLLBモデルの開発を進めてきたが、当初は、100言語を対象にアルゴリズムを開発(水色の部分)。2022年は、対象言語の数を200に増やし、モデルを大幅に改良した(紫色の部分)。その中で、最新モデルがNLLB-200(右端のグラフ)で、翻訳精度が大きく向上した。(機械翻訳の精度は「BLEU」という指標で示される。この数値が大きいほど精度が高い。)

出典: Meta

機械翻訳の利用方法

Metaは、NLLB-200をFacebookやInstagramに適用し、マイナー言語を翻訳する計画である。NLLB-200が、メジャー言語とマイナー言語の懸け橋となり、数多くの人がコンテンツを楽しむことができる。(下の写真、クメール語(Khmer language、カンボジアの国語)で書かれた物語を翻訳して読むことができる)。また、メタバースでは世界各国の人々が、平等に交流する仮想社会の構築を目指しており、NLLB-200がコミュニケーションで重要な役割を担う。更に、MetaはWikipediaと共同で、記事を多言語に翻訳するプロジェクトを進めている。

出典: Meta 

オープンソース

Metaは、ユニバーサル機械翻訳の開発を最終ゴールとし、社外の研究機関と共同でプロジェクトを進める。これを目的に、NLLBで開発したAIモデルとデータセットをオープンソースとして公開しており、研究機関はこれを自由に利用して、独自の機械翻訳システムを開発できる。また、Metaは、非営利団体を対象に20万ドルを上限に助成金を出し、開発を支援することを表明している。オープンサイエンスの手法でAI機械翻訳技術を開発し、対象言語を増やす手法を取る。

世界の言語

因みに、世界では7,151の言語が使われており、その多くが、アジアとアフリカに存在している(下のマップ)。これらの言語の40%は、継承者が少なく、絶滅の危機に瀕しているといわれている。一方、23の言語が世界の半数以上の人により使われている。これらがメジャー言語で、英語、中国語・官話、インド・ヒンディー語がそのトップ3となる。これらメジャー言語については、多くの企業からAI機械翻訳技術が提供されている。

出典: Ethnologue

リモートワークではフィッシング詐欺に注意!!会社の同僚はAIが生成したディープフェイク、社員になりすました犯罪者が企業のITシステムを攻撃

今週、アメリカ連邦捜査局(FBI)は通達を出し、リモートワークでディープフェイクを使ったフィッシング詐欺が発生しているとして、企業や団体に注意を喚起した(下の写真)。犯罪者は、ディープフェイクで他人になりすまし、人事面接を受ける。採用された犯罪者は、企業のシステムにアクセスして、機密データを盗み出す。FBIは、ディープフェイクが犯罪で悪用される危険性を警告してきたが、実際にサイバー攻撃が始まった。

出典: Federal Bureau of Investigation

リアルな仮想人物

この通達は、FBIのインターネット犯罪捜査部門「Internet Crime Complaint Center (IC3)」から発行された。犯罪者は、個人情報(Personally Identifiable Information)を盗み、その人物になりすまし、サイバー攻撃を実行する。盗み出した個人情報とディープフェイクを組み合わせ、リアルな仮想人物であるアバターを生成し、この媒体を使って犯行に及ぶ。

アバターで人事面接

攻撃の対象はリモートワークを導入している企業で、犯罪者は盗み出した個人情報とディープフェイクでアバターを生成し、他人になりすまし人事面接を受ける。(下の写真、ビデオ会議のイメージ)。ビデオ会議による人事面接で、アバターが面接官と対話する形式で会議が進む。犯罪者は、情報技術、プログラミング、データベース、ソフトウェアなど、IT部門への就職を希望する。

出典: Microsoft 

採用後のプロセス

IT部門に採用された犯罪者は、企業システムにアクセスすることができ、ここで機密データを盗み出す手口となる。FBIは、犯罪者は、顧客の個人情報、企業の経理データ、企業のデータベース、企業の機密データなどにアクセスすると警告している。

フィッシングメールからアバターに進化

盗用した個人情報でフィッシング詐欺を実行するケースが増え、これが企業のセキュリティで最大の課題となっている。現在は、社員や関係者になりすました犯罪者が、電子メールを使って企業の機密情報を盗み出す手口で、これは「Business Email Compromise」として警戒されている。FBIは、この手法に加え、ディープフェイクを使ったフィッシング攻撃が始まり、新たな警戒が必要であるとしている。

ディープフェイクは完全ではない

FBIの通達は、今のディープフェイクは完成度が低く、偽物を見分けるための特徴があると指摘している。その最大のポイントは音声とディープフェイクの動きで、声と唇の動きが同機していないと指摘する。また、咳やくしゃみなど、音声を発生するアクションの表現が未熟であるとも指摘する。

リモートワークを採用している企業は要注意

今のディープフェイクは未完の技術であり、詐欺を見破る手掛かりがある。しかし、AIの技術進化は急で、完璧なディープフェイクが登場するまでに、時間の猶予は無い。(下の写真、既に人間と見分けのつかないアバターがコールセンターなどで使われている)。人間の目で見分けることは不可能となり、フィルタリングなど、ディープフェイクを見抜く技術の開発が必要になる。特に、リモートワークを採用している企業は狙われやすく、人事面接では応募者を認証するプロセスを強化することが必須となる。

出典: Soul Machines 

メタバースのセキュリティ

FBIの通達は、メタバースにおけるセキュリティ技術の開発が必要であることを示唆している。メタバースは3D仮想社会で、ここで自分の分身であるアバターを通じて、コミュニケーションを取る。企業はこの仮想空間に設立され、社員はアバターとなり、仕事を遂行する。仮想空間では、簡単に他人になりすますことができ、フィッシング詐欺など犯罪行為が懸念される。メタバースでは、利用者の認証技術など、3D空間を対象とするセキュリティ技術の開発が必須となる。

MetaはAIで本人そっくりのアバターを生成する技法を開発、また「アバター・ストアー」を開設しアバター向けに高級ブランド品を販売

MetaはリアリスティックなアバターをAIで生成する技法を公開した。スマホカメラで撮影した画像をもとに、AIが写真のようにリアルな3Dモデルを生成する。また、Metaは「アバター・ストアー」を開設することを発表し、アバター向けのファッションアイテムを販売する(下の写真)。ここには有名ブランドの衣料品が揃っており、メタバースでお洒落を楽しむことができる。

出典: Eva Chen

Metaのアバター開発の歴史

Metaは、早くから、VR向けに3Dアバターの開発を進めてきた。このアバターは「Codec Avatars」と呼ばれる種類で、人間の顔の形状や表面の質感を忠実に再現し、リアリスティックな3Dモデルとなる。特殊なカメラ「MUGSY」を使い(下の写真左側)、被写体の顔を異なる方向から撮影し(右側)、これらを合成して3Dモデルを生成する。MUGSYは171台のカメラから構成され、被写体を異なる方向から撮影する。

出典: Chen Cao et al.

スマホでアバターを制作

先月、MetaのAI研究所である「Reality Labs」は、スマホでリアリスティックな3Dアバターを制作する技法を公開した。特殊カメラを使う必要はなく、iPhoneで顔を撮影し(下の写真左側)、このデータを元にAIが、高精度な3Dモデルを生成する(右端)。今まではスタジオで特殊カメラを使ってアバターを制作していたが、スマホで手軽に高精度な3Dモデルを生成できるようになった。

出典: Chen Cao et al. 

AIモデルの概要

AIでアバターを生成するが、その手順は次のようになる。最初に、ベースモデル「Universal Prior Model」を生成する(下のグラフィックス、左側)。ベースモデルの生成では、多数の顔写真を教育データとし、アルゴリズムは顔の構造とその表情を学習する。具体的には、上述の専用カメラMUGSYを使い、255人の顔を25方向から撮影し、その際に、被写体は65の表情を造る。これらの顔写真から、アルゴリズムは人間の顔の構造とその表情を学習する。

出典: Chen Cao et al. 

AIモデルでアバターを生成

次に、このベースモデルを使って、利用者のアバターを生成する。スマホカメラを使い、顔を異なる方向から撮影し、これをベースモデルに入力する(上のグラフィックス、中央)。アルゴリズムは顔の構造とその表情を学習しており、数枚の顔写真から高精度な3Dアバターを生成する。更に、スマホカメラで異なる表情の顔写真を撮影すると、アバターの品質を大きく向上させることができる(上のグラフィックス、右側)。

印象型アバター

Zuckerbergは、これに先立ち、二種類のアバターを開発していることを明らかにした。これらは、「印象型アバター(Expressionist Avatar)」と「現実型アバター(Realistic Avatar)」と呼ばれる。前者はアバターをアニメのキャラクターとして生成する方式で、利用者の顔の表情をグラフィカルに再現する。既に、VRゲームやオンライン会議(下の写真)などで使われている。

出典: Meta

現実型アバター

現実型アバターは、利用者の顔をビデオ撮影したように、リアリスティックに生成する。これは特殊カメラを使って生成されてきたが、上述の手法を使うと、iPhoneカメラで誰でも手軽に作れるようになった。(下の写真、左端は入力した写真で、その他は生成されたアバター。中央はアバターの深度を表示)。但し、メガネをかけたアバターを高精度で生成できないなど、制限事項があり、完成までにはもう少し時間を要す。

出典: Meta

アバター・ストアーを開設

今週、MetaのCEOであるMark Zuckerbergは、「アバター・ストアー(Avatars Store)」を開設することを発表した。アバター・ストアーとはアバター向けのファッションハウスで、ここで洋服を買って、自分のアバターに着せる(下の写真)。FacebookとInstagramとMessengerで、プロフィール写真の代わりに、3Dアバターを使うことができ、ストアーで洋服を買って華やかなアバターを生成する。また、メタバースでは、本人に代わりアバターでお洒落を楽しむことができる。アバター・ストアーのモデルはMark Zuckerbergとファッション担当のEva Chenが務めている。

出典: Meta

三つの高級ブランド

アバター・ストアーは有名ブランドのファッションアイテムを販売する。これを買って自分のアバターに着せ、メタバースでお洒落な生活を楽しむ。三つの高級ブランド、「バレンシアガ(Balenciaga)」、「プラダ(Prada)」、「トムブラウン(Thom Browne)」が公開された。

  • バレンシアガはフランス・パリに拠点を置くファッションハウスで、規格にとらわれず、常に先進的なファッションを生みだしてきた。個人にフィットしたファッションデザインである、オートクチュール(haute couture)というコンセプトを生み出したことで有名。アバター・ストアーでは、モトクロス・レザー(motocross leather)スタイルを公開した(上の写真左端)。
  • プラダはイタリア・ミラノに拠点を置く高級ファッションブランドで、ハンドバッグやシューズを販売する。ファッションでは既製品であるプレタポルテ(prêt-à-porter)を専門とする。アバター・ストアーでは、スポーツ・ファッションブランド「Linea Rossa」を公開(上の写真左から三番目)。Zuckerbergは「上から下までプラダを着るのは勇気がいるが、メタバースならこれができそう」と述べている。
  • トムブラウンはアメリカ・ニューヨークに拠点を置くファッションブランドで、スポーティなブレザーなどを販売する。アバター・ストアーでは、四本のストライプが入ったジャケットを公開(上の写真右から二番目)。Zuckerbergは、「実社会でジャケットを着ることはないが、メタバースではトムブランを選ぶ」としている。