カテゴリー別アーカイブ: 人工知能

Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか

Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。

出典: Google 

マルチ検索

AI言語モデルは既に検索で使われているが、今年はイメージと言葉を統合した「マルチ検索(Multisearch)」が登場した。これは、イメージ検索とテキストによる検索を併せたもので、マルチメディアの検索サービスとなる。具体的には、撮影した写真のイメージ検索「Google Lens」とテキスト検索を融合したもの。例えば、スマホで気になるドレスを撮影すると、Google Lensはドレスの概要や購買サイトを教えてくれる(下の写真左側)。更に、この検索結果をテキストで操作できる。同じモデルで色違いの商品を探すため、「Green」と入力すると(中央)、グリーンのドレスを表示する(右側)。検索はマルチメディアに進化した。

出典: Google 

肌色のリアルトーン

カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。

出典: Google 

コンピュータビジョン向けのリアルトーン

Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)

出典: Google 

大規模AI会話モデル「LaMBD 2」

Googleは大規模AI言語モデルを開発しており、その中で、会話型AIは「LaMDA」と呼ばれる。今年は、その最新モデル「LaMDA 2」が公開され、その利用法について様々なアイディアが披露された。LaMDA 2は人間のように会話できる高度な機能を持つが、これをビジネスに応用する手法は確立されていない。

会話型AIを生活で活用するアイディア

Googleは、LaMDA 2と会話することで、日々の生活が便利になる三つのモデルを示した(下の写真)。

  • 「Imaging it」は、LaMDA 2が人間の質問に回答するモデル(左側)。「海で一番深い場所にいると想像すると」と指示すると、LaMDA 2は「マリアナ海溝の底にいて、、、」と、その説明をする。
  • 「Talk about it」は、LaMDA 2が指定された話題で会話するモデル(中央)。「犬のバンドの名前は」と問われるとその候補名を回答する。その後の会話で、話題は「犬」から逸れず、人間のように一貫性がある。
  • 「List it」はタスクを実行するために、必要なアクションをリストアップするモデル(左側)。人間が「家庭菜園を計画している」と述べると、LaMDA 2はそれに必要な作業項目をリストアップする。

会話型AIとの対話で知識を得るだけでなく、人間が雑談するように、AIとの会話を楽しむことができる。更に、会話型AIはプロとして、専門スキルを伝授する。

出典: Google 

AIテストキッチン

人間のように高度な会話機能を持つLaMDA 2であるが、一般には公開されてなく、閉じた試験環境「AI Test Kitchen」で機能の検証が進められている。LaMDA 2は、アルゴリズムがバイアスしており、差別的な発言や、正しく回答できないケースがあると予測されている。これをGoogleだけで検証することは難しく、外部のパートナーと共同で試験する作業を進めている。AIの規模が大きくなるにつれ、バイアスの無い完全な形でリリースすることには限界があり、問題をどこまで洗い出せるかが課題となる。

出典: Google 

大規模AI言語モデル「PaLM」

Googleは世界大規模のAI言語モデル「PaLM」を開発した。Googleが開発した巨大AIは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能が大きく進化した。数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができない。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。

この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する(下のグラフィックス)。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで(水色のシェイド)、正解率が大きく向上した(黄色のシェイド)。「5月は何時間あるか」という問いに、PaLMは「1日は24時間で、5月31日あり、24 x 31で744時間」という思考過程を経て回答した。

出典: Google 

AI向けのデータセンター

GoogleはAI機能をクラウド「Google Cloud」で提供しているが、機械学習専用の計算設備「Machine Learning Hub」を新設した。これは、オクラホマ州のデータセンター(下の写真)に構築されたもので、8システムのAI専用サーバ「Cloud TPU v4 Pods」から成る。性能は9 Exaflopsで、世界最大規模のAIスパコンとなる。また、このセンターの電力消費量の90%はクリーンエネルギーで供給されている。AI計算で大量の電力を消費することが社会問題となっているが、Googleはエコな環境でAIシステムを開発していることをアピール。

出典: Google 

信頼できるAIの開発

Googleは言語モデル向けにニューラルネットワークを開発してきたが、2017年ころから「Transformer」というアーキテクチャに乗り換えた。これをベースに、「BERT」や「MUM」などの言語モデルを開発し、検索エンジンなどに適用し、検索クエリーの意味を理解するために使っている。今では、大規模AI言語モデル「LaMDA 2」や「PaLM」を開発したが、まだ基礎研究の段階で、これらを使ったサービスは登場していない。Googleはこれら大規模AIモデルをどうビジネスに応用するか、試行錯誤を重ねている。また、大規模AIモデルが内包する危険性を把握し、これを抑止することがチャレンジとなる。Googleは開発者会議で、AI言語モデル開発戦略を明らかにし、信頼できるAIを開発する取り組みを社会にアピールした。

出典: Google 

Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する

Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。AIモデルは、その規模が拡大すると、アルゴリズムが新たなスキルを習得することが知られている。同時に、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となっている。Metaはオープンサイエンスの手法で研究を進め、AIの危険性を解明することを目指している。

出典: Meta

OPT-175Bとは

Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、MetaのAI研究所「Meta AI」で開発された。OPTの規模はパラメータの数で示され、最大構成の175B(1750億個)から最小構成の125M(1億2500万個)まで、八つのモデルで構成される。

OPT-175Bの機能

OPT-175Bは、人間の指示に従って文章を作成し、数学の問題を解き、会話する機能を持つ。OPT-175Bの特徴は、言語モデルの中でもパラメータの数が175Bと、世界最大規模のニューラルネットワークであること。このため、アルゴリズムが人間のように高度な言語機能を発揮することができる。

OPT-175Bは人間の指示に従って文章を生成することができる(下の写真)。OPT-175Bに、「人事評価面接をテーマとする詩を生成」するよう指示すると(下の写真太字の部分)、アルゴリズムはそれに沿って文章を生成する(細字の部分)。「良い評価を得たが、上司は一層の改善が必要と述べた。自分でも分かっており、努力しているが、なかなか難し。」などと、人間の心情を綴る詩を生成。

出典: Susan Zhang et al.

ライセンス

MetaはOPTのコードと教育済みのモデルを無償で提供することを明らかにした。大学や政府や企業の研究者が対象となり、利用申請すると審査を経て、使用を許諾される手順となる(下の写真)。また、教育済みの小型モデルは、既にGitHubに公開されており、自由に利用できる。但し、利用目的は研究開発に限定され、OPTを使ってビジネスをする形態は認められていない。

出典: Meta

AI開発の現状

GoogleやMicrosoftなど巨大テックは、大規模なAI言語モデルを競い合って開発しているが、これらは社内に閉じ、クローズドな方式で進められている。研究成果は論文として公開されているが、ここにはコードや開発手法は記載されておらず、他の研究者が成果を検証することはできない。つまり、現在のAI開発はクローズドソースの方式で進められ、巨大テックがその知的財産を独占している形態となっている。

AIを公開する理由

これに対しMetaは、OPT-175Bを無償で公開し、世界の研究者が自由に利用できる方針を選択した。大学や政府や民間の研究コミュニティで、大規模AI言語モデルの研究をオープンな形式で進めることで、研究開発が加速するとみている。特に、AIの危険性を解明する研究が進み、言語モデルの理解が深まり、責任あるAI開発が可能となると期待している。

出典: Meta

GPT-3との対比

Metaが開発したOPT(Open Pretrained Transformer)は、OpenAIが開発したGPT(Generative Pre-trained Transformer)に対峙する構造となっている。OPTという名称は、GPTをオープン化したもの、という意味を含んでいる。また、OPT-175Bのパラメータの数は、あえて、GPT-3の175Bと同じ数字とした。Transformerという同じアーキテクチャを採用し、その規模も同じとし、OPTは世界最先端のAI言語モデルを無償で公開することをアピールしている。(下の写真、OPTの性能(丸印)はGPTの性能(✖印)と互角であることを示している。)

出典: Susan Zhang et al. 

オープンサイエンス

MetaはOPT-175B以前から、オープンサイエンスの手法でAI技術を改良するプログラムを展開してきた。「Deepfake Detection Challenge」は、フェイクビデオを検知する技術をコンペティションの形式で競うもの。「Hateful Memes Challenge」は、ヘイトスピーチなど有害なコンテンツを検知する技術の開発で、Metaは開発コミュニティと共同でこれを開発する。OPT-175Bでは、コミュニティでアルゴリズムの研究を進め、AIの持つ危険性を理解する。

ヘイトスピーチ検知のコンペティション

Metaは「Hateful Memes Challenge」でヘイトスピーチのデータベースを公開し(下の写真)、研究者はこれを使ってヘイトスピーチ検知のアルゴリズムを開発した。AIがヘイトスピーチを判別するのは難しく、これをオープンサイエンスの手法で開発した。「Umbrella upside down (傘がひっくり返る)」という言葉は、状況に応じてヘイトスピーチとなる(下の写真最下段)。これは「名声が内に向かってしぼむ」という意味もあり、使い方によって相手を傷つける表現となる。ヘイトスピーチの判別は人間でも難しいが、アルゴリズム開発が進んでいる。

出典: Meta

Facebookの教訓

AI言語モデルの開発は、巨大テックが企業内に閉じて進めており、外部の研究者は、開発内容をうかがい知ることはできない。Metaは、AIコミュニティに大規模言語モデルを公開することで、信頼できるAIを開発できると目論んでいる。この背後には、FacebookやInstagramのコンテンツ配信で、アルゴリズムが不透明で、偽情報が拡散し、社会が不安定になったという事実がある。Metaはこれらの教訓を生かし、AI開発ではオープンな戦略を取り、信頼できるAIの開発を進めている。

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する

Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。Googleが開発した巨大モデルは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能でブレークスルーを達成した。

出典: Sharan Narang et al.

PaLMとは

Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。

言葉を理解する能力

AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。

出典: Sharan Narang et al. 

因果関係

言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。

出典: Sharan Narang et al. 

下の写真;絵文字を使ったゲーム。絵文字で示された内容を理解し、それが示す映画を当てるゲーム。絵文字は「ロボット」、「昆虫」、「若葉」、「地球」で、これらと関係する映画を当てる問題。PaLMは、絵文字というイメージを理解し、それをもとに映画「Wall-E」と回答。正しく推論できる能力を示した。

出典: Sharan Narang et al. 

推論機能

PaLMは言語能力の中で「推論(Reasoning)」機能でブレークスルーを達成した。推論とは、いくつかの命題から、結論を引き出す思考方法で、人間の理性を代表する能力である。PaLMは、数学計算における推論 (multi-step arithmetic reasoning)と、常識に基づく推論 (common-sense reasoning)で高い性能を発揮した。

数学計算における推論機能

数学計算における推論機能とは、計算問題を解くための推論機能を指す。下の写真右側下段;算数の問題。「カフェテリアに23個のリンゴがあり、ここから20個を使い、新たに6個を購入した。リンゴはいくつあるか?」という問題で、人間は簡単に解くことができるが、AI言語モデルにとっては難解。PaLMは「11」と正しく回答した。PaLMは、9歳から12歳の子供が算数の問題を解く能力の60%に到達した。

ステップに分けて推論

数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。

出典: Sharan Narang et al. 

常識に基づく推論機能:ジョークを説明

常識に基づく推論機能とは、文章の意味を、社会常識を使い、言葉を理解し、推測する機能を指す。例えば、ジョークについて、なぜ面白いのか、PaLMはそのオチを説明することができる。下の写真;PaLMがジョークを理解しそのオチを説明。ジョーク「GoogleはTPUチームにクジラを採用した。クジラが異なるPodの間でコミュニケーションする」。PaLMがジョークの意味を解説「PodとはTPUプロセッサの集合体で、また、Podはクジラの集団という意味がある。採用したクジラは、他のTPUチームとコミュニケーションできることを意味している。」

出典: Sharan Narang et al. 

常識に基づく推論機能:論理的推論

PaLMは提示された文章の内容を論理的に推論することができる。一見、不条理で意味不明な文章を示されると、PaLMはそれを論理的に推測し、その真意を把握する。下の写真;提示された文章を考察し、PaLMがその意味を推論する問題。意味不明な文章「長い間、頭を持っている山があり、それを見学するためにドライブした。その東隣の州都はどこか?」。PaLMの推論:「頭を持っている山は、ラシュモア山(Mount Rushmore)で、サウスダコタ州にある。その東隣はミネソタ州で州都はミネアポリス。」(ラシュモア山には大統領の胸像が彫られている。)

出典: Sharan Narang et al. 

プログラミング機能

PaLMはプログラミングする技術を習得した。具体的には、人間が言葉で指示した内容をPaLMがプログラムに変換する(下の写真)。また、PaLMがプログラムを他の言語に変換する。更に、PaLMはプログラムのバグを修正することができる。下の写真;人間が言葉でタスクを指示すると(左側)、PaLMはその内容をプログラミングする(右側)。ここでは異なる音符の長さを合計するコードを生成。

出典: Sharan Narang et al. 

アルゴリズムのバイアス

PaLMが判定した結果は、公正ではなく、バイアスしているため、この危険性を事前に評価した。また、アルゴリズムが、性別や人種に関し、危険な表現を出力する可能性を指摘した。例えば、PaLMは、イスラム教(Islam)という言葉に暴力を結び付ける傾向が強い。これは教育に使われたデータが公正ではないために起こる現象で、Googleはこれらを事前に測定し、制限事項としてドキュメントに纏めた。このドキュメントは「Model Card」と呼ばれ、PaLMの使用説明書となり、ここに機能概要や制限事項が記載されている(下の写真、Model Cardの一部)。AIは医薬品と同じように、使い方を誤ると生活に支障をきたすので、その使用手引きが重要な役割を担う。

出典: Sharan Narang et al. 

プロセッサ構成

PaLMの開発は、Googleが開発したAIプロセッサ「TPU V4」で実行された。AIプロセッサはラックに搭載され、「Cloud TPU v4 Pods」というAI専用サーバを構成する(下の写真)。PaLMの開発では、2台のCloud TPU v4 Podsが使われ、合計で6144台のTPU V4でアルゴリズムの教育が実行された。このシステムはGoogleが構築した最大構成のTPU Podで、ここでPaLMの教育が並列に実行された。

出典: Google

Pathwaysとは

PaLMは「Pathways Language Model」の略で、AIモデル「Transformer」を「Pathways」という方式で教育した言語モデルを意味する。Pathwaysとは、大規模なアルゴリズムの教育を並列に実行する方式で、多重で処理することで処理効率を上げることができる(下の写真)。教育では二つのPod(Pod 1とPod 2)を使い、教育データを二分割 (AとB)し、それぞれのPodで実行する。Aのデータで教育が終了すると、その結果(Gradient)をBに送り、残りの半分のデータを教育する。これにより、Podを効率的に使うことができ、稼働率57.8%を達成した。

出典: Sharan Narang et al. 

AI言語モデルの開発競争

AI言語モデルの開発競争がし烈を極め、ニューラルネットワークのサイズが急速に拡大している。OpenAIは「GPT-3」(パラメータの数は1750億)を開発し、AIモデルが巨大化する口火を切った。これに対し、MicrosoftとNvidia連合は「Turing NLG」(パラメータの数は5300億)というモデルを開発し、NvidiaのGPUスパコンでアルゴリズム教育を実行した。GoogleのPaLMはこれを100億上回り、世界最大規模のAIモデルとなった。

大規模AIモデルを開発する理由

各社が競って大規模AIモデルを開発する理由は、ニューラルネットワークはサイズが大きくなるにつれ、機能が格段に向上するためである。基礎機能が強化されることに加え、アルゴリズムが新たな能力を習得することが分かっている。PaLMでもこの事象が観測され、ニューラルネットワークのサイズを更に大きくすることで、推論機能など知能の一部を獲得した。これから更にAIの規模を拡大すると、人間レベルの知能を得ることができると期待されている。

AIが制作したデジタルアートの著作権は誰に帰属する?AIを著作権者として登録できる?

米国著作権局(United States Copyright Office)は、AIが制作したデジタルアートを、著作物として登録することはできない、との判定を下した。AIが生成したデジタルアートは、著作権法による保護の対象にはならない、ということを意味する。判定の理由は、著作権の対象は人間が生成したコンテンツで、AIは人間ではないので、著作権法で保護されないとしている。AIが高度に進化し、人間の技量に相当するデジタルアートを創作するが、これらは著作権の保護の対象とはならない。この判決でAIアートを販売するビジネスが影響を受けることになり、米国社会に波紋が広がっている。

出典: Imagination Engines, Inc.

AIアートの著作権登録を申請

発明家であるStephen Thalerは、AIで創作したデジタルアートの著作権の登録を申請した。このAIは「Creativity Machine」という名前で、アルゴリズムが人間の介在無しに、デジタルアートを生成する。ThalerはAIに代わり、アルゴリズムが生成したアート (上の写真)の登録申請を行った。この作品は「A Recent Entrance to Paradise」という題名で、人工頭脳であるニューラルネットワークが、死に直面した状態を描いたものである。

米国著作権局の判決

この申請に対し、米国著作権局の委員会は、2022年2月、AIが生成したアートは人間が創作に関与しておらず、著作権の登録はできないとの判定を下した(下の写真)。著作権で保護できる著作物は、人間が制作したものに限られる、との解釈を示した。人間以外のものが創作した著作物は、著作権の保護の対象とはならないことになる。

出典: United States Copyright Office

米国の著作権

米国でも日本と同様に、著作物を創作すると著作権は自動的に発生するため、改めて登録の必要はない。一方、米国では、著作権の侵害を未然に防ぐため、著作権が存在する事実を証明するために、米国著作権局に著作権登録をするケースが少なくない。Thalerのケースは、著作物が違法に複製されるのを防ぐため、また、AIという先端技術が著作権法でどう解釈されるのかを明らかにすることを目的としている。

サルの自撮り写真

これに先立ち、サルが自撮りした写真は、著作権で保護される対象となるかが争われた。このサルは「Naruto」という名前で、写真家David Slaterのカメラを使い、自分の顔を撮影した(下の写真)。この写真がソーシャルメディアに掲載され大人気となった。Slaterは、写真集を出版し、ここに自撮りしたサルの写真を掲載した。これに対し、動物保護団体「動物の倫理的扱いを求める人々の会(People for the Ethical Treatment of Animals (PETA))」は、サルに代わり、Slaterを著作権侵害で提訴した。

出典: Naruto, a Sulawesi crested macaque

裁判所の判決

これに対し、アメリカ合衆国第9巡回区控訴裁判所(United States Court of Appeals for the Ninth Circuit)は、サルの自撮り写真の著作権侵害の訴訟を棄却した。裁判所は、著作権で保護される対象は人間で、サルは保護の対象とはならないとの判決を下した。米国の裁判所は、著作権侵害で訴えることができるのは人間だけで、AIや動物は保護の対象とはならないとの解釈を示した。

ビジネスへの影響

これにより、AIが創作したデジタルアートを販売しても、作品は著作権で保護されないことになる。販売されたAIデジタルアートの複製を作っても訴訟されることはない。現行の著作権法の元では、AIアートの事業は成立しないことになる。一方、デジタルアート制作の過程で人間の関与があれば、創作物は著作権で保護される対象となる。このため、人間のクリエーターが、AIというツールを使って、デジタルアートを生成すると、この作品を著作権物として登録することができる。AIアートの事業では、表向きはAIと人間の合作という看板が必要となる。

NFTとして販売

今では、AIが生成したデジタルアートはNFT(Non-Fungible Tokens)として販売されている。NFTとはブロックチェーンで構成されるトークンで、アートの所有者を証明する証文となる。NFTのマーケットプレイス「OpenSea」で様々なAIアートが売買されている。「GanStarryNight」というクリエーターは、高度なAIである「Generative Adversarial Network (GAN)」で作品を生成し販売している。GANはリアルなイメージを生成するAIで、このケースでは、ゴッホ(Vincent van Gogh)の「星月夜(The Starry Night)」をモチーフとする作品を生成した。クリエーターはそれをNFTに変換して販売している(下の写真)。一点が0.02 Ether ($60.59)ほどで、GANで生成した作品が数多く掲載されている。これらの作品はGANが自動で生成したものであるが、作品はクリエーターの名前で販売されている。

出典: GanStarryNight

絵画の次は音楽

今では、多くの音楽はAIで作曲されている。AIミュージックの技術進歩は激しく、アルゴリズムが人間の作曲家を上回る技量を示している。これからは、トップチャートの20%から30%はAIが作曲するとの予測もある。AIミュージックに関する著作権訴訟は発生していないが、音楽でも絵画と同じ問題を内包している。著作権法はアルゴリズムによる創作は想定しておらず、AIミュージックに関しても様々な議論が起こりそうだ。

OpenAIの「DALL·E 2」はテキストを高品質なイメージに変換、AIがイラストレータとなり命令されたことを描き出す

OpenAIは言葉の指示に従ってイメージを生成するAI「DALL·E 2」を開発した。生成されるイメージは高品質で、人間が作成したものと区別はつかない。描きたい内容をテキストで入力すると、DALL·E 2はそれに沿った画像を生成する。「馬に乗った、宇宙飛行士を、写真イメージで」と入力すると、DALL·E 2は架空の世界を描き出す(下の写真)。画家サルバドール・ダリ(Salvador Dali)のように、機知に富んだ芸術性を発揮する。

出典: OpenAI

DALL·E 2とは

OpenAIは2022年4月、テキストをイメージに変換する機能を持つDALL·E 2を公開した。初代のモデルは「DALL·E」と呼ばれ、2021年1月にリリースされた。DALL·E 2は機能が大きく進化し、高品質なイメージを生成できるだけでなく、生成したイメージを編集する機能が加わった。DALL·E 2が描き出すイメージは高品質で、テキストだけでなく、グラフィックスの領域でも、AIが人間を上回る機能を示した。

出典: OpenAI

(上の写真、「朝日の中で、草原にいるキツネを、モネのスタイルで」と指示すると、DALL·Eはそれに沿ったイメージを描き出す。左側が初代のDALL·Eで、右側がDALL·E 2。DALL·E 2は解像度が上がり、品質が向上していることが分かる。)

言葉の指示に従って作画

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、「画家ダリの、肖像画を、半分ロボットで」と指示すると、DALL·E 2はその命令に従った画像を生成する(下の写真左端)。また、「柴犬が、ベレー帽と、タートルネックをまとう」と入力すると、そのイメージを生成する(下の写真中央)。因みに、DALL·Eとは、画家サルバドール・ダリ(Salvador Dali)と、映画で有名になったロボット「WALL·E」を掛け合わせた造語で、奇抜な世界を描き出すAI画家を意味する。

出典: Aditya Ramesh et al. 

イメージを編集する機能

DALL·E 2は画像を高精度で編集する機能を持っている。画像の中で編集する場所を示し、そこに指定したオブジェクトを挿入する。例えば、画像の中の②の場所に、フラミンゴを挿入、と指示すると(下の写真左側)、それに沿ったイメージを生成する(下の写真右側)。挿入されたフラミンゴは、環境に溶け込み、水面での反射も表示されている。DALL·E 2は、画像に描かれたオブジェクトを把握し、その特性を理解する。

出典: OpenAI

スタイル変換

DALL·E 2は、オリジナルのスタイルを踏襲して、異なるイメージを生成する。例えば、画家グスタフ・クリムト(Gustav Klimt)の作品「接吻(The Kiss)」のイメージをベースに(下の写真左側)、DALL·E 2は異なる作品を生成する(下の写真右側)。巨匠のタッチを学習し、その秀作を創り出す。

出典: OpenAI

テキストと画像の関係を学習

DALL·E 2は、テキストと画像の関係を学習し、入力されたテキストに従ってイメージを出力する。例えば、DALL·E 2は「コアラ(Koala Bears)」というテキストに対応するコアラの画像を数多く学習し、両者の関係を学習する。また、DALL·E 2は、「バイク(Motorcycle)」というテキストに対応するバイクの画像を学習する。そして、DALL·E 2は、コアラとバイクという概念を把握し、「バイクを運転するコアラ」のイメージを生成できるようになる(下の写真)。

出典: OpenAI

開発された目的

DALL·E 2は商用モデルではなく、AIの基礎研究のために開発された。DALL·E 2は、クリエーター向けには、簡単に思い通りのイメージを生成するツールとなる。創造性の発揮を支援するAIとして位置付けられる。また、AI研究者は、DALL·E 2のアルゴリズムが何を学んだかを検証できる。例えば、DALL·E 2に「Tree Bark」と指示すると、アルゴリズムは「木の樹皮」(下の写真左側)や「木に向かって吠える犬」(下の写真右側)を出力する。DALL·E 2は「Bark」という言葉を「樹皮」と「吠える」という意味に解釈していることが分かる。このように、DALL·E 2は、AIが人間の世界をどう解釈しているかがイメージで示され、アルゴリズムのブラックボックスを開き、判定理由を説明する機能を提供する。

出典: OpenAI

制限事項

DALL·E 2が生成するイメージは、教育データが正しいことを前提にしている。間違った教育データを使うと、DALL·E 2は間違ったイメージを生成する。例えば、「飛行機」の写真を「犬」の写真と、間違って教育されると、DALL·E 2は教えられた通り、間違ったイメージを生成する。また、教育を受けていない事項を問われると、間違った回答をする。例えば、サルの一種である「Howler Monkey(ホエザル)」と指示されると、DALL·E 2はこの単語について教育を受けておらず、「吠えているサル」のイメージを出力する(下の写真左側)。Howling Monkeyは南米を中心に生息するサルの一種(下の写真右側)。

出典: OpenAI / Wikipedia

危険性の評価

DALL·E 2はAIが内包している危険性が高く、一般には公開されていない。現在、OpenAIのチームが、どのような危険性があるのか、アルゴリズムを評価している。DALL·E 2は、ヌードイメージ、ヘイトスピーチ、暴力など、危険なコンテンツを生成する可能性がある。特に、著名人に関連する危険なイメージが生成されると、その社会的な影響は甚大で、取り扱いには注意を要す。また、DALL·E 2が悪用されると、自由自在に高品質なフェイクイメージを生成でき、世論操作などに使われるリスクがある。

バイアス

DALL·E 2が出力するイメージは、人種や性別に関し公平ではなく、バイアスしていることも分かっている。これは教育データが特定の種別に偏っているためで、生成されるイメージは白人が中心で、西洋のライフスタイルが描写される。また、性別によるバイアスもあり、「a flight attendant」と指示すると、DALL·E 2は女性のキャビンアテンダントを生成する(下の写真)。ここには男性のキャビンアテンダントは含まれていない。DALL·E 2はアルゴリズムのバイアスを検知するツールとして使われる。

出典: OpenAI

AIがクリエーターを置き換える

研究成果はソーシャルメディアにも公開されており、DALL·E 2が生成したイメージは好意的に受け止められている。DALL·E 2は、現実社会には存在しない仮想空間を幻想的に描き、表現が感動的とのコメントが目立つ。同時に、DALL·E 2は人間レベルのスキルに達し、これからクリエーターがアルゴリズムで置き換わることになる。AIがアニメを制作する時代になり、また一つ人間の雇用が脅かされる。(下の写真左側「ウサギの探偵が、ベンチに腰掛け新聞を読む、ビクトリア風に」に描いたもの。下の写真右側「16世紀の日常生活を、8K HDで、詳細に」描いたもの。)

出典: Loreto Parisi / Merzmensch Kosmopol