Metaは音声でイメージを生成する技術「Builder Bot」を開発している。話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。この機能はメタバースで仮想空間を生成するための基礎技術となる。また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。
Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)
Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。
カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。
出典: Google
コンピュータビジョン向けのリアルトーン
Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)
人間のように高度な会話機能を持つLaMDA 2であるが、一般には公開されてなく、閉じた試験環境「AI Test Kitchen」で機能の検証が進められている。LaMDA 2は、アルゴリズムがバイアスしており、差別的な発言や、正しく回答できないケースがあると予測されている。これをGoogleだけで検証することは難しく、外部のパートナーと共同で試験する作業を進めている。AIの規模が大きくなるにつれ、バイアスの無い完全な形でリリースすることには限界があり、問題をどこまで洗い出せるかが課題となる。
この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する(下のグラフィックス)。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで(水色のシェイド)、正解率が大きく向上した(黄色のシェイド)。「5月は何時間あるか」という問いに、PaLMは「1日は24時間で、5月31日あり、24 x 31で744時間」という思考過程を経て回答した。
Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、MetaのAI研究所「Meta AI」で開発された。OPTの規模はパラメータの数で示され、最大構成の175B(1750億個)から最小構成の125M(1億2500万個)まで、八つのモデルで構成される。
MetaはOPT-175B以前から、オープンサイエンスの手法でAI技術を改良するプログラムを展開してきた。「Deepfake Detection Challenge」は、フェイクビデオを検知する技術をコンペティションの形式で競うもの。「Hateful Memes Challenge」は、ヘイトスピーチなど有害なコンテンツを検知する技術の開発で、Metaは開発コミュニティと共同でこれを開発する。OPT-175Bでは、コミュニティでアルゴリズムの研究を進め、AIの持つ危険性を理解する。
ヘイトスピーチ検知のコンペティション
Metaは「Hateful Memes Challenge」でヘイトスピーチのデータベースを公開し(下の写真)、研究者はこれを使ってヘイトスピーチ検知のアルゴリズムを開発した。AIがヘイトスピーチを判別するのは難しく、これをオープンサイエンスの手法で開発した。「Umbrella upside down (傘がひっくり返る)」という言葉は、状況に応じてヘイトスピーチとなる(下の写真最下段)。これは「名声が内に向かってしぼむ」という意味もあり、使い方によって相手を傷つける表現となる。ヘイトスピーチの判別は人間でも難しいが、アルゴリズム開発が進んでいる。
Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。
言葉を理解する能力
AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。
出典: Sharan Narang et al.
因果関係
言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。
数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。
米国著作権局(United States Copyright Office)は、AIが制作したデジタルアートを、著作物として登録することはできない、との判定を下した。AIが生成したデジタルアートは、著作権法による保護の対象にはならない、ということを意味する。判定の理由は、著作権の対象は人間が生成したコンテンツで、AIは人間ではないので、著作権法で保護されないとしている。AIが高度に進化し、人間の技量に相当するデジタルアートを創作するが、これらは著作権の保護の対象とはならない。この判決でAIアートを販売するビジネスが影響を受けることになり、米国社会に波紋が広がっている。
出典: Imagination Engines, Inc.
AIアートの著作権登録を申請
発明家であるStephen Thalerは、AIで創作したデジタルアートの著作権の登録を申請した。このAIは「Creativity Machine」という名前で、アルゴリズムが人間の介在無しに、デジタルアートを生成する。ThalerはAIに代わり、アルゴリズムが生成したアート (上の写真)の登録申請を行った。この作品は「A Recent Entrance to Paradise」という題名で、人工頭脳であるニューラルネットワークが、死に直面した状態を描いたものである。
これに先立ち、サルが自撮りした写真は、著作権で保護される対象となるかが争われた。このサルは「Naruto」という名前で、写真家David Slaterのカメラを使い、自分の顔を撮影した(下の写真)。この写真がソーシャルメディアに掲載され大人気となった。Slaterは、写真集を出版し、ここに自撮りしたサルの写真を掲載した。これに対し、動物保護団体「動物の倫理的扱いを求める人々の会(People for the Ethical Treatment of Animals (PETA))」は、サルに代わり、Slaterを著作権侵害で提訴した。
出典: Naruto, a Sulawesi crested macaque
裁判所の判決
これに対し、アメリカ合衆国第9巡回区控訴裁判所(United States Court of Appeals for the Ninth Circuit)は、サルの自撮り写真の著作権侵害の訴訟を棄却した。裁判所は、著作権で保護される対象は人間で、サルは保護の対象とはならないとの判決を下した。米国の裁判所は、著作権侵害で訴えることができるのは人間だけで、AIや動物は保護の対象とはならないとの解釈を示した。