カテゴリー別アーカイブ: 人工知能

世界一危ないAIが誕生!!高度な言語モデルを差別用語で教育すると危険な言葉をまき散らすチャットボットとなる

高度な言語モデルをネット上の差別用語で教育して、危険な発言を繰り返すチャットボットを開発した。このチャットボットは「GPT-4chan」と呼ばれ、人間と対話する機能を持つが、発言内容は通常の会話で許容される範囲を逸脱し、差別発言や暴言を繰り返す。安全なAI開発とは対極に位置し、世界で一番危険なAIが生まれた。

出典: Yannic Kilcher

GPT-4chanとは

GPT-4chanは研究者Yannic Kilcherにより開発され(上の写真)、掲示板サイト「4chan(4ちゃん」で短期間運用された。GPT-4chanは高度な言語モデルで、入力された言葉に対し、それに返答する文章を生成する機能を持つ。人間と対話する機能を持つチャットボットとなる。しかし、通常のチャットボットとは異なり、4chanで運用され、社会的に許容されない会話で使われた。

4chanの概要

4chanは、日本の「2ちゃんねる」から分派したもので、サブカルチャー向けの掲示板として利用されている。発言に関する規制は極めて緩やかで、差別や偏見や偽情報が飛び交うサイトとなっている。但し、犯罪など法令に抵触する発言は違法行為となり、取り締まりの対象となる。(下の写真、4chanのスレッドの一部で、アメリカで白人の人口を増やす方法が、支離滅裂なロジックで議論されている。)

出典: 4chan

Politically Incorrectという掲示板

GPT-4chanは、このサイトの中で、政治討論を交わす掲示板「Politically Incorrect(下の写真、略称は/pol/で政治的に不適切という意味を持つ)」で運用された。Politically Incorrectは、特定のグループに不快感を与えないよう配慮することなく、政策や考えをストレートに発言する場として使われている。この掲示板は極右団体「Alternative Right」が意見を交換する場となり、人種差別に関する投稿が大量に掲載されている。GPT-4chanは/pol/で24時間運用され、人間と対話を続け、生成された発言の数は15,000件に上る。この期間、利用者はチャットボットとは気づかず、会話が続けられた。

出典: 4chan

オープンソースの言語モデル

GPT-4chanはオープンソースの言語モデル「GPT-J 6B」を使っている。これはAI研究コミュニティ「EleutherAI」により開発された言語モデルで、「Transformer(トランスフォーマー)」というアーキテクチャを持ち、6B(60億)個のパラメータから成る。高度な言語機能を持ち、OpenAIの「GPT-3」に対抗して開発された。GPT-3はクローズドソースであるが、GPT-Jはオープンソースとして公開されており、世界の研究団体がこれを利用して言語モデルの研究を進めている。

差別用語のデータセット

GPT-4chanはこのGPT-J 6Bを4chanの/pol/に掲載されている大量の差別発言で教育したものである。差別発言のデータは「Raiders of the Lost Kek」といわれ、3.5年間にわたり/pol/で交わされた会話(下の写真)を収集したもので、イギリスのUniversity College Londonなどにより開発された。ここには330万のスレッドと1.345億の会話が収納されており、危険な発言や人種差別や攻撃的な発言の世界最大規模のデータセットとなる。

出典: Antonis Papasavva et al.

アカデミアの警告メッセージ

本来、GPT-JとRaiders of the Lost Kekは、AI研究を支援するために開発されたもので、AIの危険性を理解し、安全なAIを開発するための重要なシステムとなる。これに反し、GPT-4chanは差別発言や危険な言葉を生成する、世界で最も危険な言語モデルとなり、これが一般社会にリリースされた。スタンフォード大学などAI研究コミュニティは、GPT-4chanが社会に公開されたことに危機感を抱き、オープンレターを発信し(下の写真、レターの一部)、Yannic Kilcherに対し、AIの危険性を認識し、倫理的な開発を要請した。特に、ニューヨーク州バッファローで発生した大量殺人事件に関連する発言が教育データとして使われており、これを学習したチャットボットに対し、強い警戒感を示している。

出典: Percy Liang et al.

国家安全保障

GPT-4chanはAI開発の危険性を改めて認識させられる出来事となった。高度な言語モデルが開発され、それがオープンソースとして公開されることで、誰でも簡単に社会に危害を及ぼすAIモデルを生成できるようになった。つまり、欧米諸国に敵対する国々が、これらオープンソースを使って、社会や国民を攻撃する高度な言語モデルを開発できることを意味する。特に、言語モデルの基盤であるTransformerが、AI半導体と同様に、国家安全保障にかかわるコア技術となり、オープンソースの管理や運用方法が問われている。

ハイパーリアルなアバター、AIがセレブの完璧なデジタルツインを生成、DeepFakesがメタバースを支える

米国の人気テレビ番組でセレブ三人がオペラを歌唱するシーンが放送され社会が騒然とした(下の写真)。これは”フェイクビデオ”で、オペラ歌手三人が歌うシーンをテレビカメラで撮影し、顔の部分だけをリアルタイムでセレブのものに置き換えた。完璧な偽物で、究極のDeepFakesが生まれ、テレビで全米に放送された。実際にこの番組を見ていたが、完成度の高さに衝撃を受けた。

出典: America’s Got Talent

リアリティ番組

これは「アメリカズ・ゴット・タレント(America’s Got Talent)」と呼ばれる番組で、様々なジャンルのパフォーマーの公開オーディションを放送するもので、アメリカ版「スター誕生」という位置づけになる。今週、三人のオペラ歌手がステージでアリア「誰も寝てはならぬ(Nessun dorma)」を歌い(上の写真下段)、それを三台のカメラで撮影し、合成した映像を大型モニターに映し出す(上の写真上段)構成となっていた。

顔をスワップ

映し出される映像は三人のオペラ歌手の顔をセレブの顔にスワップしたもので、審査員のサイモン・コーウェル(Simon Cowell、下の写真右端)、ホーウィー・マンデル(Howie Mandel、左端)、及び、司会者のテリー・クルーズ(Terry Crews、中央)がオペラを熱唱するシーンが生成された。DeepFakesの出来栄えは完璧で、本人が歌っているように映し出されたが、審査員たちは席に座っており、フェイクであることが分かる仕組みになっていた。

出典: America’s Got Talent

DeepFakes技術

この技術を開発したのはロンドンに拠点を置く新興企業Metaphysicで、高品質なコンテンツを生成するAIを開発している。特に、AIでアバターを生成する技術に着目しており、超リアルなデジタルツインを生成する。生成されるハイパーリアルなアバターは、3D仮想社会で使われ、メタバースを支える基礎技術を担っている。

偽のトム・クルーズ

Metaphysicは、これに先立ち、映画俳優トム・クルーズ(Tom Cruise)のハイパーリアルなDeepFakesを生成し、全米を驚かせた。ショートビデオとしてTikTokなどに掲載され、完璧な偽物のトム・クルーズを生み出した(下の写真)。実際に、ショートビデオを観ると、完璧なフェイクで、偽物であると聞かされて驚いた。これらのビデオはTikTokの「deeptomcruise」のサイトに掲載されている(リンク)。

出典: TikTok

シンセティック・メディア

AIが生成するアバターは「Synthetic Media」と呼ばれ、誰でも簡単に動画や音声を生成でき、プロ並みのコンテンツを生成できる。人間と見分けのつかないデジタル・ヒューマンが生まれており、エンターテイメントやプロモショーンで使われている。ニューヨークに拠点を置く新興企業SynthesiaはAIアバターを開発し、人間に代わりアバターがプレゼンテータとなり、商品を説明する。異なる種類のアバターが揃っており、企業はブランドイメージに沿ったアバターと言葉のアクセントを選ぶことができる(下の写真)。

出典: Synthesia

シンセティック・ボイス

また、AIでボイスを生成する技術「Synthetic Voice」の開発が進み、品質が人間レベルに到達した。合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。シアトルに拠点を置くAI新興企業WellSaid Labsは、AIによる音声合成技術を開発している(下の写真)。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、それを人間のように滑らかなボイスに変換する。

出典: WellSaid

人間の3Dフィギュア

ハイパーリアルなアバターと音声が生成されているが、次のゴールはAIで人間の3Dフィギュア全体を生成することにある。例えば、トム・クルーズのフェイクビデオをすべてAIで生成する技術がAI研究開発の一番ホットなテーマとなっている。上述のDeepTomCruiseが完璧なのは訳があり、トム・クルーズのそっくり俳優が演じたビデオを使っているからである。そっくりさんの顔の部分だけを本物の顔にスワップしている。そっくり俳優がトム・クルーズのように振る舞い、声も本人と見分けがつかない。そっくり俳優が演じる部分をAIで生成することが次の目標で、大学や企業で研究開発が進んでいる。

テキストをイメージに変換するAIが公開される、誰でもAIアートを生成できる時代が到来、同時にAIでポルノが大量生産され危険性が広がる

新興企業Stability AIは、言葉の指示に従ってイメージを生成するAI「Stable Diffusion」を開発した。描きたい内容をテキストで入力すると、Stable Diffusionはそれに沿った画像を生成する。Stability AIはこのAIをオープンソースとして公開し、企業や個人はこのシステムを利用し、AIアートを生成できるようになった。多彩なAIアートが生成されると期待されるが、同時に、ヌードイメージなど危険なコンテンツが大量生産されると懸念されている。

出典: Stability AI

Stable Diffusionとは

Stable Diffusionはイメージを生成するAIモデルで、テキストの指示に従ってイメージを出力する。例えば、「人類が温暖化問題を解決した後に訪れる未来都市」と指示すると、Stable Diffusionはその命令に従った画像を生成する(上の写真左側)。また、Stable Diffusionはオバマ前大統領の横顔を写真撮影したように生成する(右側)。イメージを生成するAIはOpenAIが開発した「DALL·E」が有名であるが、Stable Diffusionはこれを追随し高品質な画像を生成する。

使ってみると

実際にStable Diffusionを使ってみると、AIはテキストに従って高品質なイメージを生成する。「雪化粧したゴールデンゲートブリッジ」と指示すると、AIは写真撮影したような画像を生み出す。「ゴッホのスタイルで描いたゴールデンゲートブリッジ」と指示すると、油絵のタッチでイメージを生成する。生成されるイメージは高品質でビジネスで活用できるレベルに達している。

出典: VentureClef 

AIの開発と教育

この技術はStability AIが、ルートヴィヒ・マクシミリアン大学ミュンヘン(Ludwig Maximilian University of Munich)などの研究機関と共同で開発した。Stable Diffusionは同大学が開発したモデル(Latent Diffusion Models)をベースに開発された。Stable Diffusionはイメージ・データセット「LAION」を使って教育された。このデータセットにはインターネットからダウンロードしたイメージとその説明が格納されている(下の写真、猫の事例)。Stable Diffusionは、イメージとその意味を学習し、指示された言葉に従って画像を生成する。

出典: LAION 

イメージ生成手法

Diffusionとは、教育されたアルゴリズムが指示に従ってイメージを生成する手法を指す。Diffusionとは「拡散」を意味し、イメージをノイズに拡散するプロセスとなる。イメージを生成する際はこの逆のプロセスを辿り、ノイズからイメージを生成する手法となる。これは「Denoising Process」と呼ばれ、ノイズを取り去る処理を繰り返し実施し、完全にノイズを除去して高精度なイメージを生成する(下の写真)。

出典: Stability AI

オープンソース

Stable Diffusionはオープンソースとしてソフトウェアが公開されており、企業や個人はライセンスに従ってこれを無償で利用できる。オープンソースのライセンスは様々な方式があるが、Stable Diffusionは「Open RAIL M license」という方式を取る。このライセンスは、AIを研究開発で利用できるだけでなく、企業はモデルを改良し、それを製品として販売することができる。

利用制限を緩和

Stable Diffusionの特徴は、AIの危険性を認識するものの、その使用制限を大幅に緩和していることにある。OpenAIなどは著名人を生成することを禁止しているが、Stable Diffusionにはこの制限はなく、オバマ前大統領を描くことができる(先頭の写真右側)。

情報操作に悪用

Stable Diffusionはオープンソースとして公開され自由に利用できるため、悪意ある団体が危険なコンテンツを生成する可能性が高まる。例えば、「中国が開発している火星着陸モジュール」と指示すると、AIはもっともらしいイメージを生成する(下の写真左側)。「ロシア軍がキエフを支配下に収めた」と指示すると、ロシア軍が国旗を持って侵攻しているイメージが生成され(右側)、これらが情報操作で悪用される危険性をはらんでいる。

出典: VentureClef 

ポルノが量産される

Stable Diffusionは女性の水着のイメージを生成する。AIに「ビキニを着た綺麗な女性」と指示すると、写真撮影したような水着姿の女性をを生成する(下の写真左側)。また、「テイラー・スウィフトのビキニ姿」とすると、水着姿のスウィフトが海岸で立っている姿が生成される。更に、「女性のヌード」と入力すると、全裸の女性のリアルなイメージが生成される。ただし、Stable Diffusionは有害なイメージをフィルターしており、警告メッセージが出力される(右側)。しかし、実際には出力されないものの、Stable Diffusionは高品質なヌードイメージを生成する。ポルノはAIで作成される時代となった。

出典: VentureClef 

巨大テックの囲い込み

テキストからイメージを生成するAIは数多く開発されているが、それらはクローズドソースで、一般企業は利用することはできない。Googleの「Imagen」(下の写真)は社内に閉じて使われ、外部からシステムにアクセスすることはできない。また、OpenAIの「DALL·E」は有償でAPIを公開しているが、ソースコードにはアクセスできない。巨大テックはAIをクローズドソースとして囲い込み、社内に閉じて開発している。

出典: Google

AI開発の民主化

Stability AIがStable Diffusionをオープンソースとして公開した理由は、大学やコミュニティと共同でAIを開発することで、技術が大きく進展すると期待するからである。また、Stable Diffusionの制限を緩和し、AIの危険性が顕著になるが、ここでもコミュニティで安全な方式が生み出されると期待している。巨大テックはクローズドソースでAI技術を囲い込んでいるが、Stability AIはこれを公開しAI開発を民主的に進めている。

Nvidiaはリアルなデジタルヒューマンを生成するクラウドを公開、メタバースでアバターが人間に代わりアシスタントとして活躍する

Nvidiaは、今週、コンピュータグラフィックス学会「SIGGRAPH 2022」で、メタバースに関連する技術を発表した。公開された技術は、アバター技術、メタバース開発技術、AIグラフィック技術で、これらが3D仮想社会を生み出すプラットフォームとなる。SIGGRAPHはメタバースとの関連が深く、ここで3DグラフィックスやAIグラフィックスの最新技術が発表された。

出典: Nvidia

アバターを開発するクラウド

Nvidiaはメタバース関連技術の中で、アバターの開発を重点的に進め、最新モデル「Avatar Cloud Engine (ACE)」を発表した。ACEとはクラウドベースのAIモデルで、実物と見分けのつかない高精度なアバターやデジタルヒューマンを開発するための基盤となる。企業はACEを使い、リアルなアバターを生成し、メタバースにおいて人間に代わるアシスタントとして利用する。アバターはゲームや映画の中のキャラクターとして使われるだけでなく、銀行のテラーやホテルのレセプショニストとして活躍する。

アバターの機能

アバターは外観が人間そっくりであることに加え、高度な言語能力を備え、言葉でインタラクティブに応対する(上の写真)。人間が話しかけると、アバターはそれに返答し、両者間で会話が進む。アバターが話すときは、口がそれに同期して動き、顔の表情が変わる。また、英語だけでなく、日本語やフランス語(下の写真)など、多言語で会話できる。更に、アバターは会話のシチュエーションを理解し、それに応じた受け答えをする。

出典: Nvidia

アバターを生成する仕組み

Nvidiaはアバター生成の基礎技術として「Audio2Face」を開発した。これはオーディオを入力すると、ニューラルネットワークが3Dのアニメーションを生成する仕組みとなる(下のグラフィックス)。入力された言葉に従って、それを喋る3Dアバターが生成される。アバターはリアルタイムで生成されるため、人間と対話するモデルで使うことができる。

出典: Nvidia

感情の表現

SIGGRAPHではその最新モデルとして、感情を表現できるアバターが公開された。これは「Audio2Emotion」と呼ばれ、入力されるオーディオの感情を読み取り、ニューラルネットワークはそれに合わせたアバターを生成する。例えば、入力オーディオが「自分がどこにいるのか分からない!」という怒りを込めた言葉であると、AIは怒っている表情のアバターを生成する(下の写真、ビデオへのリンク)。

出典: Nvidia

アバターの利用方法

生成されるアバターは3D仮想社会で人間に代わり様々なタスクをこなす。Nvidiaはそのリファレンスモデルとして「Toy Jensen」を公開した。これはCEOであるJensen Huangをモデルにしたフィギュアで、難しい質問に回答する大学の先生として機能する(下の写真)。また、アバターはレストランのモニターで、顧客と対話しながらメニューを紹介する。更に、アバターは自動運転車に搭載され、コンシェルジュとして、ドライバーと対話しながら道案内をする。

出典: Nvidia

AIで構成されるアバター

ACEで生成されるアバターは、高精度な3Dレンダリングに加え、人間と自然な会話ができるよう、多彩なAIが組み込まれている。人間が話す言葉を理解し、アバターはそれに対する返答をリアルタイムで生成し、会話を続ける。また、AIはアバターの顔の表情や手の動きなど、アニメーションを生成する。具体的には、ACEが提供するAI機能は次の通り:

  • Riva:会話のためのAI
  • Metropolis:ビデオ解析のAI
  • Merlin:推奨エンジン
  • NeMo Megatron:大規模言語モデル
  • Omniverse:メタバースの開発環境

メタバース開発でリード

多くの企業がメタバースを開発しているが、高精度な3D仮想社会を生成する技法が、ビジネス成功のカギとなる。Nvidiaはこの開発環境を「Omniverse」として提供しており、メタバース開発で業界標準のツールとして認識されている。メタバースでは、利用者のデジタルツインであるアバターを介して交流が進み、如何に精巧なモデルを生成できるか、各社が競い合って技術開発を進めている。Nvidiaはアバター開発でも業界をリードしており、人間と見分けのつかない、精巧で知的なデジタルツインを生み出している。

AIアートが生成するイメージは創作か盗作か、著作物でアルゴリズムを教育することは合法か、テキストをイメージに変換する「DALL·E 2」が知的財産権の議論を引き起こす

OpenAIが開発した「DALL·E 2」は、言葉の指示に従ってイメージを生成するAIである。OpenAIは、先週、DALL·E 2の販売を開始することを発表し、企業や個人はこれを有償で使うことができる。この発表を契機に、DALL·E 2が生成するイメージの法的解釈に関する議論が始まった。DALL·E 2は、著名芸術家のタッチを踏襲し、人気キャラクターのイメージを生成するが、これらは著作権の侵害なのか、議論が白熱している。AIアートの法的な位置づけが問われている。 (下の写真、DALL·E 2が制作した葛飾北斎の富嶽三十六景の「神奈川沖浪裏」で、オリジナルの作品をズームアウトした構成となっている。)

出典: OpenAI

DALL·E 2の機能

DALL·E 2はイメージを生成するAIモデルで、テキストの指示に従って画像を出力する。例えば、人気アニメの「シンプソン(Homer Simpson)がビットコインの暴落に驚く様子」 (下の写真左側)や、人気ゲームの「マリオ(Marion)がピーチ(Princess Peach)と離婚手続きを進めているシーン」 (右側)など、DALL·E 2は架空の世界を高精度で描き出す。

出典: OpenAI

アルゴリズムの教育

DALL·E 2は、イメージとテキストの対で教育され、言葉と画像の関係を学習した。これらイメージとテキストはインターネットから収集し、この作業はスクレイピング(Scraping)と呼ばれる。OpenAIは、6億5000万対のイメージとテキストをスクレイピングし、これらを使ってDALL·E 2のアルゴリズムを教育した。暴力シーンなど有害なコンテンツは削除されているが、ここには商標や著作権で保護されているイメージが含まれている。

出典: OpenAI

(上の写真、DALL·E 2は、レオナルド・ダ・ヴィンチ(Leonardo da Vinci)が描いた「モナ・リザ(Mona Lisa)」(左側)とヨハネス・フェルメール(Johannes Vermeer)が制作した「真珠の耳飾りの少女(Girl with a Pearl Earring)」のオリジナル作品をズームアウトしたイメージを生成した。モナ・リザは湖を背景に立ち、少女は掃除中であることが分かる。)

OpenAIの著作権に関する見解

OpenAIは、商標や著作権で保護されているデータでDALL·E 2を教育したが、DALL·E 2が生成するイメージは著作権を侵害していない、とのポジションを取る。AIを著作物で教育することは「フェアユース(Fair Use)」であり、法律上許容される利用法であるとの見解を示している。フェアユースとは、著作物の一部を引用するケースで、DALL·E 2の教育はこれに当たるとしている。一方、DALL·E 2が著作物の複製を生成するなど、著作権を侵害するケースが発生した場合は、著作者と話し合うとのポジションを取っている。

出典: OpenAI

(上の写真、DALL·E 2が制作した映画キャラクター「ミニオンズ(Minions)」(左側)と「きかんしゃトーマス(Thomas & Friends)」のレントゲン写真(右側)。)

業界の解釈

米国では、商標や著作権で保護されているデータでニューラルネットワークを教育することは違法ではない、との解釈が一般的である。企業や大学は、インターネット上のテキストやイメージをダウンロードし、これでアルゴリズムを教育するが、開発されたAIが著作権を侵害しているとの判例や事例は無い。このため、商標や著作権で保護されているデータを使ったアルゴリズム教育が容認されている。

AI教育に関する議論

しかし、高度なAIが開発されるにつれ、この慣習の妥当性が議論されている。MicrosoftはプログラミングできるAI「Copilot」を開発した。Copilotは言語モデル「GPT-3」で構成され、GitHubに公開されているコードで教育された。エンジニアに代わりAIがプログラミングするため、生産性が上がり注目を集めている。しかし、Copilotは教育されたコードを出力し、著作権に関する議論が始まった。

出典: OpenAI

(上の写真、DALL·E 2は「古代エジプトの王妃がテキストメッセージを送信」しているシーンや、英国の人気キャラクター「くまのパディントン(Paddington Bear)が雨のプラットフォームに立っている」状況を描き出す。)

AI教育に関する裁判

米国では、AI教育データの利用はフェアユースに該当するとの解釈が一般的であるが、明確な判例があるわけでは無い。いまこの状況が変わろうとしている。リトアニアのソフトウェア企業Planner 5Dは、Metaなどを、著作権侵害で被害を受けたとして提訴した。MetaはPlanner 5Dが開発した3Dモデルを使ってAIを教育し、空間を移動しオブジェクトを認識できるアルゴリズムを開発した。この裁判は2023年3月から開始される予定で、AI教育データに関するフェアユースの解釈に、法的な判定が下されることになる。

著作者の保護

この議論の背景には、DALL·E 2は著作物で教育され、生成されたイメージがビジネスで使われ、クリエーターの職が脅かされることにある。著作物を無料で利用し、教育されたAIを有償で提供することに対する不合理性がある。AIアートだけでなく、AI言語モデルなどが含まれ、今まで曖昧になっていた慣習に光が当たることになる。