月別アーカイブ: 2022年8月

テキストをイメージに変換するAIが公開される、誰でもAIアートを生成できる時代が到来、同時にAIでポルノが大量生産され危険性が広がる

新興企業Stability AIは、言葉の指示に従ってイメージを生成するAI「Stable Diffusion」を開発した。描きたい内容をテキストで入力すると、Stable Diffusionはそれに沿った画像を生成する。Stability AIはこのAIをオープンソースとして公開し、企業や個人はこのシステムを利用し、AIアートを生成できるようになった。多彩なAIアートが生成されると期待されるが、同時に、ヌードイメージなど危険なコンテンツが大量生産されると懸念されている。

出典: Stability AI

Stable Diffusionとは

Stable Diffusionはイメージを生成するAIモデルで、テキストの指示に従ってイメージを出力する。例えば、「人類が温暖化問題を解決した後に訪れる未来都市」と指示すると、Stable Diffusionはその命令に従った画像を生成する(上の写真左側)。また、Stable Diffusionはオバマ前大統領の横顔を写真撮影したように生成する(右側)。イメージを生成するAIはOpenAIが開発した「DALL·E」が有名であるが、Stable Diffusionはこれを追随し高品質な画像を生成する。

使ってみると

実際にStable Diffusionを使ってみると、AIはテキストに従って高品質なイメージを生成する。「雪化粧したゴールデンゲートブリッジ」と指示すると、AIは写真撮影したような画像を生み出す。「ゴッホのスタイルで描いたゴールデンゲートブリッジ」と指示すると、油絵のタッチでイメージを生成する。生成されるイメージは高品質でビジネスで活用できるレベルに達している。

出典: VentureClef

AIの開発と教育

この技術はStability AIが、ルートヴィヒ・マクシミリアン大学ミュンヘン(Ludwig Maximilian University of Munich)などの研究機関と共同で開発した。Stable Diffusionは同大学が開発したモデル(Latent Diffusion Models)をベースに開発された。Stable Diffusionはイメージ・データセット「LAION」を使って教育された。このデータセットにはインターネットからダウンロードしたイメージとその説明が格納されている(下の写真、猫の事例)。Stable Diffusionは、イメージとその意味を学習し、指示された言葉に従って画像を生成する。

出典: LAION

イメージ生成手法

Diffusionとは、教育されたアルゴリズムが指示に従ってイメージを生成する手法を指す。Diffusionとは「拡散」を意味し、イメージをノイズに拡散するプロセスとなる。イメージを生成する際はこの逆のプロセスを辿り、ノイズからイメージを生成する手法となる。これは「Denoising Process」と呼ばれ、ノイズを取り去る処理を繰り返し実施し、完全にノイズを除去して高精度なイメージを生成する(下の写真)。

出典: Stability AI

オープンソース

Stable Diffusionはオープンソースとしてソフトウェアが公開されており、企業や個人はライセンスに従ってこれを無償で利用できる。オープンソースのライセンスは様々な方式があるが、Stable Diffusionは「Open RAIL M license」という方式を取る。このライセンスは、AIを研究開発で利用できるだけでなく、企業はモデルを改良し、それを製品として販売することができる。

利用制限を緩和

Stable Diffusionの特徴は、AIの危険性を認識するものの、その使用制限を大幅に緩和していることにある。OpenAIなどは著名人を生成することを禁止しているが、Stable Diffusionにはこの制限はなく、オバマ前大統領を描くことができる(先頭の写真右側)。

情報操作に悪用

Stable Diffusionはオープンソースとして公開され自由に利用できるため、悪意ある団体が危険なコンテンツを生成する可能性が高まる。例えば、「中国が開発している火星着陸モジュール」と指示すると、AIはもっともらしいイメージを生成する(下の写真左側)。「ロシア軍がキエフを支配下に収めた」と指示すると、ロシア軍が国旗を持って侵攻しているイメージが生成され(右側)、これらが情報操作で悪用される危険性をはらんでいる。

出典: VentureClef

ポルノが量産される

Stable Diffusionは女性の水着のイメージを生成する。AIに「ビキニを着た綺麗な女性」と指示すると、写真撮影したような水着姿の女性をを生成する(下の写真左側)。また、「テイラー・スウィフトのビキニ姿」とすると、水着姿のスウィフトが海岸で立っている姿が生成される。更に、「女性のヌード」と入力すると、全裸の女性のリアルなイメージが生成される。ただし、Stable Diffusionは有害なイメージをフィルターしており、警告メッセージが出力される(右側)。しかし、実際には出力されないものの、Stable Diffusionは高品質なヌードイメージを生成する。ポルノはAIで作成される時代となった。

出典: VentureClef

巨大テックの囲い込み

テキストからイメージを生成するAIは数多く開発されているが、それらはクローズドソースで、一般企業は利用することはできない。Googleの「Imagen」(下の写真)は社内に閉じて使われ、外部からシステムにアクセスすることはできない。また、OpenAIの「DALL·E」は有償でAPIを公開しているが、ソースコードにはアクセスできない。巨大テックはAIをクローズドソースとして囲い込み、社内に閉じて開発している。

出典: Google

AI開発の民主化

Stability AIがStable Diffusionをオープンソースとして公開した理由は、大学やコミュニティと共同でAIを開発することで、技術が大きく進展すると期待するからである。また、Stable Diffusionの制限を緩和し、AIの危険性が顕著になるが、ここでもコミュニティで安全な方式が生み出されると期待している。巨大テックはクローズドソースでAI技術を囲い込んでいるが、Stability AIはこれを公開しAI開発を民主的に進めている。

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を３D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。

Nvidiaはリアルなデジタルヒューマンを生成するクラウドを公開、メタバースでアバターが人間に代わりアシスタントとして活躍する

Nvidiaは、今週、コンピュータグラフィックス学会「SIGGRAPH 2022」で、メタバースに関連する技術を発表した。公開された技術は、アバター技術、メタバース開発技術、AIグラフィック技術で、これらが３D仮想社会を生み出すプラットフォームとなる。SIGGRAPHはメタバースとの関連が深く、ここで３DグラフィックスやAIグラフィックスの最新技術が発表された。

出典: Nvidia

アバターを開発するクラウド

Nvidiaはメタバース関連技術の中で、アバターの開発を重点的に進め、最新モデル「Avatar Cloud Engine (ACE)」を発表した。ACEとはクラウドベースのAIモデルで、実物と見分けのつかない高精度なアバターやデジタルヒューマンを開発するための基盤となる。企業はACEを使い、リアルなアバターを生成し、メタバースにおいて人間に代わるアシスタントとして利用する。アバターはゲームや映画の中のキャラクターとして使われるだけでなく、銀行のテラーやホテルのレセプショニストとして活躍する。

アバターの機能

アバターは外観が人間そっくりであることに加え、高度な言語能力を備え、言葉でインタラクティブに応対する(上の写真)。人間が話しかけると、アバターはそれに返答し、両者間で会話が進む。アバターが話すときは、口がそれに同期して動き、顔の表情が変わる。また、英語だけでなく、日本語やフランス語(下の写真)など、多言語で会話できる。更に、アバターは会話のシチュエーションを理解し、それに応じた受け答えをする。

出典: Nvidia

アバターを生成する仕組み

Nvidiaはアバター生成の基礎技術として「Audio2Face」を開発した。これはオーディオを入力すると、ニューラルネットワークが３Dのアニメーションを生成する仕組みとなる(下のグラフィックス)。入力された言葉に従って、それを喋る３Dアバターが生成される。アバターはリアルタイムで生成されるため、人間と対話するモデルで使うことができる。

出典: Nvidia

感情の表現

SIGGRAPHではその最新モデルとして、感情を表現できるアバターが公開された。これは「Audio2Emotion」と呼ばれ、入力されるオーディオの感情を読み取り、ニューラルネットワークはそれに合わせたアバターを生成する。例えば、入力オーディオが「自分がどこにいるのか分からない！」という怒りを込めた言葉であると、AIは怒っている表情のアバターを生成する(下の写真、ビデオへのリンク)。

出典: Nvidia

アバターの利用方法

生成されるアバターは３D仮想社会で人間に代わり様々なタスクをこなす。Nvidiaはそのリファレンスモデルとして「Toy Jensen」を公開した。これはCEOであるJensen Huangをモデルにしたフィギュアで、難しい質問に回答する大学の先生として機能する(下の写真)。また、アバターはレストランのモニターで、顧客と対話しながらメニューを紹介する。更に、アバターは自動運転車に搭載され、コンシェルジュとして、ドライバーと対話しながら道案内をする。

出典: Nvidia

AIで構成されるアバター

ACEで生成されるアバターは、高精度な３Dレンダリングに加え、人間と自然な会話ができるよう、多彩なAIが組み込まれている。人間が話す言葉を理解し、アバターはそれに対する返答をリアルタイムで生成し、会話を続ける。また、AIはアバターの顔の表情や手の動きなど、アニメーションを生成する。具体的には、ACEが提供するAI機能は次の通り：

Riva：会話のためのAI
Metropolis：ビデオ解析のAI
Merlin：推奨エンジン
NeMo Megatron：大規模言語モデル
Omniverse：メタバースの開発環境

メタバース開発でリード

多くの企業がメタバースを開発しているが、高精度な３D仮想社会を生成する技法が、ビジネス成功のカギとなる。Nvidiaはこの開発環境を「Omniverse」として提供しており、メタバース開発で業界標準のツールとして認識されている。メタバースでは、利用者のデジタルツインであるアバターを介して交流が進み、如何に精巧なモデルを生成できるか、各社が競い合って技術開発を進めている。Nvidiaはアバター開発でも業界をリードしており、人間と見分けのつかない、精巧で知的なデジタルツインを生み出している。

メタバースでデートする、仮想空間で恋人を探し現実社会で交際を始める

メタバースでデートして交際相手を探すライフスタイルが始まろうとしている。メタバースはネット上に構築された３D仮想空間で、次世代のインターネットとして開発が進んでいる。メタバースで様々なモデルが試されているが、仮想空間でデートするプラットフォームとして注目されている。アバターを介してデートして(下の写真)、お互いに気に入れば、現実社会で交際を始める。メタバースが、男女間や同性間の仲立ちになるのか、トライアルが始まった。

出典: Flirtual

Flirtualという企業

この技術を開発しているのはカナダ・トロント郊外に拠点を置くFlirtualという新興企業で、メタバースでデートするアプリを提供している。Flirtualはメタバース向けの“デートアプリ”で、相性の良い相手を探し、その人とVR空間でデートする場を提供する。VRヘッドセットを着装し、３D仮想空間で自分のアバターを介し、相手のアバターと交流する。

アプリの機能

まず、アプリにアバターとプロフィールを登録し、自分と相性の良い相手を検索する。アバターはアニメのキャラクターから選び、プロフィールには、名前や年齢や性別を登録し、自己紹介などを書き込む。また、趣味やパーソナリティを記入し、これらがマッチングする相手を探すキーワードとなる。相手が見つかると、その人とテキストメッセージで会話して、デートする場所や時間などを決める。(下の写真、Flirtualのインターフェイス)

出典: Flirtual

VR仮想空間でのデート

デートはVR仮想空間で行われ、VRヘッドセットを着装し、相手のアバターと会話しながら交流を進める。デートする場所が用意されており、シチュエーションに合わせて最適な場所を選ぶ。安心してデートできるよう、公園や水族館やカフェなどを選択できる。また二人で楽しめるように、ビリヤードやミニゴルフなどでプレーできる。また、二人で仮想の草に触ることもできる(下の写真)。

出典: OpenAI

アバター

二人はアバターを介してデートするため、相手の容姿を見ることができない。デジタルツイン同士で交流することになり、自分の素顔を見られず、安心してデートできる(下の写真)。交際が進むと、相手にタッチすることもできる。これは「Phantom Touch」と呼ばれ、相手のアバターにタッチすることで、触覚のフィードバックは無いが、親愛の情を表現できる。VR空間で気が合えば、お互いの素性を明らかにし、現実社会での交際に進むことになる。

出典: Flirtual

VR空間での交流アプリ

VR空間における人の交流はメタバースの中心機能で、多くのアプリが開発されている。ビジネス向けにはMicrosoftが３Dアバターによるビデオ会議「Mesh」を運用している。また、Metaはメタバース会議環境「Horizon Workrooms」を開発している。プライベートな交流では「VRChat」が事実上の標準ツールとなっている。VRChatはサンフランシスコに拠点を置く新興企業で、VR空間で交流するための環境を提供している。ここでイベントなどが開催され、アバターを介して多くの知人と交流する(下の写真)。

出典: VRChatChat

新しいライフスタイル

これらVR交流アプリに対し、Flirtualはデート専用のプラットフォームで、交際するための機能が充実している。ポストコロナのワークスタイルが遠隔勤務に向かっているように、人の交流もオンラインになり、VR空間で交際するライフスタイルが広がろうとしている。メタバースの技術開発が進むにつれ、デートアプリの重要性に注目が集まり、多くの企業が製品開発を進めている。

Emerging Technology Review

シリコンバレーからの最新技術レポート

月別アーカイブ: 2022年8月

テキストをイメージに変換するAIが公開される、誰でもAIアートを生成できる時代が到来、同時にAIでポルノが大量生産され危険性が広がる

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Nvidiaはリアルなデジタルヒューマンを生成するクラウドを公開、メタバースでアバターが人間に代わりアシスタントとして活躍する

メタバースでデートする、仮想空間で恋人を探し現実社会で交際を始める