カテゴリー別アーカイブ: AR/VR/MR

MetaはAIで本人そっくりのアバターを生成する技法を開発、また「アバター・ストアー」を開設しアバター向けに高級ブランド品を販売

MetaはリアリスティックなアバターをAIで生成する技法を公開した。スマホカメラで撮影した画像をもとに、AIが写真のようにリアルな3Dモデルを生成する。また、Metaは「アバター・ストアー」を開設することを発表し、アバター向けのファッションアイテムを販売する(下の写真)。ここには有名ブランドの衣料品が揃っており、メタバースでお洒落を楽しむことができる。

出典: Eva Chen

Metaのアバター開発の歴史

Metaは、早くから、VR向けに3Dアバターの開発を進めてきた。このアバターは「Codec Avatars」と呼ばれる種類で、人間の顔の形状や表面の質感を忠実に再現し、リアリスティックな3Dモデルとなる。特殊なカメラ「MUGSY」を使い(下の写真左側)、被写体の顔を異なる方向から撮影し(右側)、これらを合成して3Dモデルを生成する。MUGSYは171台のカメラから構成され、被写体を異なる方向から撮影する。

出典: Chen Cao et al.

スマホでアバターを制作

先月、MetaのAI研究所である「Reality Labs」は、スマホでリアリスティックな3Dアバターを制作する技法を公開した。特殊カメラを使う必要はなく、iPhoneで顔を撮影し(下の写真左側)、このデータを元にAIが、高精度な3Dモデルを生成する(右端)。今まではスタジオで特殊カメラを使ってアバターを制作していたが、スマホで手軽に高精度な3Dモデルを生成できるようになった。

出典: Chen Cao et al. 

AIモデルの概要

AIでアバターを生成するが、その手順は次のようになる。最初に、ベースモデル「Universal Prior Model」を生成する(下のグラフィックス、左側)。ベースモデルの生成では、多数の顔写真を教育データとし、アルゴリズムは顔の構造とその表情を学習する。具体的には、上述の専用カメラMUGSYを使い、255人の顔を25方向から撮影し、その際に、被写体は65の表情を造る。これらの顔写真から、アルゴリズムは人間の顔の構造とその表情を学習する。

出典: Chen Cao et al. 

AIモデルでアバターを生成

次に、このベースモデルを使って、利用者のアバターを生成する。スマホカメラを使い、顔を異なる方向から撮影し、これをベースモデルに入力する(上のグラフィックス、中央)。アルゴリズムは顔の構造とその表情を学習しており、数枚の顔写真から高精度な3Dアバターを生成する。更に、スマホカメラで異なる表情の顔写真を撮影すると、アバターの品質を大きく向上させることができる(上のグラフィックス、右側)。

印象型アバター

Zuckerbergは、これに先立ち、二種類のアバターを開発していることを明らかにした。これらは、「印象型アバター(Expressionist Avatar)」と「現実型アバター(Realistic Avatar)」と呼ばれる。前者はアバターをアニメのキャラクターとして生成する方式で、利用者の顔の表情をグラフィカルに再現する。既に、VRゲームやオンライン会議(下の写真)などで使われている。

出典: Meta

現実型アバター

現実型アバターは、利用者の顔をビデオ撮影したように、リアリスティックに生成する。これは特殊カメラを使って生成されてきたが、上述の手法を使うと、iPhoneカメラで誰でも手軽に作れるようになった。(下の写真、左端は入力した写真で、その他は生成されたアバター。中央はアバターの深度を表示)。但し、メガネをかけたアバターを高精度で生成できないなど、制限事項があり、完成までにはもう少し時間を要す。

出典: Meta

アバター・ストアーを開設

今週、MetaのCEOであるMark Zuckerbergは、「アバター・ストアー(Avatars Store)」を開設することを発表した。アバター・ストアーとはアバター向けのファッションハウスで、ここで洋服を買って、自分のアバターに着せる(下の写真)。FacebookとInstagramとMessengerで、プロフィール写真の代わりに、3Dアバターを使うことができ、ストアーで洋服を買って華やかなアバターを生成する。また、メタバースでは、本人に代わりアバターでお洒落を楽しむことができる。アバター・ストアーのモデルはMark Zuckerbergとファッション担当のEva Chenが務めている。

出典: Meta

三つの高級ブランド

アバター・ストアーは有名ブランドのファッションアイテムを販売する。これを買って自分のアバターに着せ、メタバースでお洒落な生活を楽しむ。三つの高級ブランド、「バレンシアガ(Balenciaga)」、「プラダ(Prada)」、「トムブラウン(Thom Browne)」が公開された。

  • バレンシアガはフランス・パリに拠点を置くファッションハウスで、規格にとらわれず、常に先進的なファッションを生みだしてきた。個人にフィットしたファッションデザインである、オートクチュール(haute couture)というコンセプトを生み出したことで有名。アバター・ストアーでは、モトクロス・レザー(motocross leather)スタイルを公開した(上の写真左端)。
  • プラダはイタリア・ミラノに拠点を置く高級ファッションブランドで、ハンドバッグやシューズを販売する。ファッションでは既製品であるプレタポルテ(prêt-à-porter)を専門とする。アバター・ストアーでは、スポーツ・ファッションブランド「Linea Rossa」を公開(上の写真左から三番目)。Zuckerbergは「上から下までプラダを着るのは勇気がいるが、メタバースならこれができそう」と述べている。
  • トムブラウンはアメリカ・ニューヨークに拠点を置くファッションブランドで、スポーティなブレザーなどを販売する。アバター・ストアーでは、四本のストライプが入ったジャケットを公開(上の写真右から二番目)。Zuckerbergは、「実社会でジャケットを着ることはないが、メタバースではトムブランを選ぶ」としている。

MetaはマルチタスクAIを開発、単一のアルゴリズムがイメージとテキストとボイスを理解する、メタバース開発のブレークスルーとなるか

MetaのCEOであるMark Zuckerbergは、メタバースを生成するためのAIについて明らかにした。メタバースは、イメージやテキストやボイスなど、マルチメディアで構成される仮想空間で、これらがAIにより生成される。異なる媒体を処理するためには、異なるAIが使われるが、Metaはこれを統合し、単一のAIがイメージやテキストやボイスを処理できるモデルを開発している。これは「Unified Model(統合モデル)」と呼ばれ、アルゴリズムがマルチメディアの世界を理解し、3D仮想社会をリアルに生成する。

出典: Meta

Unified Modelとは

Unified Modelとは、AIの異なるモードを統合した単一のAIモデルを指す。このAIは「Data2Vec」と命名され、イメージやテキストやボイスなど、異なる媒体のデータを処理することができる。現在は、媒体が異なると、それぞれ専用のAIモデルを使う。例えば、イメージを処理するためには「NASNet」など画像処理専用のアルゴリズムを使う。また、テキストの解析であれな「GPT-3」など、自然言語解析のアルゴリズムを使う。これに対し、Unified Modelは、単一のアルゴリズム「Data2Vec」が、イメージやテキストやボイスを処理する機能を持ち、統合型のモデルとなる。

Unified Modelの仕組み

Data2Vecは「Transformer」をベースとするニューラルネットワークで、「教師モード(Teacher Mode)」と「生徒モード(Student Mode)」の二つのモードで構成される(下の写真)。教師モードは先生で、生徒モードである生徒にスキルを伝授する。まず、教師モードは入力データ(写真、音声、文字)を学習し、その結果(Latent Representations)を得る(上段)。次に、生徒モードは、一部が欠けているデータを読み込み、その処理を実行し、それが何であるかを判定する(下段)。生徒モードの処理結果と教師モードの処理結果を比較し、生徒は先生が示す手本に近づくようスキルを磨く。

出典: Meta

データをマスクして教育

生徒モードの教育では、入力データとして一部がマスクされているデータを使う。生徒モードのアルゴリズムは、このマスクされたデータから、オリジナルのデータを推測する。例えば、写真であれば、イメージの一部がマスクされたものを使い(下の写真左側)、ここから元の写真のイメージを推測する(中央)。正解のイメージ(右端)と比較して、生徒モードのアルゴリズムは精度を上げていく。同様に、スピーチやテキストでも、データの一部がマスクされ、生徒モードのアルゴリズムは、欠けている部分を推測することで判定精度を向上する。

出典: Meta

Self-Supervised Learning

これは「Self-Supervised Learning」という学習方法で、AIが人間の介在無しに自分で学習し、スキルを習得する。MetaはSelf-Supervised Learning をAI開発の基本戦略とし、インテリジェントなAIを開発している。一般には、「Supervised Learning」という学習モデルを使ってAIが開発されている。Supervised Learningとは、人間がアルゴリズム教育のためのデータ(タグ付きデータ)を用意し、これを使ってAIを開発する方式を指す。これに対し、Self-Supervised Learningは、タグ付きの教育データを用意する必要はなく、アルゴリズムが人間の介在なく、独自で学習する。このため、大量のデータを教育データとして使うことができ、大規模なアルゴリズムの開発が可能となる。MetaはSelf-Supervised Learningが、インテリジェンスを得るための手法として、この方式のAI開発を重点的に進めている。

出典: Meta

リアルな仮想社会

Metaはメタバースのコンセプトを発表したが、Unified Modelがこれを支えるプラットフォームとなる。Metaは、メタバースで遠隔地の友人とフェンシングをするイメージをを公開した(上の写真)。ARグラスと触覚技術を着装すると、目の前に遠隔地の対戦者が描写され(左側の人物)、剣が触れ合う感触が、リアルに生成される。これは、マルチメディアに触覚情報を加えたもので、剣で仮想の相手を突いた時の感触が再生される。メージとテキストとボイスの次はセンシングデータで、Unified Modelがこれらのメディアを理解し、リアルな仮想社会を描き出す。

メタバースでは詐欺が多発する!!犯罪者のデジタルツインが消費者の資産を盗む、仮想社会のセキュリティをどう保障するか

メタバースでは詐欺や犯罪が多発すると懸念されている。メタバースは現実社会をインターネット上に3D仮想社会として構築したもので、実社会と同様に、この空間でフィッシング詐欺などの犯罪が多発すると懸念されている。犯罪者のアバターが消費者のアバターに接触し、パスワードやデジタル資産を盗む。アバターを使うと、現実社会より簡単に人を騙すことができ、被害が広がると懸念されている。

出典: Citi

Microsoftの警告

Microsoftはメタバースの開発を進めているが、3D仮想社会では新たな詐欺行為が起こり、セキュリティ対策を強化すべきと警告している。メタバースではヘッドセットを着装し、仮想空間のアバターと交流する。犯罪者は自身のアバターを作り、消費者のアバターに接触し、詐欺行為に及ぶ。現実社会と同じ手口であるが、メタバースでは簡単に他人になりすまし、様々なパーソナリティを生成でき、深刻な被害が発生すると懸念されている。

ソーシャルエンジニアリング

メタバースでは色々な犯罪が発生すると指摘されるが、特に、フィッシングと詐欺に警戒する必要がある。これらはソーシャルエンジニアリングと呼ばれる手法を使い、人間の心理的な隙や、行動のミスにつけ込み、個人が持つ秘密情報を入手する。現在では、Eメールが媒体として使われ、顧客を装ってお金を送金させるなどの犯罪が発生している。また、本物そっくりのフィッシングサイトに誘導し、ここで相手のIDとパスワードを盗む犯罪も多発している。

メタバースでのフィッシング

メタバースでは、Eメールの代わりに、3D仮想社会が犯罪の場となる。例えば、犯罪者は銀行員になりすまし、顧客を仮想社会の銀行店舗に案内する。仮想の銀行ロビーで、顧客のIDやパスワードなど、個人情報を盗み出す。既に、大手銀行はメタバースに出店しており、これらの店舗が犯罪で使われる危険性をはらんでいる。事実、米国の大手銀行JP MorganはメタバースDecentralandに仮想銀行「Onyx」を出店し、営業を開始している(下の写真)。

出典: Decentraland

メタバースでの詐欺行為

また、メタバースでは犯罪者が身近の人物になりすませ、詐欺行為を実行することが予想される。犯罪者は著名人になりすませ、消費者に接触し、特定のアクションを取るよう促す。例えば、犯罪者は会社のCEOになりすまし、社員に送金などの業務を指示する。CEOになりすましたアバターは、会議室で社員のアバターと打ち合わせ、CEOの銀行口座に送金するよう指示する。現在は、Eメールを介して犯罪が行われるが、メタバースではアバター同士の会話で進み、被害にあう危険性が高くなると懸念されている。

メタバースでの広告とセールス

メタバースでは広告の形態が大きく変わり、AIエージェントがセールスマンとなり、商品を販売する。AIエージェントとは、人間の代わりにAIで構成するデジタルツインで、アバターとして生成される。AIエージェントが仮想社会で、消費者のアバターと対話し、商品やサービスを販売する。AIエージェントは、消費者の嗜好を把握し、好むであろう商品を提案する。また、AIエージェントは、消費者の表情や声音から感情を読み取り、巧妙にセールスを展開する。メタバースではAIエージェントが広告やセールスの主流となり、今以上に個人情報の保護が求められる。

AIが生成するアバター

メタバースにおいては、アバターは人間だけでなく、AIが生成することになる。AIがリアルなアバターを生成し、実物と見分けがつかないだけでなく、消費者に好まれる特性を備える。つまり、AIは実物の人間よりも信頼されるアバターを生成できることを意味する。これを裏付ける研究がカリフォルニア大学バークレー校から発表された。AIで生成した顔写真は、実在の人物の顔写真より信頼感を得ることが明らかになった。(下の写真:顔写真の数字は信頼の指標で、大きいほど信頼感が高い。また、Rは実在する人物で、SはAIが生成したイメージ。AIで生成したイメージが実在の人物より信頼されている。) メタバースでは、犯罪者がアバターをAIで生成し、これを悪用し、重大な犯罪行為に繋がる可能性があることを示している。

出典: Sophie J. Nightingale et al.

セキュリティ対策

メタバースでビジネスが生まれつつあるが、運営企業と利用者は、仮想社会はいま以上に危険な場所であることを認識することが最初のステップとなる。これらの問題に対処するには、メタバースのセキュリティを強化する必要がある。インターネットでは、パスワードや二要素認証が標準的な認証方式となっている。メタバースではこれらに依存しない、生体認証などが候補となる。ヘッドセットなどのウェアラブルを着装する際に、生体認証実行するなどの方策が検討されている。また、メタバースでは、異なる仮想社会との互換性も求められる。例えば、Metaが開発するメタバースで認証受けると、Microsoftのメタバースを利用できるなど、異なるメタバースを統合的に管理する技術が必要となる。

Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠

Metaはメタバース向けに高度なAIを開発していることを明らかにした。メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。AIがこれらを理解し、リアルな仮想空間を生成する。

出典: Meta

言葉で仮想社会を生成

Metaは音声でイメージを生成する技術「Builder Bot」を開発している。話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。この機能はメタバースで仮想空間を生成するための基礎技術となる。また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。

出典: Meta

125の言語を同時通訳

Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。Metaは翻訳する言語の数を一気に125に拡張した。言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。これによりメタバースでは世界の国境がなくなる。

出典: Meta

高度な会話型AI

Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)

出典: Meta

ARグラス向けコンピュータビジョン

Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。

出典: Meta

センサーのデータを解析

メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。

出典: Meta

AI開発はメタバースにシフト

MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。

Nvidiaは2D写真をAIで繋げ3Dモデルを高速で生成する技法を開発、メタバースやアバターの生成に適用

Nvidiaは開発者会議「GTC 2022」をオンラインで開催した。分科会でAI研究の最新成果として、3Dモデルを高速で生成する技法を発表した。これは「Instant NeRF」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3D世界を構築する技法である。オブジェクトや人の3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Nvidia

3Dモデルを生成する技術

撮影した写真を張り合わせ、被写体の3Dモデルを生成する技術は数多く存在し、ビジネスなどで利用されている。一般に、3Dモデルを生成するためには、奥行きを計測できるカメラ「Depth Camera」を使い、被写体を撮影し、それを立体的に張り合わせ、3Dモデルを生成する。また、自動運転車はLidarを使って道路や市街地の3Dモデルを作成し、この3Dマップに従って安全に走行する。

NeRFという技法

これに対し、Neural Radiance Fields(NeRF)は、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する。2D写真をAIで3Dに再構築するため、簡単に立体モデルを生成でき、それを柔軟に操作できる。具体的には、カメラで被写体を異なる位置から撮影し(下の写真)、撮影された写真をニューラルネットワークに入力し、被写体を3Dで描写する(先頭の写真)。3Dモデルが完成すると、被写体の周囲を自由に移動でき、異なるアングルから見ることができる。Nvidiaは高速でNeRFを生成する技術「Instant NeRF」を開発し、そのビデオを公開している。(ビデオへのリンク)。

出典: Nvidia

NeRFのコンセプト

NeRFを使うとオブジェクトを簡単に3D化することができる。例えば、レゴで組み立てたブルドーザーを異なるアングルから撮影し、それをNeRFで処理すると、その3Dモデルが生成される(下の写真)。スマホカメラで写真を撮ると2DイメージがJPEGに圧縮されるように、複数の写真をNeRFで圧縮すると、3Dモデルが生成される。NeRFは「3Dカメラ」の基礎技術と位置付けられる。

出典: Nvidia

NeRFの利用方法

NeRFの利用法は様々であるが、メタバースの基礎技術として注目されている。Nvidiaはオブジェクトや人のデジタルツインを生成し、メタバースでそれをシミュレーションする手法を取る。その際に、オブジェクトの3DモデルをNeRFで生成する。また人のデジタルツインとなるアバターをNeRFで生成する。(下の写真、Instant NeRFで生成された制御室、3Dモデルの解像度は高く、また、ケーブルの陰になっている部分も正確に描写されている。)

出典: Nvidia

NeRFの仕組み

NeRFは異なるアングルから撮影した写真を入力とし、それらを色と形状に変換するニューラルネットワークとなる(下のグラフィックス)。実際には、写真を撮影した位置(Position、(x, y, z))と視線(View Angle、(θ, Φ))を入力し、ニューラルネットワークは色(RGB)と密度(Density、σ)を出力する。ニューラルネットワークを複数の写真で教育し、完成したNeRFに見る方向を入力すると、そのイメージを出力する。つまり、オブジェクトを周囲から見渡せるようになる。

出典: Nvidia

Instant NeRF

NvidiaはNeRFの高速版である「Instant NeRF」を開発した。入力するデータを前処理することで、従来のNeRFに比べ1,000倍高速で処理できる。例えば、オブジェクトを撮影した写真40枚程度でニューラルネットワークを教育すると、その処理時間は数秒程度となる。また、完成したInstant NeRFで3Dイメージを生成するにはミリセカンドで実行できる。ほぼリアルタイムで3Dモデルを生成できるようになり、応用分野が大きく広がると期待される。(下の写真、レゴのブルドーザーの写真でInstant NeRFを教育し3Dモデルを生成。)

出典: Nvidia

Dモデルの普及

Nvidiaによると、75年前にポラロイドカメラ(Polaroid Camera)が開発され、3Dモデルを瞬時に2Dの写真に変換することに成功した。Instant NeRFは逆のプロセスで、2Dの写真から瞬時に3Dモデルを生成する。ポラロイドカメラが写真が普及する礎を築いたように、NeRFにより3Dモデルが普及すると期待されている。