カテゴリー別アーカイブ: Facebook

MetaはマルチタスクAIを開発、単一のアルゴリズムがイメージとテキストとボイスを理解する、メタバース開発のブレークスルーとなるか

MetaのCEOであるMark Zuckerbergは、メタバースを生成するためのAIについて明らかにした。メタバースは、イメージやテキストやボイスなど、マルチメディアで構成される仮想空間で、これらがAIにより生成される。異なる媒体を処理するためには、異なるAIが使われるが、Metaはこれを統合し、単一のAIがイメージやテキストやボイスを処理できるモデルを開発している。これは「Unified Model(統合モデル)」と呼ばれ、アルゴリズムがマルチメディアの世界を理解し、3D仮想社会をリアルに生成する。

出典: Meta

Unified Modelとは

Unified Modelとは、AIの異なるモードを統合した単一のAIモデルを指す。このAIは「Data2Vec」と命名され、イメージやテキストやボイスなど、異なる媒体のデータを処理することができる。現在は、媒体が異なると、それぞれ専用のAIモデルを使う。例えば、イメージを処理するためには「NASNet」など画像処理専用のアルゴリズムを使う。また、テキストの解析であれな「GPT-3」など、自然言語解析のアルゴリズムを使う。これに対し、Unified Modelは、単一のアルゴリズム「Data2Vec」が、イメージやテキストやボイスを処理する機能を持ち、統合型のモデルとなる。

Unified Modelの仕組み

Data2Vecは「Transformer」をベースとするニューラルネットワークで、「教師モード(Teacher Mode)」と「生徒モード(Student Mode)」の二つのモードで構成される(下の写真)。教師モードは先生で、生徒モードである生徒にスキルを伝授する。まず、教師モードは入力データ(写真、音声、文字)を学習し、その結果(Latent Representations)を得る(上段)。次に、生徒モードは、一部が欠けているデータを読み込み、その処理を実行し、それが何であるかを判定する(下段)。生徒モードの処理結果と教師モードの処理結果を比較し、生徒は先生が示す手本に近づくようスキルを磨く。

出典: Meta

データをマスクして教育

生徒モードの教育では、入力データとして一部がマスクされているデータを使う。生徒モードのアルゴリズムは、このマスクされたデータから、オリジナルのデータを推測する。例えば、写真であれば、イメージの一部がマスクされたものを使い(下の写真左側)、ここから元の写真のイメージを推測する(中央)。正解のイメージ(右端)と比較して、生徒モードのアルゴリズムは精度を上げていく。同様に、スピーチやテキストでも、データの一部がマスクされ、生徒モードのアルゴリズムは、欠けている部分を推測することで判定精度を向上する。

出典: Meta

Self-Supervised Learning

これは「Self-Supervised Learning」という学習方法で、AIが人間の介在無しに自分で学習し、スキルを習得する。MetaはSelf-Supervised Learning をAI開発の基本戦略とし、インテリジェントなAIを開発している。一般には、「Supervised Learning」という学習モデルを使ってAIが開発されている。Supervised Learningとは、人間がアルゴリズム教育のためのデータ(タグ付きデータ)を用意し、これを使ってAIを開発する方式を指す。これに対し、Self-Supervised Learningは、タグ付きの教育データを用意する必要はなく、アルゴリズムが人間の介在なく、独自で学習する。このため、大量のデータを教育データとして使うことができ、大規模なアルゴリズムの開発が可能となる。MetaはSelf-Supervised Learningが、インテリジェンスを得るための手法として、この方式のAI開発を重点的に進めている。

出典: Meta

リアルな仮想社会

Metaはメタバースのコンセプトを発表したが、Unified Modelがこれを支えるプラットフォームとなる。Metaは、メタバースで遠隔地の友人とフェンシングをするイメージをを公開した(上の写真)。ARグラスと触覚技術を着装すると、目の前に遠隔地の対戦者が描写され(左側の人物)、剣が触れ合う感触が、リアルに生成される。これは、マルチメディアに触覚情報を加えたもので、剣で仮想の相手を突いた時の感触が再生される。メージとテキストとボイスの次はセンシングデータで、Unified Modelがこれらのメディアを理解し、リアルな仮想社会を描き出す。

Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠

Metaはメタバース向けに高度なAIを開発していることを明らかにした。メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。AIがこれらを理解し、リアルな仮想空間を生成する。

出典: Meta

言葉で仮想社会を生成

Metaは音声でイメージを生成する技術「Builder Bot」を開発している。話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。この機能はメタバースで仮想空間を生成するための基礎技術となる。また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。

出典: Meta

125の言語を同時通訳

Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。Metaは翻訳する言語の数を一気に125に拡張した。言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。これによりメタバースでは世界の国境がなくなる。

出典: Meta

高度な会話型AI

Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)

出典: Meta

ARグラス向けコンピュータビジョン

Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。

出典: Meta

センサーのデータを解析

メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。

出典: Meta

AI開発はメタバースにシフト

MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。

Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する

Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。AIモデルは、その規模が拡大すると、アルゴリズムが新たなスキルを習得することが知られている。同時に、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となっている。Metaはオープンサイエンスの手法で研究を進め、AIの危険性を解明することを目指している。

出典: Meta

OPT-175Bとは

Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、MetaのAI研究所「Meta AI」で開発された。OPTの規模はパラメータの数で示され、最大構成の175B(1750億個)から最小構成の125M(1億2500万個)まで、八つのモデルで構成される。

OPT-175Bの機能

OPT-175Bは、人間の指示に従って文章を作成し、数学の問題を解き、会話する機能を持つ。OPT-175Bの特徴は、言語モデルの中でもパラメータの数が175Bと、世界最大規模のニューラルネットワークであること。このため、アルゴリズムが人間のように高度な言語機能を発揮することができる。

OPT-175Bは人間の指示に従って文章を生成することができる(下の写真)。OPT-175Bに、「人事評価面接をテーマとする詩を生成」するよう指示すると(下の写真太字の部分)、アルゴリズムはそれに沿って文章を生成する(細字の部分)。「良い評価を得たが、上司は一層の改善が必要と述べた。自分でも分かっており、努力しているが、なかなか難し。」などと、人間の心情を綴る詩を生成。

出典: Susan Zhang et al.

ライセンス

MetaはOPTのコードと教育済みのモデルを無償で提供することを明らかにした。大学や政府や企業の研究者が対象となり、利用申請すると審査を経て、使用を許諾される手順となる(下の写真)。また、教育済みの小型モデルは、既にGitHubに公開されており、自由に利用できる。但し、利用目的は研究開発に限定され、OPTを使ってビジネスをする形態は認められていない。

出典: Meta

AI開発の現状

GoogleやMicrosoftなど巨大テックは、大規模なAI言語モデルを競い合って開発しているが、これらは社内に閉じ、クローズドな方式で進められている。研究成果は論文として公開されているが、ここにはコードや開発手法は記載されておらず、他の研究者が成果を検証することはできない。つまり、現在のAI開発はクローズドソースの方式で進められ、巨大テックがその知的財産を独占している形態となっている。

AIを公開する理由

これに対しMetaは、OPT-175Bを無償で公開し、世界の研究者が自由に利用できる方針を選択した。大学や政府や民間の研究コミュニティで、大規模AI言語モデルの研究をオープンな形式で進めることで、研究開発が加速するとみている。特に、AIの危険性を解明する研究が進み、言語モデルの理解が深まり、責任あるAI開発が可能となると期待している。

出典: Meta

GPT-3との対比

Metaが開発したOPT(Open Pretrained Transformer)は、OpenAIが開発したGPT(Generative Pre-trained Transformer)に対峙する構造となっている。OPTという名称は、GPTをオープン化したもの、という意味を含んでいる。また、OPT-175Bのパラメータの数は、あえて、GPT-3の175Bと同じ数字とした。Transformerという同じアーキテクチャを採用し、その規模も同じとし、OPTは世界最先端のAI言語モデルを無償で公開することをアピールしている。(下の写真、OPTの性能(丸印)はGPTの性能(✖印)と互角であることを示している。)

出典: Susan Zhang et al. 

オープンサイエンス

MetaはOPT-175B以前から、オープンサイエンスの手法でAI技術を改良するプログラムを展開してきた。「Deepfake Detection Challenge」は、フェイクビデオを検知する技術をコンペティションの形式で競うもの。「Hateful Memes Challenge」は、ヘイトスピーチなど有害なコンテンツを検知する技術の開発で、Metaは開発コミュニティと共同でこれを開発する。OPT-175Bでは、コミュニティでアルゴリズムの研究を進め、AIの持つ危険性を理解する。

ヘイトスピーチ検知のコンペティション

Metaは「Hateful Memes Challenge」でヘイトスピーチのデータベースを公開し(下の写真)、研究者はこれを使ってヘイトスピーチ検知のアルゴリズムを開発した。AIがヘイトスピーチを判別するのは難しく、これをオープンサイエンスの手法で開発した。「Umbrella upside down (傘がひっくり返る)」という言葉は、状況に応じてヘイトスピーチとなる(下の写真最下段)。これは「名声が内に向かってしぼむ」という意味もあり、使い方によって相手を傷つける表現となる。ヘイトスピーチの判別は人間でも難しいが、アルゴリズム開発が進んでいる。

出典: Meta

Facebookの教訓

AI言語モデルの開発は、巨大テックが企業内に閉じて進めており、外部の研究者は、開発内容をうかがい知ることはできない。Metaは、AIコミュニティに大規模言語モデルを公開することで、信頼できるAIを開発できると目論んでいる。この背後には、FacebookやInstagramのコンテンツ配信で、アルゴリズムが不透明で、偽情報が拡散し、社会が不安定になったという事実がある。Metaはこれらの教訓を生かし、AI開発ではオープンな戦略を取り、信頼できるAIの開発を進めている。

Meta(Facebook)は世界最速のスパコンを開発、AIとメタバースは高性能プロセッサが勝敗を分ける

Meta(Facebook)は、今週、スパコンを開発していることを明らかにした。最大性能は5 Exaflopsで世界最速のマシンとなる。Metaが独自でスパコンを開発するのは、AIとメタバースの開発で、大量の演算処理が必要になるため。AI開発ではアルゴリズムの規模が巨大化し、その教育には高速プロセッサが必須となる。メタバースはAIと密接に関連し、3D仮想社会を生成するには、高精度なコンピュータビジョンが求められる。

出典: Meta

スパコンの概要

Metaは、スパコンを「AI Research SuperCluster(RSC)」(上の写真)と呼び、AI研究のための高速計算機と位置付ける。今年中旬の完成を予定しており、演算性能はExaflopsを超える。(Exaflopsとは1秒間に10の18乗(10^18)の演算を実行する性能。) 現在、最速のマシンは442 Petaflops (0.442 Exaflops)で、ついにスパコンがExaの領域に入ることになる。

研究テーマ

スパコンは、名前が示しているように、AI研究で使われる。Metaは、自然言語解析(Natural Language Processing)やコンピュータビジョン(Computer Vision)の開発をスパコンで実行する。これらAIモデルはアルゴリズムが巨大化し、その教育で大規模な演算が発生する。パラメータの数が1兆個を超え、もはや、スパコン無しにはAIを開発することができない。

自然言語解析:有害コンテンツを検知

自然言語解析はソーシャルネットワークの有害情報(Harmful Contents)を検知するために使われる。FacebookやInstagramで、フェイクニュースやヘイトスピーチが拡散し、社会問題となっている。今では、ワクチンに関する偽情報が拡散し(下の写真)、ワクチン忌避者が増えている要因とされる。これら有害情報をAIで正確に検知する技術は確立されておらず、ソーシャルネットワークの責任が厳しく問われている。

出典: Meta

Few-Shot Learning

AIが有害情報を正確に検知できない理由は、教育データが不足しているため。アルゴリズムを教育するには、大量のデータを必要とするが、有害情報に関するデータは少ない。例えば、ワクチンに関する偽情報は、少ないだけでなく、その内容は短期間で移り変わる。このため、Metaは少ない事例でAIを教育する「Few-Shot Learning」という技法を開発している。このモデルで判定精度を上げるためには、アルゴリズムのサイズを大きくする必要があり、AIが巨大になる。大規模なモデルを教育するためにスパコンが必須のインフラとなる。

コンピュータビジョン:メタバースの開発

次世代プラットフォームであるメタバースを開発するために、スパコンが必要となる。メタバースは3D仮想社会で、利用者はアバターを介し、オブジェクトとインタラクションする(下の写真)。メタバースにアクセスするためにAR・VR・MRグラスが使われ、デバイスに仮想社会が生成される。高品質な仮想社会を生成するためにコンピュータビジョンが重要な役割を果たし、この開発でスパコンが必須となる。

出典: Meta

システム構成

スパコンのプロセッサにはNvidiaのAIシステム「NVIDIA DGX A100」(下の写真)が使われる。このシステムはNvidiaの最新プロセッサ「A100」を8台搭載した構成で(①の部分)、高速ネットワーク「InfiniBand」で通信する。スパコンは16,000台のA100を搭載し、最大性能は5 exaflopsとなる。スパコンはDGXを連結したクラスタ構成で、AI Research SuperClusterと呼ばれる。

出典: Nvidia

巨大テックがAIスパコンを開発

アルゴリズムが巨大化の道をたどり、AI開発ではスパコンが必須の計算環境となる。Googleは大規模アルゴリズムの開発でAIクラスター「Cloud TPU」を使っている。Microsoftは独自でAIスパコンを開発し、大規模言語モデルを開発している。これからは、メタバースの開発で高速プロセッサが必須となり、スパコンの用途が拡大することになる。

Meta(Facebook)はNFT市場に参入か、メタバースでデジタルアセットの販売を計画

Meta(Facebook)は、NFT市場に参入し、メタバースでデジタルアセットを販売することを計画している。NFTとはNon-Fungible Tokenの略で、デジタルアセットなどモノの所有権を示す証文(Token)となる。簡単に複製できるデジタルアセットにNFTを付加し、ブロックチェインで商取引を実行する。デジタルアートが破格の価格で取引され、NFT市場がにわかに注目を集めている。

出典: Meta

MetaのNFT計画

これはFinancial Timesが報道したもので、MetaはNTF市場に参入し、ここでコレクタブルを販売することを計画している。具体的には、Meta配下のFacebookとInstagramは、利用者のプロフィールにNFTを掲載する機能を搭載する。また、利用者が、これらソーシャルメディアで、NFTを生成することもできる。更に、MetaはNFTのマーケットプレイスをオープンし、ここでNFTの売買を行う。実際に、Metaが発表したメタバースには、NFTを購買するシーンがあり(上の写真)、最終的には仮想社会でデジタルアセットの販売で使われる。

NFTとは

そもそもNFTとは、ブロックチェインで構成されるトークンで、デジタルアセットなどの所有権を示す証文となる。NFTのデータは、ブロックチェインの分散データベースで安全に管理される。現在、NFTで使われるブロックチェインは「Ethereum」が殆どで、事実上の業界標準となっている。NFTは、Ethereumのスマート契約機能「Smart Contracts」を使い、インテリジェントに処理を実行する。事前に設定されたルール(契約)に基づき、人間の介在無しに、ソフトウェアが売買のトランザクションを実行する。NFTにより、デジタルアセットの所有権が証明され、デジタルアセットの売買をクラウド上で実行できる。(厳密には、NFTはトークンであるが、今では、NFTが付与されたデジタルアセットもNFTと呼んでいる。)

NFTマーケットプレイス

NFTの市場規模は400億ドルといわれ、その規模が急拡大している。NFTはマーケットプレイスというわれるサイトで売買される。この市場のリーダーは、ニューヨークに拠点を置く新興企業OpenSeaで、NFTブームで急成長している。OpenSeaは、オンラインサイトでNFTを生成する機能を提供しており、クリエータはここでデジタルファイルをNTFに変換する。生成したデジタルアセットをマーケットプレイスに掲載して販売する。このサイトには、デジタルアートやコレクタブルなど、幅広いNFTが掲載されている。OpenSeaはEthereumで構成されたシステムで、売買は暗号通貨「ETH(Ethereum)」などで実行される。(下の写真、OpenSeaに掲載されているデジタルアート、希望価格は2 ETH (5,456.42ドル)で、オークション方式で販売されている。)

出典: OpenSea

NFTの生成方法

NFTは誰でも簡単に制作することができる。OpenSeaのケースでは、作成画面の指示に沿ってデータを入力していくと、NFTを生成できる。イメージやビデオやオーディオなどをNFTに変換することができる。これらデジタルファイルをアップロードして、NFTに変換するプロセスとなる。この処理は「Mint」といわれ、デジタルファイルに所有者を証明するトークンを生成する作業となる。生成されたトークンはブロックチェインに安全に保管される。Mintのプロセスは有料で、利用者は処理費用「Gas Fee」を支払う。生成したNFTをマーケットプレイスで販売するが、作品が売れると手数料を支払う構造となる。

デジタルアートが高値で売れる

デジタルアートが高値で売れ、NFTブームが続いている。先月、NFTマーケットプレイスNifty Gatewayで、デジタルアートが91,806,519ドル(約104億円)で販売された。これはPakが制作した「Merge」という作品で(下の写真)、コンピュータで制作され、デジタルファイルとして売られた。ファイルには証明書NFTが添付され、これがアートの所有権を示す。(「Merge」は312,686のユニットから構成され、28,983人が購入した。一つのデジタルアートが312,686のNFTで構成されるという特異な構成。作品が転売されるごとにトークンがマージ(Merge)し、その数が減り、作品の価値が上がると説明している。)

出典: Merge by Pak

NFT市場の危険性

今では、アートやコレクタブルや写真などがNFTで販売され、デジタルアセットが投資の対象となっている。株式取引とは異なり、NFTへの法規制は無く、トランザクションで詐欺や不正行為が発生しているのも事実である。生まれたての技術で、新しいビジネスモデルが市場で試されている段階で、NFT購入には高度な判断が求められる。