カテゴリー別アーカイブ: Facebook

Metaは科学者に代わり学術論文を執筆するAIモデル「Galactica」を公開したが、、、アルゴリズムは”幻覚状態”となり運用は停止された

Metaは世界の科学情報を理解するAIモデル「Galactica」を開発し、ウェブサイトで運用を始めた。しかし、アルゴリズムは倫理的に許容できない文章を出力し、また、奇想天外な科学情報を生成し、即座に運用が停止された。Metaは大規模言語モデルを世界の学術論文で教育し、科学技術を理解するAIモデルの開発を目指したが、この試みは不発に終わった。科学技術という真実を対象とする分野でも、アルゴリズムはバイアスし、AI開発の難しさが改めて露呈した。

出典: Meta

科学情報へのアクセス

Galacticaは、Meta AIと非営利団体「Papers with Code」が開発した大規模言語モデルで、世界の科学情報を集約し、知的に管理することを目的とする。ネットには学術論文など科学情報が掲載されているが、その量は膨大で、目的とする情報を見つけ出すのは容易ではない。また、目的の情報にアクセスした後は、論文を読み下し、内容を把握するためには多大な時間を要す。

Galacticaのコンセプト

Galacticaは、研究者に代わり、このプロセスをAIモデルで実行することを目的に開発された。Galacticaは大規模な言語モデルで、膨大な量の学術論文や科学情報で教育され、科学技術を理解するAIとなる。科学者は目的とする学術情報を、Googleなどで検索するのではなく、Galacticaに尋ねるとAIが的確に回答する。言語モデルが知的な化学技術エンジンとなり、識者に質問する要領で、Galacticaが目的の情報を表示する。(下のグラフィックス、Galacticaに「教師無し学習に関する論文」について質問すると、その論文の要約が示される。)

出典: Meta

多種類のトークン

Galacticaは言語モデルであるが、自然言語の他に、科学技術用語で教育され、これらの意味を理解できる。Galacticaがカバーする範囲は広く、異なるドメインの用語(Token)を理解できる。その主なものは、論文の引用 (Citations)、推論(Reasoning)、数学(Mathematics)、分子配列、アミノ酸配列、DNA配列などである。つまり、GalacticaはDNA配列を理解し、遺伝子工学の情報を解釈できる。

論文の引用

利用者が、ボックスに質問を入力すると、Galacticaがこれに回答するインターフェイスとなる。論文の引用では、技術概要を入力すると、Galacticaはそれに関する論文を表示する(下のグラフィックス)。機械学習に関し「数字を理解するニューラルネットワーク」と入力すると(左側)、Galacticaは手書き文字を理解する技法を記載した論文を示す(右側、Yann LeCunのBackpropagationの論文)。

出典: Meta

科学技術の知識

また、Galacticaはプログラムや数式の意味を平易な言葉説明する機能がある(下のグラフィックス)。Pythonのコードを入力すると(左側)、Galacticaはこのコードの機能を説明する(右側、総和を求めるプログラム)。

出典: Meta

デバッグ

更に、Galacticaは数式の解法を検証し、間違っている理由を説明する機能がある(下のグラフィックス)。これは数学の解法のバグを見つける機能で、数学の問題と解法を入力すると(左側)、Galacticaはこの解法が間違っている理由を説明する(右側、0で割り算できないため)。

出典: Meta

想定外の質問を受ける

Galacticaは研究者に便利な機能を提供し、論文を執筆する際の重要なツールになると期待されていた。しかし、Galacticaが公開されると同時に、多くの利用者が常識はずれの質問を入力し、言語モデルの限界が試された。これらの想定外の質問に対し、Galacticaは荒唐無稽な回答を返し、事実とは異なる結果を数多く示した。また、Galacticaは差別用語などを回答し、アルゴリズムがバイアスしていることも明らかになった。

荒唐無稽な回答

Galacticaを検証した結果はTwitterなどに数多く掲載され、問題が公の場で詳らかになった。その一つが学術論文の引用で、Galacticaは荒唐無稽な回答を示した(下の写真)。利用者が「砕いたガラスを食べることの効用を示した論文」と質問すると、Galacticaは論文の要旨として、「食事に砕いたガラスを取り入れることでポジティブな効果があることが認められた」と回答した。勿論、このような事実はなく、Galacticaは幻覚状態(Hallucination)にあると揶揄された。

出典: Tristan Greene @ Twitter

言語モデル開発の難しさ

Metaは使用上の注意事項として、Galacticaは高品質なデータで教育されているが、アルゴリズムが出力するデータは必ず正確であるとの保証はなく、利用者が検証する必要があるとしている。実際に、Galacticaは学術論文の他にWikipediaなどネット上のデータを教育データとしているが、「幻覚状態」になることを回避できなかった。利用者は荒唐無稽な回答をソーシャルメディアで拡散し、この事態を深刻に受け止め、MetaはGalacticaの運用を即座に中止した。科学技術の分野であっても、言語モデルの開発の難しさを改めて露呈した事例となった。

AIで短編映画を制作する時代が到来!Metaはテキストからビデオを生成する技法「Make-a-Video」を公開

Metaはテキストをビデオに変換するAIを公開した。これは「Make-a-Video」と呼ばれ、言葉の指示を理解し、それに従ってビデオを生成する機能を持つ。例えば、「スーパーマンのマントをまとった犬が空を飛ぶ」と指示すると、AIはそのシーンをビデオとして生成する(下の写真)。生成されたビデオの品質は高く、メタバースやプロモーションビデオの作成などで利用される。

出典: Meta

Make-a-Videoの概要

「Make-a-Video」は入力されたテキストを解析し、その意味を理解して、指示に沿って、ショートビデオを生成する。AIは異なるスタイルのビデオを生成し、現実には起こりえないシーンを描き出す(上の写真、「空を飛ぶ犬」)。また、これとは対照的に、現実のシーンを高精度で描写する(下の写真左側、「水を飲んでいる馬」)。更に、油絵のタッチなど、特定のスタイルでビデオを生成することもできる(下の写真右側、「イブニングドレスを着た二人が帰宅中に土砂降りの雨にあったシーン」)。

出典: Meta

ビデオを生成する仕組み

Make-A-Videoは複数のAIを組み合わせ、入力されたテキストを、荒い動画に変換し、その解像度をあげて、解像度の高いビデオを生成する仕組みとなる(下のグラフィックス)。AIは、入力されたテキストの意味を把握し、それをイメージに変換する(「P」の部分)。更に、そのイメージから、動画を構成するフレームを生成し(「Dt」)、フレームの数を増やし(「F」)、それらの解像度を上げる(「SRtl」と「SRh」)処理を実行する。Make-A-Videoは、テキストからラフな動画を生成し、複数のAIでその解像度を向上し、最終ビデオを生成する構造となる。

出典: Uriel Singer et al.

イメージからビデオを生成

Make-A-Videoはこの他に、イメージをビデオに変換する機能がある。AIが、入力された1枚のイメージを、ショートビデオに変換する。例えば、オランダの画家レンブラント(Rembrandt)の名作「ガラリアの海の嵐(The Storm on the Sea of Galilee)」をMake-A-Videoに入力すると(下の写真左側)、アルゴリズムはこれをショートビデオに変換する(右側)。ここには、嵐の中でキリストを乗せた船が、高波を受けて航行する様子が、動画で描かれている。

出典: Meta

ビデオからバリエーションを生成

更に、Make-A-Videoは、入力したビデオからそのバリエーションを生成する機能がある。AIが、入力されたビデオのフレームを解析し、その意味を理解して、バリエーションを生成する。宇宙飛行士が宇宙遊泳しているビデオを入力すると(下の写真左側)、AIはそれをアレンジしたビデオを生成する(右側)。

出典: Meta

AIがイメージを生成

Metaは、これに先立ち、テキストをイメージに変換するAI「Make-A-Scene」を公開している。AIは、入力された言葉の指示に従って、イメージを生成する。例えば、「笑っている紫色のヤマアラシ」と言葉で指示すると、Make-A-Sceneはこのイメージを生成する(下の写真中央)。

出典: Oran Gafni et al.

人間に代わりAIがクリエータになる

今回は、Metaはこの機能を拡張し、「Make-a-Video」として、テキストをビデオに変換するアルゴリズムを開発した。これらはコンテンツを生成するAIで、AI研究のホットテーマとなり、新技術が続々登場している。人間に代わりAIがビデオを生成する時代に突入し、メタバースの開発や、企業のプロモーションビデオの制作などでの展開が期待されている。

MetaはMRヘッドセット「Quest Pro」を投入、メタバースの構想が製品として結実、企業向けメタバースに比重が移る

Metaは開発者会議「Connect 2022」でメタバース開発の最新状況を公開した。Metaは、昨年、このイベントでメタバースの構想を示し、数年先のビジョンを提示した。今年は、直近のメタバースに焦点を当て、その適用法やソリューションを示した。イベントのハイライトは、MRヘッドセット「Quest Pro」(下の写真)の発表で、メタバースにアクセスする技術が大きく進化した。更に、Microsoftとの提携を発表し、メタバースで3Dビデオ会議「Microsoft Teams」を利用できる。Metaは企業向けのメタバースに比重を移していることが明らかになった。

出典: Meta

MRヘッドセット「Quest Pro」

MRヘッドセット「Quest Pro」は、VR(仮想現実)とAR(拡張現実)を統合したMR(複合現実)機能を実装したウェアラブルとなる。Quest Proを着装すると、現実空間に仮想オブジェクトが組み込まれ、それを実際に手で触ることができる。例えば、オフィスで社員がQuest Proを着装すると、デスクの上に仮想のモニターが描写され、この画面で業務を遂行できる(下の写真)。価格は1,499.99ドルで、今月から出荷が始まる。

出典: Meta

仮想オフィス「Workrooms」

Metaは企業向けにメタバースを展開しており、コラボレーション・アプリ「Horizon Workrooms」を提供している。これはメタバースに構築された会議室で、社員はこの空間でコミュニケーションする。Metaは、これを大幅にアップグレードし、個人向けの仮想オフィス「Solo Workrooms」を開発している。仮想オフィスには三台の大型モニターがセットされ、ここが仕事空間となる(下の写真)。PCやMacBookを買う代わりに、Quest Proでタスクを実行する構想を描いている。

出典: Meta

3Dオブジェクト

3D仮想オフィスHorizon Workroomsの機能が強化される。これはデザイナーやエンジニア向けの機能で、会議室でオブジェクトを3Dで見ることができる。例えば、会議室において、開発中のヘッドセットを3Dで表示し、そのデザインを関係者で議論できる(下の写真)。

出典: Meta

MR会議室「Magic Room」

Metaは、現実社会と仮想社会の会議室をミックスしたMR会議室「Magic Room」を開発している(下の写真)。これは実社会の会議室に仮想の人物やオブジェクトを組み込んだ構成となる。Quest Proを着装して実社会の会議室に入ると、そこに遠隔地の社員がアバターとして参加する。また、この空間でホワイトボードに作図して会議を進めることもできる。

出典: Meta

Microsoftとの協業「Teams」

MicrosoftのCEOであるSatya NadellaはメタバースでMetaと協業することを明らかにした。その第一弾として、Microsoftのコラボレーションアプリ「Teams」をMeta向けに提供する。これによりQuest 2とQuest ProでTeamsを使うことができる(下の写真)。Microsoftもメタバース開発を進めており、Metaと競合する可能性があったが、この発表で両社は協調路線を歩むことが明らかになった。

出典: Meta

アバターに足を付加「Avatar Store」

Metaはアバターに足を付加し全身を描写できるようにした。現在のアバターは上半身だけで(上の写真)、足の部分は描かれていない。これに足の部分を付加し、完全な身体像を生成できるよう進化した(下のアバター)。手や腕の動きはヘッドセットのカメラで撮影し、それをアニメーションで表示するが、足の動きを捉えるのは難しい。足がテーブルや腕の陰になり、見えないケースが多く、そのイメージを捉えるのは難しい。このためMetaはAIを使い、アルゴリズムで足の状態を推定し、イメージを描写している。また、Metaは「Avatar Store」をオープンし、ここでアバター向けのファッション製品を販売している(下の写真)。

出典: Meta

入力モード「Electromyography(筋電図)」

Metaは研究開発中の技術についても、その概要を公表した。その一つがARグラスにデータを入力する方法で、Electromyography(筋電図)」という技法を開発している。これは筋肉で発生する微弱な電場をAIで解析し、動作の意図を推定するもの。手首にデバイスを装着し(下の写真右側)、指を動かして方向を指示すると、ゲームの中のキャラクターがその方向に動く(左側)。これはゲームのキャラクターを動かす事例であるが、その他に、ARグラスを着装して、指を動かして写真撮影をすることができる。

出典: Meta

Dイメージ生成技法「Neural Radiance Fields

MetaはAIを使って3Dモデルを簡単に生成する技法を発表した。これは「Neural Radiance Fields」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3Dイメージを構築する技法となる。例えば、クマのぬいぐるみを、スマホで複数の方向から撮影し、これをAIで繋ぎ合わせると、3Dのモデルを生成できる(下の写真)。3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Meta

リアリスティックなアバター「Codec Avatars」

Metaは、リアリスティックなアバターを生成する技術を公開した。このアバターは「Codec Avatars」と呼ばれ、人間の顔の形状や表面の質感を忠実に再現し、ビデオ撮影したものと区別がつかない(下の写真、Mark ZuckerbergのCodec Avatar)。特殊カメラ170台を使い、被写体の顔を異なる方向から撮影し、これらを合成して3Dモデルを生成する。ハリウッドの映画の特撮などで使われている。

出典: Meta

手軽に生成できるアバター「Instant Avatars」

これに対し、Metaはスマホで簡単に3Dアバターを制作する技法を公開した。これは「Instant Avatars」と呼ばれ、スマホカメラで複数の方向から顔を撮影し、このデータを元にAIが、高精度な3Dモデルを生成する(下の写真)。Codec Avatarは特殊カメラを使ってアバターを制作するが、Instant Avatarsはスマホで手軽に高精度な3Dモデルを生成できる点に特徴がある。

出典: Meta

企業向けメタバースにシフト

昨年の開発者会議では、Mark Zuckerbergは消費者を対象としたメタバースのビジョンを示した。今年は一転して、企業向けに現実の問題を解決するためのメタバースを提示した。ハードウェアではMRヘッドセットQuest Proを投入し、メタバースは構想の段階から製品化に進んでいることを印象づけた。ソフトウェアの観点からは、コラボレーションツールWorkroomsなどを中心に、企業向けのソリューションが示された。メタバースは企業の生産性に寄与することをアピールしたイベントとなった。

Metaは200言語を翻訳するAIを開発、これをオープンソースとして無償で提供、最終ゴールはユニバーサル機械翻訳AIの開発

MetaのAI研究所Meta AIは、単一モデルで200言語を翻訳できるAIを開発した。AI翻訳の対象は世界の主要言語に限られていたが、このモデルによりその数が一気に拡大した。MetaはこのAIをFacebookやInstagramに適用し、多言語の利用者を呼び込む。また、MetaはこのAIをオープンソースとして公開し、企業や大学はこれをベースに独自の翻訳システムを開発できる。Metaは社外の研究機関と共同で、ユニバーサル機械翻訳AIの開発を進める。

出典: Meta

プロジェクト概要

このプロジェクトは「No Language Left Behind (NLLB)」と呼ばれ、英語や中国語などメジャー言語以外の、マイナー言語(少数言語)のAI翻訳技術を開発することを目的とする。マイナー言語は、利用者数が少なく、AIを教育するためのデータが限られており、「Low-Resource Languages」とも呼ばれる。これがマイナー言語を対象とするAI機械翻訳技術の開発が進まない原因となっている。マイナー言語はアジアやアフリカに多く存在し、ビルマ語(Burmese、ミャンマーで使われている言葉、上の写真)がこれに含まれる。

AI機械翻訳の仕組み

このプロジェクトは、単一のAIモデルで多言語を翻訳する、ユニバーサル機械翻訳(Universal Language Translator)を開発することを目指している。2020年から開発を始め、今月、200言語を翻訳するモデル「NLLB-200」の開発に成功した。NLLB-200がマイナー言語を高精度で翻訳できる理由は、AIで教育データを創り出す技術にある。このシステムは、四つのコンポーネントから構成される(下のグラフィックス):

  1. マイナー言語を母国語とする開発者による研究
  2. 限られた言語情報からAI(LASER3)が大量の教育データを生成
  3. この教育データを元にAI機械翻訳モデル「NLLB-200」を開発
  4. NLLB-200の精度をベンチマークデータ(FLORES-200)を使って検証
出典: Marta R. Costa-jussà et al.

翻訳精度

この方式により、NLLB-200は従来モデルに比べ、翻訳精度が44%向上した(下のグラフ)。MetaはNLLBモデルの開発を進めてきたが、当初は、100言語を対象にアルゴリズムを開発(水色の部分)。2022年は、対象言語の数を200に増やし、モデルを大幅に改良した(紫色の部分)。その中で、最新モデルがNLLB-200(右端のグラフ)で、翻訳精度が大きく向上した。(機械翻訳の精度は「BLEU」という指標で示される。この数値が大きいほど精度が高い。)

出典: Meta

機械翻訳の利用方法

Metaは、NLLB-200をFacebookやInstagramに適用し、マイナー言語を翻訳する計画である。NLLB-200が、メジャー言語とマイナー言語の懸け橋となり、数多くの人がコンテンツを楽しむことができる。(下の写真、クメール語(Khmer language、カンボジアの国語)で書かれた物語を翻訳して読むことができる)。また、メタバースでは世界各国の人々が、平等に交流する仮想社会の構築を目指しており、NLLB-200がコミュニケーションで重要な役割を担う。更に、MetaはWikipediaと共同で、記事を多言語に翻訳するプロジェクトを進めている。

出典: Meta 

オープンソース

Metaは、ユニバーサル機械翻訳の開発を最終ゴールとし、社外の研究機関と共同でプロジェクトを進める。これを目的に、NLLBで開発したAIモデルとデータセットをオープンソースとして公開しており、研究機関はこれを自由に利用して、独自の機械翻訳システムを開発できる。また、Metaは、非営利団体を対象に20万ドルを上限に助成金を出し、開発を支援することを表明している。オープンサイエンスの手法でAI機械翻訳技術を開発し、対象言語を増やす手法を取る。

世界の言語

因みに、世界では7,151の言語が使われており、その多くが、アジアとアフリカに存在している(下のマップ)。これらの言語の40%は、継承者が少なく、絶滅の危機に瀕しているといわれている。一方、23の言語が世界の半数以上の人により使われている。これらがメジャー言語で、英語、中国語・官話、インド・ヒンディー語がそのトップ3となる。これらメジャー言語については、多くの企業からAI機械翻訳技術が提供されている。

出典: Ethnologue

MetaはAIで本人そっくりのアバターを生成する技法を開発、また「アバター・ストアー」を開設しアバター向けに高級ブランド品を販売

MetaはリアリスティックなアバターをAIで生成する技法を公開した。スマホカメラで撮影した画像をもとに、AIが写真のようにリアルな3Dモデルを生成する。また、Metaは「アバター・ストアー」を開設することを発表し、アバター向けのファッションアイテムを販売する(下の写真)。ここには有名ブランドの衣料品が揃っており、メタバースでお洒落を楽しむことができる。

出典: Eva Chen

Metaのアバター開発の歴史

Metaは、早くから、VR向けに3Dアバターの開発を進めてきた。このアバターは「Codec Avatars」と呼ばれる種類で、人間の顔の形状や表面の質感を忠実に再現し、リアリスティックな3Dモデルとなる。特殊なカメラ「MUGSY」を使い(下の写真左側)、被写体の顔を異なる方向から撮影し(右側)、これらを合成して3Dモデルを生成する。MUGSYは171台のカメラから構成され、被写体を異なる方向から撮影する。

出典: Chen Cao et al.

スマホでアバターを制作

先月、MetaのAI研究所である「Reality Labs」は、スマホでリアリスティックな3Dアバターを制作する技法を公開した。特殊カメラを使う必要はなく、iPhoneで顔を撮影し(下の写真左側)、このデータを元にAIが、高精度な3Dモデルを生成する(右端)。今まではスタジオで特殊カメラを使ってアバターを制作していたが、スマホで手軽に高精度な3Dモデルを生成できるようになった。

出典: Chen Cao et al. 

AIモデルの概要

AIでアバターを生成するが、その手順は次のようになる。最初に、ベースモデル「Universal Prior Model」を生成する(下のグラフィックス、左側)。ベースモデルの生成では、多数の顔写真を教育データとし、アルゴリズムは顔の構造とその表情を学習する。具体的には、上述の専用カメラMUGSYを使い、255人の顔を25方向から撮影し、その際に、被写体は65の表情を造る。これらの顔写真から、アルゴリズムは人間の顔の構造とその表情を学習する。

出典: Chen Cao et al. 

AIモデルでアバターを生成

次に、このベースモデルを使って、利用者のアバターを生成する。スマホカメラを使い、顔を異なる方向から撮影し、これをベースモデルに入力する(上のグラフィックス、中央)。アルゴリズムは顔の構造とその表情を学習しており、数枚の顔写真から高精度な3Dアバターを生成する。更に、スマホカメラで異なる表情の顔写真を撮影すると、アバターの品質を大きく向上させることができる(上のグラフィックス、右側)。

印象型アバター

Zuckerbergは、これに先立ち、二種類のアバターを開発していることを明らかにした。これらは、「印象型アバター(Expressionist Avatar)」と「現実型アバター(Realistic Avatar)」と呼ばれる。前者はアバターをアニメのキャラクターとして生成する方式で、利用者の顔の表情をグラフィカルに再現する。既に、VRゲームやオンライン会議(下の写真)などで使われている。

出典: Meta

現実型アバター

現実型アバターは、利用者の顔をビデオ撮影したように、リアリスティックに生成する。これは特殊カメラを使って生成されてきたが、上述の手法を使うと、iPhoneカメラで誰でも手軽に作れるようになった。(下の写真、左端は入力した写真で、その他は生成されたアバター。中央はアバターの深度を表示)。但し、メガネをかけたアバターを高精度で生成できないなど、制限事項があり、完成までにはもう少し時間を要す。

出典: Meta

アバター・ストアーを開設

今週、MetaのCEOであるMark Zuckerbergは、「アバター・ストアー(Avatars Store)」を開設することを発表した。アバター・ストアーとはアバター向けのファッションハウスで、ここで洋服を買って、自分のアバターに着せる(下の写真)。FacebookとInstagramとMessengerで、プロフィール写真の代わりに、3Dアバターを使うことができ、ストアーで洋服を買って華やかなアバターを生成する。また、メタバースでは、本人に代わりアバターでお洒落を楽しむことができる。アバター・ストアーのモデルはMark Zuckerbergとファッション担当のEva Chenが務めている。

出典: Meta

三つの高級ブランド

アバター・ストアーは有名ブランドのファッションアイテムを販売する。これを買って自分のアバターに着せ、メタバースでお洒落な生活を楽しむ。三つの高級ブランド、「バレンシアガ(Balenciaga)」、「プラダ(Prada)」、「トムブラウン(Thom Browne)」が公開された。

  • バレンシアガはフランス・パリに拠点を置くファッションハウスで、規格にとらわれず、常に先進的なファッションを生みだしてきた。個人にフィットしたファッションデザインである、オートクチュール(haute couture)というコンセプトを生み出したことで有名。アバター・ストアーでは、モトクロス・レザー(motocross leather)スタイルを公開した(上の写真左端)。
  • プラダはイタリア・ミラノに拠点を置く高級ファッションブランドで、ハンドバッグやシューズを販売する。ファッションでは既製品であるプレタポルテ(prêt-à-porter)を専門とする。アバター・ストアーでは、スポーツ・ファッションブランド「Linea Rossa」を公開(上の写真左から三番目)。Zuckerbergは「上から下までプラダを着るのは勇気がいるが、メタバースならこれができそう」と述べている。
  • トムブラウンはアメリカ・ニューヨークに拠点を置くファッションブランドで、スポーティなブレザーなどを販売する。アバター・ストアーでは、四本のストライプが入ったジャケットを公開(上の写真右から二番目)。Zuckerbergは、「実社会でジャケットを着ることはないが、メタバースではトムブランを選ぶ」としている。