カテゴリー別アーカイブ: Facebook

Metaは言語モデル「Llama 2」を改良し高度なチャットボットを投入、「Meta AI」はChatGPT対抗モデルで「セレブAI」は人格を持つアバター

Metaは今週、開発者会議「Connect 2023」を開催し、AIの最新技術を公開した。Metaは大規模言語モデル「Llama 2」を開発し、オープンソースとして公開している。Metaはこのモデルを改良し、高度なチャットボットを開発した。「Meta AI」は汎用チャットボットで、ビジネスを中心に使われる。「セレブAI」は著名人のキャラクターを持つAIで、会話を通してスキルを学ぶ。これらは、Llama 2を改良した「Llama 2 Long」に構築されたAIモデルで、FacebookやInstagramの中に展開される。

出典: Meta

Meta AIとは

「Meta AI」は汎用的なチャットボットで、質問に回答し、指示に従ってタスクを実行する。例えば、Meta AIに「おとぎ話にナマケモノを使いたいが、その名前とキャラクタを創作して」と尋ねると(下のグラフィックス左側)、それに的確に回答する(右側)。Meta AIの特徴は、会話を長く続けても、話題から逸れないで、忠実に筋を追っていく機能にある。Metaは言語モデルを改良した「Llama 2 Long」を開発し、この機能を獲得した。

出典: Meta

セレブAI

Metaは著名人のデジタルツインとなるAIモデルを投入した。これは「セレブAI」と呼ばれ、著名人との会話を楽しむことができる(下のグラフィックス)。モデルはそれぞれのキャラクターを持ち、著名人が得意分野のスキルをコーチする。テニス選手の大坂なおみは「Tamika」という名前でAIとなり、アニメの専門家としてアドバイスする(左から三番目)。Metaは「セレブAI」を拡張し、クリエーターが自身のアバターを生成することを計画している。企業は独自のセレブAIを構築し、ブランドをプロモーションすることが可能となる。

出典: Meta

Llama 2 Longとは

これらのモデルは「Llama 2 Long」の上に構築されたAIアシスタントとなる。Meta AIは大規模言語モデル「Llama 2」をオープンソースとして公開しているが、これを改良して「Llama 2 Long」を開発した。Llama 2 Longは入力するテキスト量(Context Window)を拡大する手法で教育された。これにより、会話を長く続けても、チャットボットはこれを忠実にフォローする機能を獲得した。

Llama 2 Longの性能

このモデルは「Long-context Language Models」と呼ばれ、長いコンテクストを正しく理解できる言語モデルとなる。このモデルは、同時に、チャットボットの基本機能である、問われたことに正しく回答する機能も向上した(下のグラフ)。ベンチマーク結果によると、Llama 2 Longの精度は「GPT-3.5 Turbo」(下から二番目)と「Claude-2」(最下段)を上回った。しかし、GPT-4の精度には及ばなかった(下から三番目)。

出典: Wenhan Xiong et al.

イメージ生成モデル

Metaは同時に、テキストでイメージを生成するモデル「Emu」を公開した。EmuはMeta AIの中で使われ、言葉の指示に従って、カラフルなイメージを生成する。この機能を使うと、言葉でスタンプを生成できる(下のグラフィックス左側)。「買い物に行こう」とテキストを入力すると、これに応じたスタンプを生成する(中央)。また、Meta AIに、「雲の上でサーフィン」と指示すると、そのイメージが生成される(右側)。Meta AIはFacebookやInstagramやWhatsAppに展開され、友人にオリジナルなスタンプやイメージを送るために使われる。

出典: Meta

Metaのオープン戦略

Metaは他社とは異なり、大規模言語モデルをオープンソースとして公開する戦略を取っている。企業や大学は、Llama 2をダウンロードして、独自の生成AIを開発し、これをビジネスで利用できる。Llama 2を核とするエコシステムが拡大しており、MetaはAI開発の原動力として高く評価されている。

Metaの目論見は

オープン戦略の目的は社会貢献だけでなく、自社の製品開発にこれを生かすことにある。Connect 2023でZuckerbergは、開発者コミュニティからLlama 2に関する様々な意見を聞き、これを製品開発に反映していると述べた。この第一弾がMeta AIで、ソーシャルメディアで利用者が簡単に使えるAIモデルが生まれた。来年には後継モデル「Llama 3」を投入するとしており、MetaはChatGPTに対抗する製品を次々に開発する計画を明らかにした。

Metaは生成AI「Llama 2」をオープンソースとして公開、企業は無償で利用でき選択肢が拡大、ChatGPTに匹敵する性能でOpenAIの地位が揺らぐ

Metaは今週、生成AI「Llama 2」をオープンソースとして公開した。Metaはこのモデルをビジネスで利用することを許諾しており、企業の選択肢が拡大する。Llama 2は性能が大きく進化し、OpenAIのChatGPTと対等となった。OpenAIが市場をリードしてきたが、Llama 2の登場で、首位争いが激化する。

出典: Meta

Llama 2の概要

Llama 2はMetaが開発した大規模言語モデルで、「Llama 1」の後継モデルとなる。Llama 2はオープンソースとして公開され、企業はこれをダウンロードして、ビジネスで利用できる。Llama 1は研究開発に限定されたが、Llama 2は大学の他に、企業や政治団体などがこれを利用でき、急速に普及が広がると予想されている。また、MetaはLlama 2に関する情報を公開しており、モデルに関する理解が進み、生成AIでイノベーションが生まれると期待している。

オープンソース

Llama 2はオープンソースとして公開され、企業はこれらをダウンロードして自由に利用できる。モデルの他にプレ教育のパラメータ(Weights)を公開しており、Llama 2をそのまま運用できる。また、企業は、これをベースに、独自のデータでモデルを最適化し、専用の生成AIを構築できる。業務に特化した高速モデルを開発でき、利用方法が一気に広がる。一方、オープンソースであるが、Metaは利用条件の中で、特定の使い方について制限している:

  • 利用者数の制限:利用者数は70万人以下であること
  • 利用対象の制限:Llama 2を使って別の言語を開発することを禁止

オープンソースであるが一部の利用条件が制限されているので注意を要す。(この制限はGoogleなど競合企業がLlama 2を利用して技術開発することを抑止することを意図している。)

Microsoftとの提携

MetaはMicrosoftと提携して生成AIを共同で開発していくことを表明した。この最初のステップとして、Llama 2をMicrosoftクラウド「Azure」で提供する。MicrosoftはAI開発の各種ツールを提供しており、これらを利用してLlama 2を組み込んだシステムを開発できる。例えば、フィルタリング機能を使い、安全なLlama 2を開発できる。また、Llama 2は、Amazon Web ServicesやHugging Face経由でも提供され、これらのサイトからダウンロードできる。

モデルの構成

Metaが提供するLlama 2は、三つのモデル(カッコ内はパラメータの数)から構成される:

  • Llama-2-7B: (70億)
  • Llama-2-13B: (130億)
  • Llama-2-70B: (700億)

これに加え、会話モデル「Llama 2-Chat」が公開された。これはLlama 2を会話データで再教育したもので、チャットボットとして機能する。同様に三つのモデルから構成される:

  • Llama-2-7B-Chat: (70億)
  • Llama-2-13B:-Chat (130億)
  • Llama-2-70B-Chat: (700億)

(OpenAIとの対比では、Llama-2-70B-ChatがChatGPTに相当する。)

Llama 2-Chatの性能

Llama-2-70B-Chatの性能は、ChatGPTに匹敵する (下のグラフ最上段)。実際には、両者の性能を比較すると、Llama-2-70B-Chatの勝率は35.9%、負けは32.5%、引き分けは31.5%で、ほぼ互角の性能となる。これは、生成AIがどれだけ役に立つかという有益性(Helpfulness)で評価したもので、人間の検証者がこれを判定した。一方、Metaは、言語モデルを評価するもう一つの指標として、安全性(Safety)を導入しており、こちらはLlama-2-70B-ChatがChatGPTを上回った。

出典: Meta

モデルの教育方法

Llama 2-Chatは、Llama 2という言語モデルを、会話モデルに最適化する手法で開発された。Llama 2はプレ教育(Pretrained)された大規模言語モデルで、これを会話データで再教育し、Llama 2-Chatを生成した(下のグラフィックス)。その際に、人間のフィードバックでアルゴリズムを教育し、モデルは人間と対話するスキルを習得した。前述の通り、Llama 2-Chatは、有益性(Helpfulness)と安全性 (Safety)という二つの基軸を持つチャットボットとして生成された。

出典: Meta

教育で使ったデータ

Llama 2はインターネットに公開されているデータで教育された。但し、Metaが運用しているFacebookなどのデータは使われていない。また、公開情報の中でも、個人情報が多数含まれているサイトでは 、公開情報から個人情報を削除している。Llama 2は2兆トークンで教育され、Llama 1の1.4倍の量となり、これが性能向上の大きな要因となる。

Red Teaming

MetaはLlama 2の開発でモデルの安全性を強化するために、「Red Teaming」という手法を使った。これは、開発者がモデルを攻撃し、アルゴリズムの脆弱性を発見し、これを補強する手法となる。攻撃者は、サイバー攻撃の専門家の他に、電子詐欺や偽情報開発の専門家、法律家、政治家、人権団体など、幅広い分野のエキスパートが参加した。また危険性を検証する分野として下記を選定した:

  • リスク分野:犯罪計画、人身売買、非合法薬物、ポルノ、非合法医療など
  • 攻撃分野:仮定の質問、プロンプトの改造、繰り返される対話など
  • 兵器製造:核兵器、生物学兵器、化学兵器、サイバー攻撃など

安全性に関する評価

Red Teamingという手法を導入することで、Llama 2-Chatは極めて安全なモデルとなった。Llama 2-Chatは、人間のフィードバックでアルゴリズムを教育し安全性を高めたが、それでもアルゴリズムは危険性を内包している。これらをRed Teamingの手法で改良することで、安全性を向上させた。バイデン政権はAI企業に、安全なモデルを生成するために「Red Teaming」の手法を推奨したが、Metaはこれに準拠した最初の企業となった。その結果、危険な情報を出力する割合が大きく低下し(下のグラフ、紺色の部分)、ChatGPT(下のグラフ、右端)と比較し、高い安全性をマークした。

出典: Meta

Metaの目論見は

MetaはLlama 2をオープンソースとして公開する理由として、コミュニティと共同で生成AIを開発することで、成長のスピードが速まるとしている。具体的には、Metaは、Llama 2の利用状況を把握し、それをベースにモデルを改良することで、大きな進展が期待できるとしている。この背後には、Facebookで偽情報が拡散し、アメリカ社会が混乱した問題がある。これを教訓にMetaは、生成AIでは他社に先駆けて安全なモデルを投入し、社会に寄与することを目指している。

Metaは大規模言語モデル「LLaMA」を開発、これをオープンサイエンスの手法で公開し生成AIの危険性を解明する

Metaは大規模言語モデル「LLaMA (Large Language Model Meta AI)」を開発し、これを一般に公開した。生成AIの開発が進み、OpenAIは「GPT-4」を、Googleは「Bard」を開発したが、これらはクローズドソースとして運用され、モデルに触れることはできない。これに対し、MetaはLLaMAの内部情報を公開し、研究者はこれを使ってアルゴリズムの解明を進め、生成AIの危険性の解明が進むと期待される。

出典: Meta

LLaMAとは

LLaMAはMetaが開発した大規模言語モデルで、アルゴリズムのサイズは小さいが、高度な機能を実現した。このため、小規模なコンピュータシステムで稼働させることができ、大学などで言語モデルの開発が進むと期待されている。生成AIの開発はOpenAIやGoogleが独占的に進めているが、LLaMAを利用することで研究機関でChatGPTに匹敵するモデルを開発することが可能となる。実際に、スタンフォード大学は「LLaMA(ラマ)」(上の写真)をベースにした言語モデル「Alpaca(アルパカ)」(下の写真)を開発した。

出典: Stanford University

AIモデルの概要

LLaMAは四つのモデルを提供しており、それぞれ、パラメータの数は67億、130億、325億、652億となる(下のテーブル)。パラメータの数がアルゴリズムの規模を示し、その数が多くなるほどサイズが大きくなる。OpenAIが開発したGPT-3のパラメータの数は1750億であるが、Metaによると、LLaMA-13B(130億)のモデルの性能が上回るとしている。LLaMAの特長は、モデルの規模が小さいが高性能を達成することで、十分な計算施設を持たない研究機関で運用が可能となる。

出典: Hugo Touvron et al.

ファウンデーションモデル

LLaMAは「ファウンデーションモデル(Foundation Models)」という種類のAIモデルとなる。ファウンデーションモデルとは、プレ教育されたAIモデルを指し、これを目的に合わせて再教育(Fine-Tune)して利用する。例えば、ファウンデーションモデルを金融データで再教育すると、フィンテックに特化したAIモデルを生成できる。LLaMAはウェブサイトからスクレ―ピングしたデータ(Common Crawl)や、それを整備したデータ(C4)を使って教育された(下のテーブル)。LLaMAのサイズは小さいが、大量のデータで教育されたため、高度な性能を示すことができる。

出典: Hugo Touvron et al.

オープンサイエンスの手法

MetaはLLaMAを大学などに無償で提供しており、研究者はこのモデルを使って研究を進めることができる。言語モデルは規模が大きくなると、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となる。LLaMAを公開することで、大規模言語モデルの仕組みや挙動の解明が進み、アルゴリズムのバイアスや有害な情報の出力を抑止できると期待される。この手法は「オープンサイエンス」と呼ばれ、開発コミュニティでAIの研究を進め、アルゴリズムの危険性を解明する。Metaは応募者を審査してソースコードにアクセスする権利を付与している。LLaMAにアクセスするためには下記のサイトから申請する。

出典: Meta

オープンソースの危険性

一方、大規模言語モデルをオープンソースとして公開することには危険性を伴う。LLaMAのような高度なモデルが悪意ある団体の手にわたると、それが悪用され、社会に甚大な被害をもたらす。特に、LLaMAを使うと個人に特化したスパムメールやフィッシングメールを大量に生成でき、サイバー攻撃広がると懸念される。更に、LLaMAは高度な偽情報を生成し、国民世論を扇動する危険性も指摘される。

ソースコードがリーク

実際に、LLaMAの発表直後に、ソースコードがリークするという事件が発生した。ソースコードのファイルがウェブサイト「4chan」に掲載され、誰でもが自由にアクセスできる状態になっていた。具体的には、LLaMAをプレ教育した時のニューラルネットワークのパラメータ「Model Weights」がリークした。これを使うと独自のAIモデルを開発でき、社会に害悪を与えるコンテンツが生み出される。その後、LLaMAを悪用した被害は報告されていないが、オープンサイエンスの手法の弱点が露呈した。

リスクとメリットのバランス

生成AIの開発は完全にクローズドソースの手法で開発されている。OpenAIはGPT-4を開発したが、API経由でモデルを利用することは認めているが、その内部情報は公開されていない。これに対し、MetaはLLaMAを公開し、オープンサイエンスの手法でAI研究を進める。モデルが悪用されるリスクはあるが、AI研究が進展するというメリットが大きいと判断し、公開に踏み切った。生成AIを安全に運用するための規制が進んでいるが、Metaはこれを技術面から支えることになる。

Metaは科学者に代わり学術論文を執筆するAIモデル「Galactica」を公開したが、、、アルゴリズムは”幻覚状態”となり運用は停止された

Metaは世界の科学情報を理解するAIモデル「Galactica」を開発し、ウェブサイトで運用を始めた。しかし、アルゴリズムは倫理的に許容できない文章を出力し、また、奇想天外な科学情報を生成し、即座に運用が停止された。Metaは大規模言語モデルを世界の学術論文で教育し、科学技術を理解するAIモデルの開発を目指したが、この試みは不発に終わった。科学技術という真実を対象とする分野でも、アルゴリズムはバイアスし、AI開発の難しさが改めて露呈した。

出典: Meta

科学情報へのアクセス

Galacticaは、Meta AIと非営利団体「Papers with Code」が開発した大規模言語モデルで、世界の科学情報を集約し、知的に管理することを目的とする。ネットには学術論文など科学情報が掲載されているが、その量は膨大で、目的とする情報を見つけ出すのは容易ではない。また、目的の情報にアクセスした後は、論文を読み下し、内容を把握するためには多大な時間を要す。

Galacticaのコンセプト

Galacticaは、研究者に代わり、このプロセスをAIモデルで実行することを目的に開発された。Galacticaは大規模な言語モデルで、膨大な量の学術論文や科学情報で教育され、科学技術を理解するAIとなる。科学者は目的とする学術情報を、Googleなどで検索するのではなく、Galacticaに尋ねるとAIが的確に回答する。言語モデルが知的な化学技術エンジンとなり、識者に質問する要領で、Galacticaが目的の情報を表示する。(下のグラフィックス、Galacticaに「教師無し学習に関する論文」について質問すると、その論文の要約が示される。)

出典: Meta

多種類のトークン

Galacticaは言語モデルであるが、自然言語の他に、科学技術用語で教育され、これらの意味を理解できる。Galacticaがカバーする範囲は広く、異なるドメインの用語(Token)を理解できる。その主なものは、論文の引用 (Citations)、推論(Reasoning)、数学(Mathematics)、分子配列、アミノ酸配列、DNA配列などである。つまり、GalacticaはDNA配列を理解し、遺伝子工学の情報を解釈できる。

論文の引用

利用者が、ボックスに質問を入力すると、Galacticaがこれに回答するインターフェイスとなる。論文の引用では、技術概要を入力すると、Galacticaはそれに関する論文を表示する(下のグラフィックス)。機械学習に関し「数字を理解するニューラルネットワーク」と入力すると(左側)、Galacticaは手書き文字を理解する技法を記載した論文を示す(右側、Yann LeCunのBackpropagationの論文)。

出典: Meta

科学技術の知識

また、Galacticaはプログラムや数式の意味を平易な言葉説明する機能がある(下のグラフィックス)。Pythonのコードを入力すると(左側)、Galacticaはこのコードの機能を説明する(右側、総和を求めるプログラム)。

出典: Meta

デバッグ

更に、Galacticaは数式の解法を検証し、間違っている理由を説明する機能がある(下のグラフィックス)。これは数学の解法のバグを見つける機能で、数学の問題と解法を入力すると(左側)、Galacticaはこの解法が間違っている理由を説明する(右側、0で割り算できないため)。

出典: Meta

想定外の質問を受ける

Galacticaは研究者に便利な機能を提供し、論文を執筆する際の重要なツールになると期待されていた。しかし、Galacticaが公開されると同時に、多くの利用者が常識はずれの質問を入力し、言語モデルの限界が試された。これらの想定外の質問に対し、Galacticaは荒唐無稽な回答を返し、事実とは異なる結果を数多く示した。また、Galacticaは差別用語などを回答し、アルゴリズムがバイアスしていることも明らかになった。

荒唐無稽な回答

Galacticaを検証した結果はTwitterなどに数多く掲載され、問題が公の場で詳らかになった。その一つが学術論文の引用で、Galacticaは荒唐無稽な回答を示した(下の写真)。利用者が「砕いたガラスを食べることの効用を示した論文」と質問すると、Galacticaは論文の要旨として、「食事に砕いたガラスを取り入れることでポジティブな効果があることが認められた」と回答した。勿論、このような事実はなく、Galacticaは幻覚状態(Hallucination)にあると揶揄された。

出典: Tristan Greene @ Twitter

言語モデル開発の難しさ

Metaは使用上の注意事項として、Galacticaは高品質なデータで教育されているが、アルゴリズムが出力するデータは必ず正確であるとの保証はなく、利用者が検証する必要があるとしている。実際に、Galacticaは学術論文の他にWikipediaなどネット上のデータを教育データとしているが、「幻覚状態」になることを回避できなかった。利用者は荒唐無稽な回答をソーシャルメディアで拡散し、この事態を深刻に受け止め、MetaはGalacticaの運用を即座に中止した。科学技術の分野であっても、言語モデルの開発の難しさを改めて露呈した事例となった。

AIで短編映画を制作する時代が到来!Metaはテキストからビデオを生成する技法「Make-a-Video」を公開

Metaはテキストをビデオに変換するAIを公開した。これは「Make-a-Video」と呼ばれ、言葉の指示を理解し、それに従ってビデオを生成する機能を持つ。例えば、「スーパーマンのマントをまとった犬が空を飛ぶ」と指示すると、AIはそのシーンをビデオとして生成する(下の写真)。生成されたビデオの品質は高く、メタバースやプロモーションビデオの作成などで利用される。

出典: Meta

Make-a-Videoの概要

「Make-a-Video」は入力されたテキストを解析し、その意味を理解して、指示に沿って、ショートビデオを生成する。AIは異なるスタイルのビデオを生成し、現実には起こりえないシーンを描き出す(上の写真、「空を飛ぶ犬」)。また、これとは対照的に、現実のシーンを高精度で描写する(下の写真左側、「水を飲んでいる馬」)。更に、油絵のタッチなど、特定のスタイルでビデオを生成することもできる(下の写真右側、「イブニングドレスを着た二人が帰宅中に土砂降りの雨にあったシーン」)。

出典: Meta

ビデオを生成する仕組み

Make-A-Videoは複数のAIを組み合わせ、入力されたテキストを、荒い動画に変換し、その解像度をあげて、解像度の高いビデオを生成する仕組みとなる(下のグラフィックス)。AIは、入力されたテキストの意味を把握し、それをイメージに変換する(「P」の部分)。更に、そのイメージから、動画を構成するフレームを生成し(「Dt」)、フレームの数を増やし(「F」)、それらの解像度を上げる(「SRtl」と「SRh」)処理を実行する。Make-A-Videoは、テキストからラフな動画を生成し、複数のAIでその解像度を向上し、最終ビデオを生成する構造となる。

出典: Uriel Singer et al.

イメージからビデオを生成

Make-A-Videoはこの他に、イメージをビデオに変換する機能がある。AIが、入力された1枚のイメージを、ショートビデオに変換する。例えば、オランダの画家レンブラント(Rembrandt)の名作「ガラリアの海の嵐(The Storm on the Sea of Galilee)」をMake-A-Videoに入力すると(下の写真左側)、アルゴリズムはこれをショートビデオに変換する(右側)。ここには、嵐の中でキリストを乗せた船が、高波を受けて航行する様子が、動画で描かれている。

出典: Meta

ビデオからバリエーションを生成

更に、Make-A-Videoは、入力したビデオからそのバリエーションを生成する機能がある。AIが、入力されたビデオのフレームを解析し、その意味を理解して、バリエーションを生成する。宇宙飛行士が宇宙遊泳しているビデオを入力すると(下の写真左側)、AIはそれをアレンジしたビデオを生成する(右側)。

出典: Meta

AIがイメージを生成

Metaは、これに先立ち、テキストをイメージに変換するAI「Make-A-Scene」を公開している。AIは、入力された言葉の指示に従って、イメージを生成する。例えば、「笑っている紫色のヤマアラシ」と言葉で指示すると、Make-A-Sceneはこのイメージを生成する(下の写真中央)。

出典: Oran Gafni et al.

人間に代わりAIがクリエータになる

今回は、Metaはこの機能を拡張し、「Make-a-Video」として、テキストをビデオに変換するアルゴリズムを開発した。これらはコンテンツを生成するAIで、AI研究のホットテーマとなり、新技術が続々登場している。人間に代わりAIがビデオを生成する時代に突入し、メタバースの開発や、企業のプロモーションビデオの制作などでの展開が期待されている。