カテゴリー別アーカイブ: Facebook

MetaはAIモデル「Muse Spark」を公開、ゼロから開発しアーキテクチャを一新、マルチモダルで他社をキャッチアップしたが推論機能は未完成、将来性が期待できトップ集団を猛追

Metaは新たにAI開発研究所「Meta Superintelligence Labs(MSL)」を設立しフロンティアモデルの開発を進めてきた。研究所の所長はAlexandr Wangで、Zuckerbergが会社を買収するかたちで引き抜いた。Wangは28歳と若手のエリートでMetaのAI開発の総責任者となる。研究所設立後9ヶ月で最初のモデル「Muse Spark」をリリースした。ゼロベースで開発されたモデルで、トップ集団に迫る性能を示しその将来性が期待される。

出典: Generated with OpenAI GPT-5.5 Image

MetaはAI開発体制を一新

Muse SparkはMeta Superintelligence Labs(MSL)が開発した最初のフロンティアモデルでトップ集団に迫る性能に到達した。MetaはAI研究所「Meta Fundamental AI Research (FAIR)」でLlamaシリーズを開発してきたが、モデルの規模を拡大しても性能は上がらず、苦戦を強いられている。Zuckerbergは新組織MSLを設立し、ここでWangが総責任者となり、新モデルの開発を進めてきた(下のイメージ)。Muse Sparkがその最初の成果で、アーキテクチャを一新し、Llamaとは異なるシリーズとして位置付けられる。

出典: Generated with OpenAI GPT-5.5 Image 

MetaのAIモデル体系

MetaはLlamaシリーズを開発しこれをオープンソースとして公開してきた。今では開発の中心はMuse Sparkで、このシリーズがMetaのフラッグシップモデルとなる。新研究所MSLでAI技術の研究開発が進められ、それらは「Avocado」と「Mango」と呼ばれる。Avocadoは高度な推論機能を搭載したフロンティアモデルで、Muse Sparkにその技術が搭載されている。Mangoはマルチメディア(イメージやビデオ)等を生成するモデルで、独立したシリーズとして製品化される。AvocadoとMangoはクローズドソースとなり、Metaは戦略を大きく転換した。

出典: Generated with OpenAI GPT-5.5 Image 

Muse Sparkの性能

Muse Sparkは際立った特徴を示し、マルチモダルのベンチマークテストでは先頭集団に追い付いた。一方で、推論機能やコーディング・エージェントの試験ではまだ出遅れている。MetaはMuse Sparkのベンチマークテスト結果を公表し、これを分野別にグラフ化すると下記の通りとなる。マルチモダルの試験(Multimodalの部分)とヘルスケアの試験(Healthの部分)ではトップ集団をキャッチアップした。一方で、推論機能(Reasoningの部分)とエージェント機能(Agenticの部分)の試験では出遅れている。

出典: Generated with OpenAI GPT-5.5 Image 

データ品質とアルゴリズム

Muse Sparkはベンチマークテスト区分で性能に大きな相違がある。アルゴリズムを教育するデータ品質が性能に大きく影響するマルチモダルやヘルスでは高い性能を示した。WangはScale AIの創業者で、同社はOpenAIなどに高品質な教育データを提供してきた。WangはこのスキルをMuse Sparkに反映し、高品質なモデルを造り上げた。一方で、推論機能やエージェント機能ではアルゴリズムの改良や強化学習のスキルが求められ、Muse Sparkは開発の課題を浮き彫りにした。

個人向けスーパーインテリジェンス

MetaはMuse Sparkで個人向けスーパーインテリジェンス「Personal Superintelligence」を構築するビジョンを明らかにした。マルチモダル推論機能が極めて高く、カメラで捉えたイメージを解析し、実社会を理解し利用者のウェルネスなどに役立てる。Metaはスマートグラス「Orion」を開発しており、カメラが捉えたビデオをMuse Sparkで解析するなどのアプリケーションを開発している。(下の写真、冷蔵庫の中の写真をMuse Sparkが解析した事例、「Cannoli Pastries」は飽和脂肪と糖分が多くコレストロール管理には最悪の食品と評価)

出典: Meta 

マルチモダル

Muse Sparkはネイティブのマルチモダルでビジュアルな情報を幅広いドメインに組み込んでいる。科学・技術・工学・数学(STEM)の分野におけるビジュアル解析を強みとし、オブジェクトの認識や位置情報の把握で威力を発揮する。入力されたイメージを解析しインタラクティブに情報を提供する。(下の写真、エスプレッソマシンの使い方をインタラクティブに説明、左側に手順が示され、そこにカーソルを当てるとマシンの関連部分がハイライトされる)

出典: Meta 

ヘルスケアとウェルネス

Muse Sparkの最重要アプリケーションはヘルスケアとウェルネスで、利用者が健康に生活するための情報を提供する。Metaは1,000人の医師と共同でモデル教育のためのデータを精選し、Muse Sparkは医療関連データについて幅広い知識を習得し、広範囲な質問に回答できる。Muse Sparkはインタラクティブなパネルに健康に関する情報を提供する。(下の写真、ダンスの写真を入力すると、Muse Sparkはエクササイズのポイントを解説、赤丸にカーソルを合わせるとエクササイズを向上させるためのコツを表示)

出典: Meta 

オープンソースからクローズドソースへ

ZuckerbergはScale AIを143億ドルで買収し、天才AI研究者Alexandr Wangを獲得した。その最初の成果がMuse Sparkで、マルチモダルで先頭集団に追い付き、推論機能を強化するためのアルゴリズム開発を進めている。MetaはAI開発戦略を大幅に変更し、Llamaシリーズをオープンソースとして公開してきたが、Muse Spark / AvocadoとMangoのラインはクローズドソースとして運営する。中国企業はオープンソース戦略でエコシステムを拡大する戦略を取り、Metaが戦略を転換したことで、米国企業はクローズドソース戦略という色分けが鮮明となった。

MetaはAI開発が難航し最大の危機に直面、スーパーインテリジェンス研究所を設立し立て直しを図る、著名研究者を競合他社から引き抜き推論機能を強化

Metaは会社創業以来の危機に直面している。MetaはAI最新モデル「Llama 4」を投入したが、ベンチマーク性能は先頭集団に及ばず、AI開発での出遅れが顕著になった。ハイエンドモデル「Behemoth」は出荷時期が延伸され、開発が不調であることを裏付けている。CEOのMark ZuckerbergはAI開発体制を一新し「スーパーインテリジェンス研究所」を創設した。スタートアップ企業Scale AIを買収し、また、OpenAIなどから著名研究者を引き抜き、研究体制を大幅に強化した。(下の写真、スーパーインテリジェンス研究所のイメージ)

出典: Generated with Google Imagen 4

MetaのAI開発が難航

MetaはAIモデル「Llama」を開発し、そのコードや重みをオープンソースとして公開してきた。初代のLlamaからLlama 3はトップレベルの性能を示し、開発コミュニティで幅広く使われている。しかし、Metaは今年4月にLlama 4をリリースしたが(下の写真)、ミッドレンジモデル「Maverick」はOpenAIやGoogleの対抗モデルと比較して、推論機能が大きく劣ることが明らかになった。また、実社会でのベンチマーク「LM-Arena」では30位の成績で、トップグループからの出遅れが顕著となった。

出典: Meta

スーパーインテリジェンス研究所

Zuckerbergはこれを重大な危機と認識し、MetaのAI開発体制を一新し、「スーパーインテリジェンス研究所(Superintelligence Labs)」を設立した。研究所のミッションは次世代モデルの開発で、人間の知能を凌駕するスーパーインテリジェンスを開発する。MetaはAIスタートアップ企業「Scale AI」に143億ドル投資し、創業者のAlex Wangを研究所の代表に任命した。また、OpenAIやGoogleから著名研究者を引き抜き、AI開発のドリームチームを結成した。

出典: Generated with Google Imagen 4

スーパーインテリジェンス研究体制

スーパーインテリジェンス研究所はCEO直属組織で、所長のWang(下の写真右側)がZuckerberg(左側)に直接レポートする。現在、コアの研究者の数は50名と言われるが、Zuckerbergは業界の著名研究者をアグレッシブに採用している。MetaはOpenAIの主要研究者にオファーを出し、採用ボーナスとして1億ドルを提示したとされる。この他に、Google、Perplexity、Safe Superintelligenceの研究者の採用を試みている。

出典: Stocktwis / CNBC

採用された研究者のプロフィール

実際に採用された研究者の経歴を見ると、Metaの次世代モデル開発の戦略を読み取ることができる。MetaのAI開発が難航している理由は推論モデルで、このノウハウを持つ研究者を重点的に採用している。更に、MetaはスマートグラスをAIで強化することでインテリジェントなウエアラブルを製品化する。このため、ビジョン・トランスフォーマなどマルチモダルの研究者を数多く採用した。また、所長のWangはデータやインフラの第一人者で、推論モデル開発で必須となる教育データ生成のノウハウを持つ。

スーパーインテリジェンス研究所の開発テーマ

スーパーインテリジェンス研究所のミッションは人間の知能を凌駕するAIモデルを開発することにある。技術的には、上述の推論機能を強化するため、強化学習(Reinforcement Learning)や思考の連鎖(Chain of Thought)が研究テーマとなる。また、AIが実社会とインタラクションするために「世界モデル」を開発する。世界モデルとはAIシステムが3D物理社会のコンテキストを理解し、次の挙動を予測する能力となる。スーパーインテリジェンスに加えロボティックにおける重要な基礎技術となる。また、人間の知能を上回るAIシステムを安全に制御するために、セーフティ技術の開発が必須となる。(下の写真、Metaの本社キャンパス)

出典: Meta

オープンソース戦略の見直し

MetaはAI開発におけるオープンソース戦略の見直しを進めている。MetaはLlamaシリーズをオープンソースとして公開することで、コミュニティのAI開発を支え社会に多大な貢献をしている。一方、高度なAIをオープンソースとして開発することで、マイナスの面が顕著になってきた。特に、推論モデルにおいてこれをオープンソースとして公開すると、AIの思考プロセスが開示され、開発競争において不利になる。また、スーパーインテリジェンスなど高度なモデルを公開することは敵対国や攻撃団体に悪用されるリスクが高まり国家安全保障の重大な問題となる。Metaはスーパーインテリジェンスにおけるオープンソース戦略の見直しを進めている。

LeCunとの関係

MetaのAI開発が低迷した理由の一つにYann LeCun(下の写真)のインテリジェンス開発に関するビジョンが影響している。LeCunはMetaのAI研究所「Fundamental AI Research (FAIR)」(現在は「Meta AI」)の所長としてAI開発をリードしてきた。LeCunは人間の知能に匹敵するAGI開発に懐疑的なポジションを取り、いまの言語モデルを拡張してもAGIには到達できないと考える。Metaが独自の手法を探索している間に、OpenAIやGoogleは言語モデルや推論モデルを拡張しAGIを目指し大きな成果を上げている。ZuckerbergはLeCunの手法と一定の距離を置き、スーパーインテリジェンス研究所を設立し次世代モデルの開発にリソースを投入する。

出典: Meta

臨戦態勢で先端技術を開発

AI先進モデルの開発ではアルゴリズム、データセンタ、データがコア技術となり、研究開発の成否を握る。アルゴリズムにおいては、先端モデルの開発に従事している研究者は20人程度と言われている。これら最先端研究者がOpenAIやGoogleで次世代モデルを生み出している。MetaがOpenAIから数多く研究者を引き抜いたが、OpenAIもGoogleから研究者をスカウトした。Zuckerbergは参謀本部(War Room)を創設し、ここで臨戦態勢でAI開発を推進する。Metaはトップ集団に追い付くことができるのか、スーパーインテリジェンスの開発が注目される。(下の写真、MetaデータセンタのNvidia GPUクラスター)

出典: Nvidia

Metaは巨大言語モデル「Llama 4」を公開、オープンソースが業界トップの性能を達成、中国モデルの躍進を受け性能とコストを大幅に改良

Metaは最新のオープンソース言語モデル「Llama 4」を公開した。Llama 4はOpenAI GPT-4.5など業界のトップモデルの性能に並び、オープンソースがクローズドソースのレンジに入った。Llama 4はマルチモダルな構造で、イメージやビデオをそのまま処理することができる。Llama 4は「Mixture of Expert (MoE)」というアーキテクチャを採用し、複数の専用モジュールがモデルを構成する。これにより、教育や実行のプロセスで計算量を低減し、運用コストを大幅に抑えた。

出典: Generated with Meta Llama 4

Llama 4のモデル構成

Llama 4はMetaの最新言語モデルで三つのラインから構成される。規模の順に「Behemoth」、「Maverick」、「Scout」となる。Behemothはまだ開発中で、MaverickとScoutがリリースされた。Llama 4はマルチモダルで「Mixture of Expert(MoE)」というアーキテクチャとなる。モデルの特徴は:

  • Llama 4 Behemoth:ハイエンドモデル、最もインテリジェントなモデル、教師モデルとして他のモデルをKnowledge Distillation(知識抽出)の手法で開発、パラメータ数は2T
  • Llama 4 Maverick:ミッドレンジモデル、マルチモダル処理に特徴、パラメータ数は400B
  • Llama 4 Scout:ローエンドモデル、コンテクストサイズ(入力できるデータの量)は10Mと巨大、パラメータ数は109B
出典: Meta

Llamaの利用方法

MetaはLlamaを「Meta AI」に公開しており、このサイトで利用することができる。Meta AIはLlamaのインファレンスサイトで、ブラウザーのインターフェイスで、モデルを使うことができる(下の写真、Llama 4 Scoutがイメージを生成)。対話形式のAIモデルで、プロンプトに対し、Llamaが回答を生成する。特に、Metaはイメージ生成技術にフォーカスしており、Llamaは指示された内容に沿って綺麗なイメージを生成する。

出典: Meta AI

Llama 4をダウンロード

Llama 4をHugging Faceからダウンロードして利用することができる。Hugging FaceはオープンソースAIのハブで、ここにLlama 4が公開されている。ここは開発者向けのサイトで、社内のサーバやデスクトップにダウンロードして利用する。但し、Llama 4はモデルのサイズが大きく、PCでは容量が足りず、最低限でもNvidia GPU H100が1ユニット必要となる。また、Hugging Faceはインファレンスサービスを提供しており、ここでLlama 4をトライアルで実行しその機能や性能を検証することができる(下の写真、Maverickで入力した写真を解析)。

出典: Hugging Face

クラウドサービス

主要クラウドはLlama 4のホスティングを開始し、ここでモデルを利用することができる。Googleはクラウド「Vertex AI」でLlama 4のホスティングを始め、この環境でモデルを実行することができる(下の写真)。また、独自のデータでLlama 4をファインチューニングし、専用モデルを開発することができる。GoogleはLlamaの他に、DeepSeekなど主要オープンソースをホスティングをしており、ここで様々なモデルを利用できる。

出典: Google

Llama 4 Maverickの性能

Llama 4 Maverickはシリーズの中核モデルで、他社の主要モデルに対抗する位置づけとなる。MaverickはMoEアーキテクチャを採用し、128のエキスパートで構成される。モデル全体ではパラメータ数は400Bであるが、インファレンス時に活性化されるパラメータ数は17Bで、効率的に稼働させることができる。ベンチマークサイト「LMArena」はモデルの性能を公開しており、これによると、MaverickはGPT-4.5やGrok 3などを追い越し、二位の位置を占めている(下のグラフ)。

出典: AI Arena benchmark scores

Mixture of Expertsの採用

アーキテクチャの観点からは、MetaはLlama 4で「Mixture of Experts (MoE)」という方式を採用した。Llama 3までは「Dense Model」と呼ばれる単一構成のモデルで、Llama 4からMoEに移った。MoEとは入力されたプロンプトに対し、最適なエキスパート(専門モジュール)がアサインされ、タスクを実行する仕組みとなる(下のダイアグラム)。

出典: Meta

Mixture of Expertsの仕組み

具体的には、ルーター「Router」がプロンプトを解析し、最適なエキスパートにデータを転送、この専門モジュールで処理が進むまた、共有エキスパート「Shared Expert」はプロンプトの内容に関わらず、常に使われるモジュールとなる。MoEにより活性化されるネットワークが限定され、トレーニングやインファレンスを効率的に実行できる。Llama 4 Maverickのケースでは、モデル全体でパラメータの数は400Bであるが、実行時には17Bのパラメータが活性化され、システムの4%の部分だけが稼働し、計算処理を大きく低減する。

DeepSeekとの競合

MetaはDeepSeekの衝撃を受けてLlama 4の開発を急ピッチで進めた。DeepSeekが高度な言語モデル「DeepSeek-V3」をリリースし、MetaのAI開発チームはこの技術を詳細に解析し、これがLlama 4に反映されている。Llama 4 MaverickはDeepSeek-V3を意識した設計となっており、DeepSeek-V3と同等の推論機能を半分の規模(パラメータの数が1/2)で実現した。DeepSeekとの競合でMetaの技術開発が大きく前進したかたちとなった。

Metaは小型モデル「Llama 3.2」を公開、ARグラスなどエッジデバイスのAIエンジンとなる、パソコンで稼働し開発コミュニティで人気急騰

Metaは開発者会議「Connect 2024」を開催し、生成AI最新モデル「Llama 3.2」を公開した。Llama 3.2は小型モデル「Small Model」とマルチモダル「Multimodal」の二つのシステムから構成される(下の写真)。前者はエッジデバイスで稼働するスリムなモデルで、スマートグラスやパソコンで使われる。後者はマルチモダルで映像を解析する高度な機能を持つ。開発者は効率的な生成AIを求めており、Llama 3.2の利用が急拡大している。

出典: Meta

Connect 2024の概要

Metaは今週、本社キャンパスで開発者向けのイベント「Connect 2024」を開催した。基調講演でMark Zuckerbergはスマートグラス「Ray-Ban Meta smart glasses」とMRヘッドセット「Meta Quest 3S」を公開した。更に、次世代スマートグラスのプロトタイプ「Orion」を始めて開示した。Orionはメガネにホログラムディスプレイを搭載したもので、目の前に3Dオブジェクトを生成する(下の写真)。MRヘッドセットは不要で、ビデオ会議画面やアバターを3Dで生成し、遠隔地の友人とバーチャルに交流でき、メタバースを実現する基礎技術となる。

出典: Meta

Llama 3.2

Zuckerbergは基調講演で生成AIの最新モデル「Llama 3.2」について解説した。MetaはLlamaシリーズの生成AIモデルを開発し、これらをオープンソースとして公開している。最新版は小型軽量のモデルで、二つのタイプから構成される (xBはバラメータの数):

Metaは7月に大規模モデル「Llama 3.1 405B」をリリースしたが、今回は中規模から小規模モデルを中心に公開した。Zuckerbergによると、大規模モデルは巨大な計算環境と高度なスキルと必要とするが、Llama 3.2はパソコンなどで運用でき、開発コミュニティで普及が広がっている。

小型モデル

小型モデルは「Llama 3.2 1B」と「Llama 3.2 3B」の二機種で、スマホやパソコンなどエッジデバイスで稼働する。これらのモデルはQualcomm、Mediatek、ARMプロセッサで運用される。軽量であるが機能は高く、スマホで文章の要約や文章生成のアシスタントとして利用する。グループがテキストメッセージで旅行の計画をする際には、Llama 3.2がこれを読み込み、その要約を生成し、そこからアクションアイテムを抽出し、それをカレンダーに登録するなどの機能がある(下の写真)。メッセージはスマホで処理され、個人情報がクラウドに送信されることは無く、個人のプライバシーを守ることができる。

出典: Meta

マルチモダル

マルチモダルは「Llama 3.2 11B」と「Llama 3.2 90B」の二機種あり、イメージを理解するビジョンを備えている。モデルは入力された写真を理解し、それに関する推論機能「Image Reasoning」を実行する。暖炉の写真をLlama 3.2に入力すると、モデルはそれを解析し暖炉の特徴をテキストで出力し、これにベースに別のタイプの暖炉を推奨する(下の写真)。この際に、「Retrieval Augmented Generation(RAG)」という手法を使い、異なるタイプの暖炉の情報を参照している。

出典: Meta

セーフガード機能

Metaはモデルを安全に利用するためのツール「Llama Guard」をオープンソースとしてリリースした。Llama Guardはモデルのガードレールとして機能し、危険な情報をフィルタリングする(下の写真)。二つのモジュールから構成され、「Input Safeguard」はユーザが入力するプロンプトを検証し、危険なコマンドやモデルへの攻撃などを防ぐ。また、「Output Safeguard」はモデルが出力するデータを解析し、ここに危険情報があれば出力を抑止する。

出典: Meta

小型モデルの開発手法

小型モデルは既にリリースされた大型モデルを使って開発された。ゼロからの開発ではなく、既存技術を移転する手法で短時間に開発された。具体的には、「Llama 3.2 1B」と「Llama 3.2 3B」を既にリリースした大型モデル「Llama 3.1」を使って開発した。開発では「Pruning」と「Distillation」という手法が使われた。

  • Pruning:モデルのニューラルネットワークの一部を削除して軽量にする手法。既存モデル「Llama 3.1 8B」をベースにこれをPruningして軽量化する手法が取られた。
  • Distillation:大型モデルのスキルを抽出し、これを小型モデルに移す手法。既存モデル「Llama 3.1 8B」と「Llama 3.1 70B」が教師となり、このスキルを生徒モデル「Llama 3.2 1B」と「Llama 3.2 3B」に伝授した。(下の写真)
出典: Meta

ベンチマーク結果

この結果、Llama 3.2は市場のリーダーに匹敵する性能をマークした。マルチモダルである「Llama 3.2 90B」は、イメージのベンチマークでOpenAIの「GPT-4o-mini」を上回る性能を示した(下のテーブル)。また、小型モデル「Llama 3.2 3B」は、Microsoftの小型モデル「Phi-3.5-mini IT」を凌駕する性能をマークしこの市場でトップの座を占めた。

出典: Meta

製品への実装:Meta AI

MetaはLlama 3.2をオープンソースとして公開するだけでなく、自社製品に搭載し利用者に提供している。Metaは対話形式のAIモデル「Meta AI」を運用しており、FacebookやInstagramから利用できる。例えば、ヤギを撮影しそれをMeta AIにアップロードし、これを言葉で編集することができる。「ヤギをサーフボードに乗せて」と指示すると、Meta AIはその画像を生成する(下の写真)。この背後で最新モデルLlama 3.2が稼働している。

出典: Meta

製品への実装:スマートグラス

Zuckerbergは基調講演でLlama 3.2小型モデルはMetaが開発しているスマートグラスに搭載しインテリジェントな機能を実現すると説明した。スマートグラスのカメラが捉えた映像をAIモデルで解析し、そのオブジェクトを音声で説明する機能などがある(下の写真)。上述の通り、Metaは次世代スマートグラス「Orion」を開発しており、軽量モデルがデバイスに搭載され、真のメタバースの世界を構築する。

出典: Meta

小型モデルとオープンソース

Llama 3.2小型モデルはパソコンで稼働させることができ、開発コミュニティで利用が急拡大している。パソコンにLlama 3.2をダウンロードし、それを実行環境(「Ollama」など)で稼働させる。また、ファインチューニングやRAGなどのツールも揃っており、一連の最適化プロセスをパソコンで実行できるようになり、生成AI開発の敷居が大きく下がった。今まではクラウドで生成AIシステムを開発してきたが、これをパソコンで実行できるようになり、水面下で利用が急拡大している。

Metaは生成AI最新モデル「Llama 3」を公開、オープンソースがクローズドソースの性能を追い越す!!企業や研究機関は高速モデルを自由に利用でき選択肢が広がる

Metaは生成AI最新モデル「Llama 3」をオープンソースとして公開した。最上位モデルはGPT-4レベルの性能で、オープンソースが業界トップに到達した。Llama 3はAWSなど主要なクラウドで公開され、この環境でモデルを利用できる。また、MetaはLlama 3をベースとするAIアシスタント「Meta AI」の運用を開始した。FacebookやInstagramなどでチャットボットとしてユーザと対話する。高度な生成AIをオープンソースとして公開すると、これが悪用される危険性があるため、Metaはセキュリティに関する様々な技術を公開した。

出典: Meta

発表概要

Metaは4月18日、生成AI最新モデル「Llama 3」を投入し、これをオープンソースとして公開した。モデルのソースコードや重み(Weights)が公開され、企業はこれをダウンロードして独自のAIシステムを構築できる。また、Llama 3はAWSやGoogle CloudやMicrosoft Azureなど主要なクラウドで利用できる。更に、Llama 3をベースとするAIアシスタント「Meta AI」の運用を開始した。これはChatGPTのようなチャットボットで、ウェブやソーシャルメディアで対話形式で利用する。MetaはオープンソースであるLlama 3が悪用され社会に危険性をもたらすことを防ぐため、様々なセキュリティ技術を開発しこれを公開した。

Llama 3のモデル

発表されたLlama 3は三つのサイズと二つのタイプから構成される。サイズはモデルのパラメータの数で示され、小型モデルと中型モデルが公開され、大型モデルは開発中で今後リリースされる。タイプはモデルの教育方法を示し、基礎教育モデルと最適化モデルとなる:

モデルのサイズ

  • 小型モデル:Llama 3 8B (80億パラメータ)
  • 中型モデル:Llama 3 70B (700億パラメータ)
  • 大型モデル:Llama 3 400B (4000億パラメータ、開発中)

モデルのタイプ

  • 基礎教育モデル:Pre-trained (一般的な教育を実施したモデル)
  • 最適化モデル:Instruction-Fine-Tuned (上記のモデルを人間の命令に従うよう最適化したモデル、高性能モデル)

ベンチマークテスト

Llama 3は生成AIの小規模と中規模クラスでトップの性能を示した。小型モデル「Llama 3 8B」は、フランス企業Mistral社の「Mistral 7B」を追い越した(下のグラフ左側)。中型モデル「Llama 3 70B」はGoogleの「Gemini Pro 1.5」を上回った(右側)。大型モデル「Llama 3 400B」はまだ開発中であるが、Metaは途中経過の性能を公開し、それによるとOpenAI GPT-4-Turboと互角の性能となる。オープンソース生成AIが業界トップの性能を達成した。

出典: Meta

アーキテクチャ

Llama 3が高い性能を実現したのはアーキテクチャの改良によるところが多い。Llama 3はLlama 2と同様に「Decoder-only Transformer」というアーキテクチャを採用している。テキストを生成することに重点を置いたシステムで、これが生成AIの事実上の標準アーキテクチャとなっている。一方、Llama 3は様々な技法でアーキテクチャを改良した。その中心は、「Tokenizer」のサイズを拡大したことと、「Grouped Query Attention (GQA)」という方式を採用したことにある:

  • Tokenizer:モデルが一度に処理できるトークンのサイズ。Llama 3は128KでLlama 2から4倍に拡大し処理効率が向上。
  • Grouped Query Attention (GQA):アテンション機構で情報を共有する仕組み。これによりインファレンス処理を高速化。Llama 3は小型モデルと中型モデルにこれを採用。

データ:サイズを拡大し品質を向上

Llama 3では教育データのサイズを拡大し、また、データの品質を向上した。教育データのサイズは15Tトークンと、Llama 2に比べて四倍に拡大。また、教育データの中でプログラムコードの量が増え、Llama 3はコード生成機能が強化された。更に、教育データの5%が英語以外の言語で、マルチリンガルに向かっている。データの品質に関しては、フィルタリング機能を改良し、有害なコンテンツや重複しているデータを排除した。また、テキストの分類機能を導入し、データの品質を向上し、これらがモデルの性能改善に大きく寄与している。

スケーリング:大量のデータで小規模モデルを教育

MetaはLlama 3の開発で、教育データのサイズと教育に要する計算量が最適の組み合わせになるポイントを探求した。モデルの規模を大きくすると少ない量の教育データで性能を上げることができる。しかし、このためには多くの計算量が必要となりコストが増大する。Llama 3の開発では、教育データの量を増やすことで小さいモデルでも高い性能を実現できる構造を探求した。大量の教育データ(15Tトークン)で小さなモデルを教育することで高性能のシステムを実現した。

セキュリティ

オープンソースを基盤とするAI開発では、利用企業がモデルを倫理的に運用する責任を負うが、MetaはLlama 3に安全機能を組み込むなどセキュリティ技術を強化した(下の写真)。MetaはLlama 3を最適化するプロセスで「Red Teaming」という手法でモデルの安全性を検証した。これは開発者がモデルを攻撃し、その危険性を洗い出す手法で、サイバーセキュリティや化学兵器・生物兵器の生成などの観点から安全性を検証した。更に、Llama 3向けのセキュリティ技術を開発しこれらを公開した:

  • Llama Guard 2:ファイアーウォールとして機能し危険なプロンプトや不適切な出力をフィルタリング
  • CyberSecEval 2:モデルがサイバー攻撃で悪用される可能性を査定する
  • Code Shield:モデルがプログラムを生成する際に、その中で危険なコードを検知する
出典: Meta

主要クラウドに展開

Llama 3はAWSやGoogle Cloud(下の写真)やMicrosoft Azureなど主要なクラウドで利用できる。更に、Llama 3はビッグ3の他に、Databricks、Hugging Face、Kaggle、IBM WatsonX、NVIDIA NIMなど、専門サイトのクラウドで利用できる。MetaはLlama 3を多彩なクラウドで展開しており、開発者は用途に応じて開発運用基盤を選択できる。

出典: Google

Meta AI

Llama 3はクラウドで展開されるだけでなく、Metaは社内でこのモデルを利用している。Llama 3はAIチャットボット「Meta AI」として運用されており、ウェブサイトでLlama 3と対話形式で生活やビジネスに必要な情報を得ることができる(下の写真)。このサービスにおいてはMicrosoftとGoogleの検索エンジンとリンクしており、最新情報を提示する。また、Metaは「Meta AI」をソーシャルメディアに実装する計画で、Facebook、Instagram、WhatsAppからAIチャットボットを使うことができる。

出典: Meta

オープンソースとして公開する理由

ZuckerbergはMetaが開発するAIを一貫してオープンソースとして公開する方針を維持している。モデルを公開する理由は技術開発のペースを上げることで、MetaはコミュニティのLlamaに関するフィードバックをベースに技術改良を進めている。また、Zuckerbergは高度な生成AIがOpenAIとGoogleの二社にコントロールされることを危惧している。スマートフォンの基本ソフトがAppleとGoogleに制御され、活発な技術革新が阻害されていると指摘する。これを教訓に、Metaは生成AIを幅広く公開し、イノベーションを加速させる戦略を取る。一方、Zuckerbergはオープンソースの危険性を把握しており、事前にモデルを検証し、安全が確認されるとこれを公開するとしている。市場でオープンソースの生成AIが急速に普及しており、Llama 3がこの流れを加速させ、市場構成が大きく変わり始めた。