月別アーカイブ: 2024年9月

Metaは小型モデル「Llama 3.2」を公開、ARグラスなどエッジデバイスのAIエンジンとなる、パソコンで稼働し開発コミュニティで人気急騰

Metaは開発者会議「Connect 2024」を開催し、生成AI最新モデル「Llama 3.2」を公開した。Llama 3.2は小型モデル「Small Model」とマルチモダル「Multimodal」の二つのシステムから構成される(下の写真)。前者はエッジデバイスで稼働するスリムなモデルで、スマートグラスやパソコンで使われる。後者はマルチモダルで映像を解析する高度な機能を持つ。開発者は効率的な生成AIを求めており、Llama 3.2の利用が急拡大している。

出典: Meta

Connect 2024の概要

Metaは今週、本社キャンパスで開発者向けのイベント「Connect 2024」を開催した。基調講演でMark Zuckerbergはスマートグラス「Ray-Ban Meta smart glasses」とMRヘッドセット「Meta Quest 3S」を公開した。更に、次世代スマートグラスのプロトタイプ「Orion」を始めて開示した。Orionはメガネにホログラムディスプレイを搭載したもので、目の前に3Dオブジェクトを生成する(下の写真)。MRヘッドセットは不要で、ビデオ会議画面やアバターを3Dで生成し、遠隔地の友人とバーチャルに交流でき、メタバースを実現する基礎技術となる。

出典: Meta

Llama 3.2

Zuckerbergは基調講演で生成AIの最新モデル「Llama 3.2」について解説した。MetaはLlamaシリーズの生成AIモデルを開発し、これらをオープンソースとして公開している。最新版は小型軽量のモデルで、二つのタイプから構成される (xBはバラメータの数):

Metaは7月に大規模モデル「Llama 3.1 405B」をリリースしたが、今回は中規模から小規模モデルを中心に公開した。Zuckerbergによると、大規模モデルは巨大な計算環境と高度なスキルと必要とするが、Llama 3.2はパソコンなどで運用でき、開発コミュニティで普及が広がっている。

小型モデル

小型モデルは「Llama 3.2 1B」と「Llama 3.2 3B」の二機種で、スマホやパソコンなどエッジデバイスで稼働する。これらのモデルはQualcomm、Mediatek、ARMプロセッサで運用される。軽量であるが機能は高く、スマホで文章の要約や文章生成のアシスタントとして利用する。グループがテキストメッセージで旅行の計画をする際には、Llama 3.2がこれを読み込み、その要約を生成し、そこからアクションアイテムを抽出し、それをカレンダーに登録するなどの機能がある(下の写真)。メッセージはスマホで処理され、個人情報がクラウドに送信されることは無く、個人のプライバシーを守ることができる。

出典: Meta

マルチモダル

マルチモダルは「Llama 3.2 11B」と「Llama 3.2 90B」の二機種あり、イメージを理解するビジョンを備えている。モデルは入力された写真を理解し、それに関する推論機能「Image Reasoning」を実行する。暖炉の写真をLlama 3.2に入力すると、モデルはそれを解析し暖炉の特徴をテキストで出力し、これにベースに別のタイプの暖炉を推奨する(下の写真)。この際に、「Retrieval Augmented Generation(RAG)」という手法を使い、異なるタイプの暖炉の情報を参照している。

出典: Meta

セーフガード機能

Metaはモデルを安全に利用するためのツール「Llama Guard」をオープンソースとしてリリースした。Llama Guardはモデルのガードレールとして機能し、危険な情報をフィルタリングする(下の写真)。二つのモジュールから構成され、「Input Safeguard」はユーザが入力するプロンプトを検証し、危険なコマンドやモデルへの攻撃などを防ぐ。また、「Output Safeguard」はモデルが出力するデータを解析し、ここに危険情報があれば出力を抑止する。

出典: Meta

小型モデルの開発手法

小型モデルは既にリリースされた大型モデルを使って開発された。ゼロからの開発ではなく、既存技術を移転する手法で短時間に開発された。具体的には、「Llama 3.2 1B」と「Llama 3.2 3B」を既にリリースした大型モデル「Llama 3.1」を使って開発した。開発では「Pruning」と「Distillation」という手法が使われた。

  • Pruning:モデルのニューラルネットワークの一部を削除して軽量にする手法。既存モデル「Llama 3.1 8B」をベースにこれをPruningして軽量化する手法が取られた。
  • Distillation:大型モデルのスキルを抽出し、これを小型モデルに移す手法。既存モデル「Llama 3.1 8B」と「Llama 3.1 70B」が教師となり、このスキルを生徒モデル「Llama 3.2 1B」と「Llama 3.2 3B」に伝授した。(下の写真)
出典: Meta

ベンチマーク結果

この結果、Llama 3.2は市場のリーダーに匹敵する性能をマークした。マルチモダルである「Llama 3.2 90B」は、イメージのベンチマークでOpenAIの「GPT-4o-mini」を上回る性能を示した(下のテーブル)。また、小型モデル「Llama 3.2 3B」は、Microsoftの小型モデル「Phi-3.5-mini IT」を凌駕する性能をマークしこの市場でトップの座を占めた。

出典: Meta

製品への実装:Meta AI

MetaはLlama 3.2をオープンソースとして公開するだけでなく、自社製品に搭載し利用者に提供している。Metaは対話形式のAIモデル「Meta AI」を運用しており、FacebookやInstagramから利用できる。例えば、ヤギを撮影しそれをMeta AIにアップロードし、これを言葉で編集することができる。「ヤギをサーフボードに乗せて」と指示すると、Meta AIはその画像を生成する(下の写真)。この背後で最新モデルLlama 3.2が稼働している。

出典: Meta

製品への実装:スマートグラス

Zuckerbergは基調講演でLlama 3.2小型モデルはMetaが開発しているスマートグラスに搭載しインテリジェントな機能を実現すると説明した。スマートグラスのカメラが捉えた映像をAIモデルで解析し、そのオブジェクトを音声で説明する機能などがある(下の写真)。上述の通り、Metaは次世代スマートグラス「Orion」を開発しており、軽量モデルがデバイスに搭載され、真のメタバースの世界を構築する。

出典: Meta

小型モデルとオープンソース

Llama 3.2小型モデルはパソコンで稼働させることができ、開発コミュニティで利用が急拡大している。パソコンにLlama 3.2をダウンロードし、それを実行環境(「Ollama」など)で稼働させる。また、ファインチューニングやRAGなどのツールも揃っており、一連の最適化プロセスをパソコンで実行できるようになり、生成AI開発の敷居が大きく下がった。今まではクラウドで生成AIシステムを開発してきたが、これをパソコンで実行できるようになり、水面下で利用が急拡大している。

小規模言語モデル「Small Language Model(SLM)」の利用が急拡大!! 生成AIシステムの99%はSLMで構築できる、効率的なモデルへの期待が高まる

小規模言語モデル「Small Language Model (SLM)」の研究開発が進み、アメリカ市場で利用が拡大している。この背景には、大規模モデル「Large Language Model (LLM)」の機能や性能への不信感があり、市場はLLMとSLMの二つのハブに分化している。プロセッサに例えると、LLMはスパコンに匹敵し巨大プロジェクトを実行する。SLMはデータセンタのサーバやPCやスマホとなり、日常のタスクを実行するために使われる。SLMの機能や性能は向上を続け、AI利用シーンンの99%をカバーするとの解釈が広がっている。

出典: Codiste

LLMとSLMの性能が接近

技術進化でSLMの性能がLLMに急接近している。LLMの開発が進むがそのペースは緩やかで、一方、SLMの性能は急ピッチで伸びており、両者のギャップが狭まりつつある。LLMは規模を拡大することで、機能や性能を改良してきたが、そのスケーラビリティが限界に近づいている。LLMの開発では巨大な計算環境が必要で、モデルの教育は大量のデータを要する。また、開発されたLLMは構造が複雑で、内包するリスクが大きく、これらのモデルを安全に運用するには高度なスキルを要す。これに対し、SLMは構造がシンプルで、目的に特化したデータで最適化され、業務に特化した専用AIシステムとして使われる。

SLMの定義

モデルのサイズはパラメータの数で規定され、SLMは「小型言語モデル」で、少ない数のパラメータで構成される。明確な定義は確定していないが、パラメータの数が10B(Billion)から20B以下のモデルをSLMと呼んでいる。企業はSLMの開発を進め、Metaは「Llama 3.1 8B」を投入した。Google DeepMindは「Gemma 2 9B」をMicrosoftは「Phi-3-mini 3.8B」をリリースした。これらは効率性を追求したモデルで、クラウドだけでなくローカルのサーバやPCで運用できることが特徴となる。

SLMのベンチマーク性能

SLMは技術開発が進み、LLMには及ばないが、両者の性能ギャップは急速に縮まっている。Metaのベンチマーク結果によると、「Llama 3.1 8B」の言語性能(MMLU、0-shot)はOpenAIの「GPT-4」に接近している(下のテーブル、二段目)。また、Google DeepMindの「Gemma 2 9B」の言語性能(MMLU、5-shot)もGPT-4に迫っている(下のテーブル、最上段)。因みに、GPT-4はMixture of Experts(MOE)というアーキテクチャで、8つの専用モジュールから構成され、システム全体でパラメータの数は1,760B (220B x 8)となり、SLMに比べて約200倍の規模となる。

出典: Meta

SLMが注目される理由:専用AIシステム

SLMは小型モデルで、特定のタスクに特化したAIシステムとして利用されるケースが多い。一方、LLMは大規模モデルで、多種類のタスクを実行でき、汎用AIシステムとして展開される。SLMは開発されたモデルを最適化「Fine-Tuning」して、特定のアプリケーションを実行するAIシステムとして利用される。

SLMが注目される理由:セキュリティとプライバシー

SLMはモデルのサイズがコンパクトでエッジコンピューティングを実現する。モデルを企業内のサーバやPCで稼働させることで、機密情報が外部にリークするリスクが激減する。また、エッジデバイスで個人情報を処理するため、プライバシー保護を厳格に実行できる。このため、SLMは強固なセキュリティが法令で義務付けられている業種で利用が広がっている。例えば、金融機関や医療機関は、個人情報保護で法令に順守する必要があるが、SLMでこの要件を満たすことができる。

出典: Adobe Stock

SLMが注目される理由:安全性

SLMはモデルの規模が小さいことに加え、高品質なデータで教育されているケースが多く、バイアスした情報や有害なコンテンツを出力するリスクが激減する。LLMはインターネット上のデータでプレ教育され、これを再教育して、品質を向上させるアプローチを取る。SLMの教育では大量のデータは不要で、厳選された高品質のデータで教育するプロセスを取る。これにより、LLMを悩ませるハルシネーションの問題を大きく低減できる。

SLMを開発する手法:Knowledge Distillation

SLMはLLMと同様に、トランスフォーマ「Transformers」をベースとするアーキテクチャであるが、そのレイヤーの数は少なくコンパクトなネットワークとなる。SLMは様々な手法で開発されるが、LLMの知識をSLMにトランスファーする「Knowledge Distillation」という技法が使われる(下の写真)。LLMが有している知識を抽出し、これをSLMに移植する方式で、短時間でモデルのスキルを向上させる。実際に、Googleの言語モデル「BERT」から知識を抽出する手法で、小型言語モデル「DistilBERT」が開発された。DistilBERTはBERTに比べてモデルのサイズは40%小さいが、言語能力の97%を有する。

出典: Jianping Gou et al.

SLMを開発する手法:Fine-Tuning

基礎教育されたSLMは、次のステップでFine-Tuning(最適化)される。このプロセスでは、タスクに特化したデータでモデルのパラメータを最適化し、業務に特化したAIシステムを構築する(下の写真、Low-Rank Adaptationという手法の事例)。金融情報サービス会社BloombergはオープンソースのLLM「BLOOM」を金融データで教育した大規模モデル「BloombergGPT-50B」を開発した。その後、Microsoftは小型モデルを業界に特化したデータで最適化した「AdaptLLM-7B」を公開した。AdaptLLM-7Bは金融業務専用のAIシステムで、ベンチマークでBloombergGPT-50Bを上回る性能をマークした。1/7のサイズのモデルで大規模モデルの性能を上回った。

出典: Edward Hu et al.

AIビジネスでの差別化

GPT-4oなどLLMでビジネスを構築する際に、他社とどう差別化するかについて、シリコンバレーで議論が広がっている。LLMのAPIを利用し、このモデルの上にアプリケーション層を構築し、独自のAIシステムを構築する。このアプリケーション層は「Wrapper(被い)」と呼ばれ、ここが企業の差別化の鍵となる。しかし、AIシステムの基盤は共通のLLMで、企業が他社に比べ大きな優位性を示すことができない。LLMでは他社に市場を奪われないための堀「Moat」を構築することが困難となる。

出典: OpenAI GPT-4o

LLMとSLMの二極化

これに対し、SLMをベースに独自のモデルを創り上げることで、他社に対する防衛を強固にし、新たなビジネスを切り開けるとの期待が広がっている。また、LLMは巨大テック数社がコントロールする世界であるのに対し、SLMで各社が独自のAIシステムを生み出すことで、技術革新が加速し、事業が拡大するとの解釈が示されている。これからの生成AI市場は、クラウド経由でLLMのAPIを利用する形態と、各企業が独自のSLMを開発し運用するという、二つの陣営に分化することになる。

iPhone 16にApple Intelligenceが搭載される、AppleはモバイルAI企業に大きな一歩を踏み出す

Appleは9月9日、発表イベント「It’s Glowtime」でApple IntelligenceをiPhone、iPad、Macに搭載し、来月から米国で公開することを明らかにした。一方、EUや中国では法令の制約から、Apple Intelligenceのリリース時期を延期する。Apple Intelligenceは生成モデルと個人情報を組み合わせたシステムで、インテリジェントな機能を提供する。一方、Apple Intelligenceの機能はベーシックで、ここがスタート地点で、段階的にアップグレードされることになる。(下の写真、進化したSiriを起動するとデバイスの周囲が輝く(Glow)。)

出典: Apple

Apple Intelligenceとは

Apple Intelligenceは「パーソナル・インテリジェンス(Personal Intelligence)」として位置付けられ、生成AIモデルで個人データを解析し、利用者にインテリジェントなライフスタイルをもたらす。Apple Intelligenceは基本ソフト「iOS 18.1」などに搭載され、来月から米国で公開される。12月にはオーストラリアやカナダなどの英語圏で、来年には日本や中国など多国語対応モデルがリリースされる。一方、Apple Intelligenceについては、EUと中国ではリリースを見送る。EUでは巨大テックの独占を禁止する法令「Digital Markets Act (DMA)」に準拠することが求められ、その解釈が明確になるまで出荷を見合わせる。

Apple Intelligenceの機能

Apple IntelligenceはiPhone やiPadやMacに実装され、デバイスの機能をインテリジェントにする(下の写真)。「Writing Tools」はドキュメントを作成する支援ツールとなり、「Summaries」は受信したメールなどの要約を生成する。「Advanced Siri」はインテリジェントなSiriで、個人情報を理解しエージェントのように知的にタスクを実行する。「Clean Up」は写真撮影したイメージから不要な部分を削除する機能を持つ。

出典: Apple

文章作成ツール:Writing Tools

文書作成ツールはメールなどに統合され、文章作成を支援する機能を持つ。生成したドラフトを査読し、また、異なるトーンに編集する機能などがある。例えば、履歴書を送付する際に、メールの内容を格調高い形式にアップグレードするなどの使い方がある(下の写真)。

出典: Apple

写真クリーンアップ:Clean Up

写真クリーンアップは写真撮影したイメージの中から不要な部分を消去するツールで、簡単な操作でこれを実行できる。例えば、被写体の背景に写りこんだ自転車などを取り除くために使われる(下の写真)。写真の編集はAdobe Photoshopなどが使われるが、これをデバイス上で実行できる。

出典: Apple

進化したSiri:インテリジェンス

Apple IntelligenceでSiriの機能がアップグレードされた。Siriは自然な会話で対話することができ、言葉を理解する能力が向上した。また、Siriは個人情報にアクセスし、メールやテキストメッセージなどのコンテンツを理解し、問われたことに対し的確に回答する。「Juneから受信したファイルを表示」と指示すると、Siriは人間の秘書のようにタスクを実行する(下の写真、左上)。

出典: Apple

進化したSiri:デバイスの操作

SiriはApple WatchやAirPodsと連携し、これらのデバイスを言葉で操作できる。屋外における利用を想定しており、Apple Watchに「30分のランニング開始」と指示すると、フィットネス・アプリが起動し、スタートのカウントダウンが始まる(下の写真左側)。また、AirPodsに「アップビートな音楽を再生」と指示したり(右側)、また、メールの発信を命令することもできる。更に、「CarPlay」と連携し、クルマのダッシュボードと言葉で対話し、目的地までのナビゲーションを起動する。MRグラスである「Apple Vision Pro」を音声で操作することもできる(最終ページの写真)。

出典: Apple

Apple Intelligenceの評価が分かれる

発表イベントではApple Intelligenceを中心にiPhone 16などのハードウェア新機能が発表された。AIがメインテーマであるが、その評価については肯定的な意見と否定的な意見が聞かれる。Apple Intelligenceは革新的な技術ではなく、ベーシックな機能を提供している、との解釈が主流になっている。例えば、「Writing Tools」の機能は既に他社から提供され、消費者の多くはこれを既に利用しており、新鮮さに欠けるという見方である。

出典: Apple

AppleがAIに慎重な理由

同時に、Appleは高度なAIを提供することに対し、慎重な姿勢を示しているとの解釈もある。欧米の消費者の多くはAIに対し、安全性に関する懸念を抱いている。他社から先進的な技術が投入されるが、消費者はこれに対し漠然とした恐怖感を抱いている。Appleは安全でセキュアな製品を開発する会社で、Apple Intelligenceについては、慎重に開発を進め段階的に機能をアップグレードする戦略を取る。

AppleのAIビジネス

同時に、Appleはクラウド企業ではなく、iPhoneなどエッジコンピューティングを提供する会社で、AIでどう事業を構築するかが問われている。斬新なAIの投入でiPhoneなどの買い替えが進むことを期待しており、Apple IntelligenceでiPhone 16の売り上げが伸びることを狙っている。一方、高度なSiriを投入すると、専用アプリを使う必要性が低減し、アプリストアの収入の減少につながる。更に、検索エンジンの利用が低下する可能性があり、Apple Intelligenceが事業収入にマイナスに作用する可能性もある。エッジコンピューティング企業であるAppleは、Apple Intelligenceでどうビジネスを構築するのか、AI時代の事業構造の模索が始まった。

出典: Apple

人間の知能を超えるAI「スーパーインテリジェンス(ASI)」の開発を始動!!Sutskeverは安全性を最優先したASIを2030年までに投入

AI研究の第一人者であるIlya Sutskeverは今年6月、人間の知能を超えるAI「Artificial Superintelligence (ASI)」を開発する企業「Safe Superintelligence Inc.(SSI)」を設立した。今週、SSIは主要ベンチャーキャピタルから10億ドルの出資を受けたことを発表した。SSIはこの資金を元に、安全性を最優先したスーパーインテリジェンスの開発に着手した。

出典: Adobe Stock

Safe Superintelligence Inc.とは

Safe Superintelligence Inc.(SSI)はIlya Sutskeverらにより設立されたスタートアップ企業で、カリフォルニア州パロアルトとイスラエル・テルアビブを拠点とし、人間の知能を凌駕するスーパーインテリジェンスを開発する。Sutskever(下の写真右側)はOpenAIでスーパーインテリジェンスを人間の価値に沿って稼働させる技術「スーパーアラインメント(Super-alignment)」の研究責任者を務めた。SutskeverはSam Altman(左側)の解任騒動のあとOpenAIを去りSSIを創設した。

出典: Getty Images

会社のミッション

SSIは安全なスーパーインテリジェンスを開発することをミッションとし、短期レンジでビジネスを運営するのではなく、長期レンジで研究開発を進める。安全なスーパーインテリジェンスの開発では、AI技術と安全技術を並列で開発しながら、モデルの規模を拡大していく戦略を取る。このプロセスでは、安全機能の開発を優先し、モデルの規模を拡大していく。ベンチャーキャピタルからの資金はコンピュータ環境の構築や研究者の給与などに充てる。

ベンチャーキャピタルからの投資

Andreessen HorowitzやSequoia Capitalなど主要ベンチャーキャピタルが10億ドルを出資し、SSIの企業価値は50億ドルとなった。ここ最近、ベンチャーキャピタルはAI企業への投資に慎重な姿勢を示しており、まだプロトタイプも完成していない企業に大型投資を実行したことで、SSIの構想に注目が集まっている。

スーパーインテリジェンスとは

スーパーインテリジェンスは「Artificial Superintelligence (ASI)」と呼ばれ、人間の知能を凌駕するAIを指す。一方、人間レベルのインテリジェンスは「Artificial General Intelligence (AGI)」と呼ばれ、ASIと対比して使われる。また、現行のAIは特定のタスクの処理に特化したモデルで「Artificial Narrow Intelligence (ANI)」と呼ばれる。ASIは高度な学習能力を持ち、短期間でスキルを獲得する。また、人間が解決できない大きな問題を解決することができるとされる。このペースで開発が進むとASIは2030年までに登場するという予測が業界の共通見解となっている。

出典: Adobe Stock

スーパーインテリジェンスのイメージ

Sutskeverは講演の中でスーパーインテリジェンスについて語っている。スーパーインテリジェンスは人間を超越するAIであるが、物理的にはデータセンタ全体がこのモデルを実現す。巨大なデータセンタが大規模モデルを実行し、人間の知能を超えるタスクを実行する。巨大データセンタ=スーパーインテリジェンスという概念となる。Sutskeverは、スーパーインテリジェンスが人間に敵対意識を持たないよう、人類と友好的な関係を築くことが肝要であると述べている。モデルの開発では人間に対しポジティブな意識をもつよう方向を調整する「スーパーアラインメント」が重要になる。

出典: Adobe Stock

スーパーインテリジェンスを安全に開発する技法

SSIはスーパーアラインメントについて具体的な手法は公開していないが、SutskeverはOpenAIでこの研究を担っていた。それによると、スーパーインテリジェンスの開発では、モデルを人間の意図に沿って稼働させることが最大のチャレンジとなる。この問題を解決する手法として、人間に代わりアラインメントを評価するAI「アラインメントAI」を開発するアプローチを取る。スーパーインテリジェンスの開発では人間がモデルを評価するには限界があり、人間に代わりアラインメントAIがこれを司る。具体的には:

  • Scalable Oversight:アラインメントAIがAIモデルを評価する
  • Generalization:アラインメントAIが学習したスキルを他の分野に応用する

AIの開発ではモデルの規模が大きくなると、AIが実行するタスクが複雑になり、また、それぞれの領域で高度な専門知識が必要になり、人間がこれを実行するには限界がある。このため、人間の評価者に代わりアラインメントAIがこれを実行する手法を取る。

スーパーインテリジェンス開発の見通し

Sutskeverはベンチャーキャピタルからファンディングを受けたあと、Xにツイートを掲載し、スーパーアラインメント開発の目途がついたことを明らかにした(下の写真)。「Mountain: identified.  Time to climb」と書き込み、どの山をアタックすれば安全なスーパーインテリジェンスを開発できるのか、指針が定まったことを示唆した。基礎研究の段階を経て、あとはエンジニアリングの問題で、山に登るときが来たと述べている。

出典: Ilya Sutskever

Sutskeverの背景情報

Sutskeverは旧ソビエト連邦出身のコンピュータサイエンティストで、ニューラルネットワークの生みの親として知られている。Sutskeverは2012年、トロント大学で画像を判定するニューラルネットワークを開発し精度を劇的に向上させた。このモデルは「AlexNet」と呼ばれ、Convolutional Neural Network(CNN)というモデルの基礎技術となった。これがAIブームの口火を切り、現在の生成AIに繋がっている。

Sutskeverの人物像

SutskeverはOpenAIで安全技術の研究開発を進めてきたが、Sam Altmanは次世代製品の開発を優先する方向に転換し、解任騒動のあと会社を離脱しSSIを設立した。Sutskeverの講演を聴くとスーパーインテリジェンスの安全機構の重要性を理解できる。Sutskeverは研究者であるが技術に関し深い理解を示し、AIの哲学者でもある。AIの真理を把握し、モデルの挙動規範を評価する倫理学者としての側面を持つ。SutskeverはこのペースでAI開発が進むとスーパーインテリジェンスが生まれるのは自明の流れで、これに先立ち、いまから安全技術の研究開発を進める必要があるとの信念を持つ。