カテゴリー別アーカイブ: 人工知能

小規模言語モデル「Small Language Model(SLM)」の利用が急拡大!! 生成AIシステムの99%はSLMで構築できる、効率的なモデルへの期待が高まる

小規模言語モデル「Small Language Model (SLM)」の研究開発が進み、アメリカ市場で利用が拡大している。この背景には、大規模モデル「Large Language Model (LLM)」の機能や性能への不信感があり、市場はLLMとSLMの二つのハブに分化している。プロセッサに例えると、LLMはスパコンに匹敵し巨大プロジェクトを実行する。SLMはデータセンタのサーバやPCやスマホとなり、日常のタスクを実行するために使われる。SLMの機能や性能は向上を続け、AI利用シーンンの99%をカバーするとの解釈が広がっている。

出典: Codiste

LLMとSLMの性能が接近

技術進化でSLMの性能がLLMに急接近している。LLMの開発が進むがそのペースは緩やかで、一方、SLMの性能は急ピッチで伸びており、両者のギャップが狭まりつつある。LLMは規模を拡大することで、機能や性能を改良してきたが、そのスケーラビリティが限界に近づいている。LLMの開発では巨大な計算環境が必要で、モデルの教育は大量のデータを要する。また、開発されたLLMは構造が複雑で、内包するリスクが大きく、これらのモデルを安全に運用するには高度なスキルを要す。これに対し、SLMは構造がシンプルで、目的に特化したデータで最適化され、業務に特化した専用AIシステムとして使われる。

SLMの定義

モデルのサイズはパラメータの数で規定され、SLMは「小型言語モデル」で、少ない数のパラメータで構成される。明確な定義は確定していないが、パラメータの数が10B(Billion)から20B以下のモデルをSLMと呼んでいる。企業はSLMの開発を進め、Metaは「Llama 3.1 8B」を投入した。Google DeepMindは「Gemma 2 9B」をMicrosoftは「Phi-3-mini 3.8B」をリリースした。これらは効率性を追求したモデルで、クラウドだけでなくローカルのサーバやPCで運用できることが特徴となる。

SLMのベンチマーク性能

SLMは技術開発が進み、LLMには及ばないが、両者の性能ギャップは急速に縮まっている。Metaのベンチマーク結果によると、「Llama 3.1 8B」の言語性能(MMLU、0-shot)はOpenAIの「GPT-4」に接近している(下のテーブル、二段目)。また、Google DeepMindの「Gemma 2 9B」の言語性能(MMLU、5-shot)もGPT-4に迫っている(下のテーブル、最上段)。因みに、GPT-4はMixture of Experts(MOE)というアーキテクチャで、8つの専用モジュールから構成され、システム全体でパラメータの数は1,760B (220B x 8)となり、SLMに比べて約200倍の規模となる。

出典: Meta

SLMが注目される理由:専用AIシステム

SLMは小型モデルで、特定のタスクに特化したAIシステムとして利用されるケースが多い。一方、LLMは大規模モデルで、多種類のタスクを実行でき、汎用AIシステムとして展開される。SLMは開発されたモデルを最適化「Fine-Tuning」して、特定のアプリケーションを実行するAIシステムとして利用される。

SLMが注目される理由:セキュリティとプライバシー

SLMはモデルのサイズがコンパクトでエッジコンピューティングを実現する。モデルを企業内のサーバやPCで稼働させることで、機密情報が外部にリークするリスクが激減する。また、エッジデバイスで個人情報を処理するため、プライバシー保護を厳格に実行できる。このため、SLMは強固なセキュリティが法令で義務付けられている業種で利用が広がっている。例えば、金融機関や医療機関は、個人情報保護で法令に順守する必要があるが、SLMでこの要件を満たすことができる。

出典: Adobe Stock

SLMが注目される理由:安全性

SLMはモデルの規模が小さいことに加え、高品質なデータで教育されているケースが多く、バイアスした情報や有害なコンテンツを出力するリスクが激減する。LLMはインターネット上のデータでプレ教育され、これを再教育して、品質を向上させるアプローチを取る。SLMの教育では大量のデータは不要で、厳選された高品質のデータで教育するプロセスを取る。これにより、LLMを悩ませるハルシネーションの問題を大きく低減できる。

SLMを開発する手法:Knowledge Distillation

SLMはLLMと同様に、トランスフォーマ「Transformers」をベースとするアーキテクチャであるが、そのレイヤーの数は少なくコンパクトなネットワークとなる。SLMは様々な手法で開発されるが、LLMの知識をSLMにトランスファーする「Knowledge Distillation」という技法が使われる(下の写真)。LLMが有している知識を抽出し、これをSLMに移植する方式で、短時間でモデルのスキルを向上させる。実際に、Googleの言語モデル「BERT」から知識を抽出する手法で、小型言語モデル「DistilBERT」が開発された。DistilBERTはBERTに比べてモデルのサイズは40%小さいが、言語能力の97%を有する。

出典: Jianping Gou et al.

SLMを開発する手法:Fine-Tuning

基礎教育されたSLMは、次のステップでFine-Tuning(最適化)される。このプロセスでは、タスクに特化したデータでモデルのパラメータを最適化し、業務に特化したAIシステムを構築する(下の写真、Low-Rank Adaptationという手法の事例)。金融情報サービス会社BloombergはオープンソースのLLM「BLOOM」を金融データで教育した大規模モデル「BloombergGPT-50B」を開発した。その後、Microsoftは小型モデルを業界に特化したデータで最適化した「AdaptLLM-7B」を公開した。AdaptLLM-7Bは金融業務専用のAIシステムで、ベンチマークでBloombergGPT-50Bを上回る性能をマークした。1/7のサイズのモデルで大規模モデルの性能を上回った。

出典: Edward Hu et al.

AIビジネスでの差別化

GPT-4oなどLLMでビジネスを構築する際に、他社とどう差別化するかについて、シリコンバレーで議論が広がっている。LLMのAPIを利用し、このモデルの上にアプリケーション層を構築し、独自のAIシステムを構築する。このアプリケーション層は「Wrapper(被い)」と呼ばれ、ここが企業の差別化の鍵となる。しかし、AIシステムの基盤は共通のLLMで、企業が他社に比べ大きな優位性を示すことができない。LLMでは他社に市場を奪われないための堀「Moat」を構築することが困難となる。

出典: OpenAI GPT-4o

LLMとSLMの二極化

これに対し、SLMをベースに独自のモデルを創り上げることで、他社に対する防衛を強固にし、新たなビジネスを切り開けるとの期待が広がっている。また、LLMは巨大テック数社がコントロールする世界であるのに対し、SLMで各社が独自のAIシステムを生み出すことで、技術革新が加速し、事業が拡大するとの解釈が示されている。これからの生成AI市場は、クラウド経由でLLMのAPIを利用する形態と、各企業が独自のSLMを開発し運用するという、二つの陣営に分化することになる。

iPhone 16にApple Intelligenceが搭載される、AppleはモバイルAI企業に大きな一歩を踏み出す

Appleは9月9日、発表イベント「It’s Glowtime」でApple IntelligenceをiPhone、iPad、Macに搭載し、来月から米国で公開することを明らかにした。一方、EUや中国では法令の制約から、Apple Intelligenceのリリース時期を延期する。Apple Intelligenceは生成モデルと個人情報を組み合わせたシステムで、インテリジェントな機能を提供する。一方、Apple Intelligenceの機能はベーシックで、ここがスタート地点で、段階的にアップグレードされることになる。(下の写真、進化したSiriを起動するとデバイスの周囲が輝く(Glow)。)

出典: Apple

Apple Intelligenceとは

Apple Intelligenceは「パーソナル・インテリジェンス(Personal Intelligence)」として位置付けられ、生成AIモデルで個人データを解析し、利用者にインテリジェントなライフスタイルをもたらす。Apple Intelligenceは基本ソフト「iOS 18.1」などに搭載され、来月から米国で公開される。12月にはオーストラリアやカナダなどの英語圏で、来年には日本や中国など多国語対応モデルがリリースされる。一方、Apple Intelligenceについては、EUと中国ではリリースを見送る。EUでは巨大テックの独占を禁止する法令「Digital Markets Act (DMA)」に準拠することが求められ、その解釈が明確になるまで出荷を見合わせる。

Apple Intelligenceの機能

Apple IntelligenceはiPhone やiPadやMacに実装され、デバイスの機能をインテリジェントにする(下の写真)。「Writing Tools」はドキュメントを作成する支援ツールとなり、「Summaries」は受信したメールなどの要約を生成する。「Advanced Siri」はインテリジェントなSiriで、個人情報を理解しエージェントのように知的にタスクを実行する。「Clean Up」は写真撮影したイメージから不要な部分を削除する機能を持つ。

出典: Apple

文章作成ツール:Writing Tools

文書作成ツールはメールなどに統合され、文章作成を支援する機能を持つ。生成したドラフトを査読し、また、異なるトーンに編集する機能などがある。例えば、履歴書を送付する際に、メールの内容を格調高い形式にアップグレードするなどの使い方がある(下の写真)。

出典: Apple

写真クリーンアップ:Clean Up

写真クリーンアップは写真撮影したイメージの中から不要な部分を消去するツールで、簡単な操作でこれを実行できる。例えば、被写体の背景に写りこんだ自転車などを取り除くために使われる(下の写真)。写真の編集はAdobe Photoshopなどが使われるが、これをデバイス上で実行できる。

出典: Apple

進化したSiri:インテリジェンス

Apple IntelligenceでSiriの機能がアップグレードされた。Siriは自然な会話で対話することができ、言葉を理解する能力が向上した。また、Siriは個人情報にアクセスし、メールやテキストメッセージなどのコンテンツを理解し、問われたことに対し的確に回答する。「Juneから受信したファイルを表示」と指示すると、Siriは人間の秘書のようにタスクを実行する(下の写真、左上)。

出典: Apple

進化したSiri:デバイスの操作

SiriはApple WatchやAirPodsと連携し、これらのデバイスを言葉で操作できる。屋外における利用を想定しており、Apple Watchに「30分のランニング開始」と指示すると、フィットネス・アプリが起動し、スタートのカウントダウンが始まる(下の写真左側)。また、AirPodsに「アップビートな音楽を再生」と指示したり(右側)、また、メールの発信を命令することもできる。更に、「CarPlay」と連携し、クルマのダッシュボードと言葉で対話し、目的地までのナビゲーションを起動する。MRグラスである「Apple Vision Pro」を音声で操作することもできる(最終ページの写真)。

出典: Apple

Apple Intelligenceの評価が分かれる

発表イベントではApple Intelligenceを中心にiPhone 16などのハードウェア新機能が発表された。AIがメインテーマであるが、その評価については肯定的な意見と否定的な意見が聞かれる。Apple Intelligenceは革新的な技術ではなく、ベーシックな機能を提供している、との解釈が主流になっている。例えば、「Writing Tools」の機能は既に他社から提供され、消費者の多くはこれを既に利用しており、新鮮さに欠けるという見方である。

出典: Apple

AppleがAIに慎重な理由

同時に、Appleは高度なAIを提供することに対し、慎重な姿勢を示しているとの解釈もある。欧米の消費者の多くはAIに対し、安全性に関する懸念を抱いている。他社から先進的な技術が投入されるが、消費者はこれに対し漠然とした恐怖感を抱いている。Appleは安全でセキュアな製品を開発する会社で、Apple Intelligenceについては、慎重に開発を進め段階的に機能をアップグレードする戦略を取る。

AppleのAIビジネス

同時に、Appleはクラウド企業ではなく、iPhoneなどエッジコンピューティングを提供する会社で、AIでどう事業を構築するかが問われている。斬新なAIの投入でiPhoneなどの買い替えが進むことを期待しており、Apple IntelligenceでiPhone 16の売り上げが伸びることを狙っている。一方、高度なSiriを投入すると、専用アプリを使う必要性が低減し、アプリストアの収入の減少につながる。更に、検索エンジンの利用が低下する可能性があり、Apple Intelligenceが事業収入にマイナスに作用する可能性もある。エッジコンピューティング企業であるAppleは、Apple Intelligenceでどうビジネスを構築するのか、AI時代の事業構造の模索が始まった。

出典: Apple

人間の知能を超えるAI「スーパーインテリジェンス(ASI)」の開発を始動!!Sutskeverは安全性を最優先したASIを2030年までに投入

AI研究の第一人者であるIlya Sutskeverは今年6月、人間の知能を超えるAI「Artificial Superintelligence (ASI)」を開発する企業「Safe Superintelligence Inc.(SSI)」を設立した。今週、SSIは主要ベンチャーキャピタルから10億ドルの出資を受けたことを発表した。SSIはこの資金を元に、安全性を最優先したスーパーインテリジェンスの開発に着手した。

出典: Adobe Stock

Safe Superintelligence Inc.とは

Safe Superintelligence Inc.(SSI)はIlya Sutskeverらにより設立されたスタートアップ企業で、カリフォルニア州パロアルトとイスラエル・テルアビブを拠点とし、人間の知能を凌駕するスーパーインテリジェンスを開発する。Sutskever(下の写真右側)はOpenAIでスーパーインテリジェンスを人間の価値に沿って稼働させる技術「スーパーアラインメント(Super-alignment)」の研究責任者を務めた。SutskeverはSam Altman(左側)の解任騒動のあとOpenAIを去りSSIを創設した。

出典: Getty Images

会社のミッション

SSIは安全なスーパーインテリジェンスを開発することをミッションとし、短期レンジでビジネスを運営するのではなく、長期レンジで研究開発を進める。安全なスーパーインテリジェンスの開発では、AI技術と安全技術を並列で開発しながら、モデルの規模を拡大していく戦略を取る。このプロセスでは、安全機能の開発を優先し、モデルの規模を拡大していく。ベンチャーキャピタルからの資金はコンピュータ環境の構築や研究者の給与などに充てる。

ベンチャーキャピタルからの投資

Andreessen HorowitzやSequoia Capitalなど主要ベンチャーキャピタルが10億ドルを出資し、SSIの企業価値は50億ドルとなった。ここ最近、ベンチャーキャピタルはAI企業への投資に慎重な姿勢を示しており、まだプロトタイプも完成していない企業に大型投資を実行したことで、SSIの構想に注目が集まっている。

スーパーインテリジェンスとは

スーパーインテリジェンスは「Artificial Superintelligence (ASI)」と呼ばれ、人間の知能を凌駕するAIを指す。一方、人間レベルのインテリジェンスは「Artificial General Intelligence (AGI)」と呼ばれ、ASIと対比して使われる。また、現行のAIは特定のタスクの処理に特化したモデルで「Artificial Narrow Intelligence (ANI)」と呼ばれる。ASIは高度な学習能力を持ち、短期間でスキルを獲得する。また、人間が解決できない大きな問題を解決することができるとされる。このペースで開発が進むとASIは2030年までに登場するという予測が業界の共通見解となっている。

出典: Adobe Stock

スーパーインテリジェンスのイメージ

Sutskeverは講演の中でスーパーインテリジェンスについて語っている。スーパーインテリジェンスは人間を超越するAIであるが、物理的にはデータセンタ全体がこのモデルを実現す。巨大なデータセンタが大規模モデルを実行し、人間の知能を超えるタスクを実行する。巨大データセンタ=スーパーインテリジェンスという概念となる。Sutskeverは、スーパーインテリジェンスが人間に敵対意識を持たないよう、人類と友好的な関係を築くことが肝要であると述べている。モデルの開発では人間に対しポジティブな意識をもつよう方向を調整する「スーパーアラインメント」が重要になる。

出典: Adobe Stock

スーパーインテリジェンスを安全に開発する技法

SSIはスーパーアラインメントについて具体的な手法は公開していないが、SutskeverはOpenAIでこの研究を担っていた。それによると、スーパーインテリジェンスの開発では、モデルを人間の意図に沿って稼働させることが最大のチャレンジとなる。この問題を解決する手法として、人間に代わりアラインメントを評価するAI「アラインメントAI」を開発するアプローチを取る。スーパーインテリジェンスの開発では人間がモデルを評価するには限界があり、人間に代わりアラインメントAIがこれを司る。具体的には:

  • Scalable Oversight:アラインメントAIがAIモデルを評価する
  • Generalization:アラインメントAIが学習したスキルを他の分野に応用する

AIの開発ではモデルの規模が大きくなると、AIが実行するタスクが複雑になり、また、それぞれの領域で高度な専門知識が必要になり、人間がこれを実行するには限界がある。このため、人間の評価者に代わりアラインメントAIがこれを実行する手法を取る。

スーパーインテリジェンス開発の見通し

Sutskeverはベンチャーキャピタルからファンディングを受けたあと、Xにツイートを掲載し、スーパーアラインメント開発の目途がついたことを明らかにした(下の写真)。「Mountain: identified.  Time to climb」と書き込み、どの山をアタックすれば安全なスーパーインテリジェンスを開発できるのか、指針が定まったことを示唆した。基礎研究の段階を経て、あとはエンジニアリングの問題で、山に登るときが来たと述べている。

出典: Ilya Sutskever

Sutskeverの背景情報

Sutskeverは旧ソビエト連邦出身のコンピュータサイエンティストで、ニューラルネットワークの生みの親として知られている。Sutskeverは2012年、トロント大学で画像を判定するニューラルネットワークを開発し精度を劇的に向上させた。このモデルは「AlexNet」と呼ばれ、Convolutional Neural Network(CNN)というモデルの基礎技術となった。これがAIブームの口火を切り、現在の生成AIに繋がっている。

Sutskeverの人物像

SutskeverはOpenAIで安全技術の研究開発を進めてきたが、Sam Altmanは次世代製品の開発を優先する方向に転換し、解任騒動のあと会社を離脱しSSIを設立した。Sutskeverの講演を聴くとスーパーインテリジェンスの安全機構の重要性を理解できる。Sutskeverは研究者であるが技術に関し深い理解を示し、AIの哲学者でもある。AIの真理を把握し、モデルの挙動規範を評価する倫理学者としての側面を持つ。SutskeverはこのペースでAI開発が進むとスーパーインテリジェンスが生まれるのは自明の流れで、これに先立ち、いまから安全技術の研究開発を進める必要があるとの信念を持つ。

半導体カンファレンス「Hot Chips 2024」:OpenAIは生成AIの機能は伸び続けると主張、次世代大規模モデルを開発するためのGPUクラスタ技術を公開

今週、スタンフォード大学で半導体カンファレンス「Hot Chips 2024」が開催され、半導体設計に関する最新技術が開示された。このカンファレンスは高性能プロセッサを議論する場であるが、今年はAI専用プロセッサに関するテーマが中心となった。OpenAIは基調講演で、大規模言語モデルのスケーラビリティ(拡張性)に関する研究を示し、モデルの機能は伸び続けると推定。次世代モデルを開発するためには巨大な計算環境が必要で、そのコアシステムとなるGPUクラスタを解説した。

出典: Hot Chips

カンファレンスの概要

「Hot Chips」は半導体設計に関するカンファレンスで、業界の主要企業が参加し、高性能プロセッサ「High-Performance Processors」を中心に新技術が議論されてきた。今年はその流れが変わり、AI処理専用プロセッサ「AI Processors」を中心に最新技術が公開された。AI処理の中でも大規模言語モデルを中心に、タスクを高速で実行するための様々なアーキテクチャが示された。生成AIのコア技術であるトランスフォーマに特化した半導体回路設計などの研究が開示された。講演の模様はライブでストリーミングされた。

AIプロセッサの市場構造

大規模言語モデル向けのAIプロセッサはGPUが標準技術として使われ、Nvidiaの独走状態が続いている。これに対して、主要各社はASIC(application specific integrated circuit、特定用途向けIC)を基盤とするAIプロセッサを開発し、GPUの代替技術となることを目指している。Googleは「TPU」を、Amazonは「Trainium」と「Inferentia」を、Microsoftは「Maia」を開発し、大規模言語モデルのアクセラレータと位置付けている。スタートアップ企業は斬新なアーキテクチャでAIプロセッサを開発し、政府研究機関などで運用が始まった。

OpenAIの基調講演

基調講演でOpenAIは大規模言語モデルのスケーラビリティと大規模システム「GPUクラスタ」に関する最新技術を公開した。OpenAIはAIプロセッサを利用する観点から、次世代大規模モデルを効率的に開発するための基盤としてGPUクラスタに関する技法を開示した。AI開発ではNvidia GPUが使われるが、これを多数連結してクラスタを構成し、次世代モデルを開発・運用する技法を開示した。

Predictive Scaling:拡張性の予測

OpenAIはGPT-4など大規模モデルを開発しているが、言語モデルはこれからも機能や性能が伸び続けるとの研究成果を開示した。これは「Predictable Scaling」と呼ばれ、予測したペースで機能が拡張すると予測している。その根拠として「GPT-4」の開発事例を示し、モデルの規模を拡張すると(実行時間を長くすると)、機能が向上することを示した(下のグラフ)。小型モデル(灰色の円、実測値)を多数検証し、モデルの規模と機能をプロットすると、その延長線上にGPT-4(緑色の円、予想値)が位置し、機能はこの曲線に沿って拡大している事実を示した。

出典: OpenAI

AIモデルのスケーリング

GPT-4だけでなく、他社の大規模言語モデルを検証すると、このスケーラビリティは言語モデル全般に適用できる。主要モデルの規模(教育に要した計算量)とリリースされた時期をプロットすると、フロンティアモデルを教育するためのコンピュータ規模は毎年4-5倍となっている(下のグラフ)。市場ではフロンティアモデルの性能は限界に達するとの見解もあるが、OpenAIは大規模言語モデルはこれからもこのペースで機能が伸びると予測している。

出典: OpenAI

Mass Deployment:モデルを大規模に運用

OpenAIはこの仮定に基づき、フロンティアモデルの開発では計算環境の規模を継続的に拡大する必要があり、この需要に応えるためGPUクラスタを運用している。OpenAIはGPT-4など大規模モデルの開発ではGPUサーバを大規模に結合したGPUクラスタを利用している。実際には、GPT-5の開発ではMicrosoftのアリゾナ・データセンタの計算施設を使っており、GPUクラスタのサイズは巨大で、海洋生物に例えるとクジラの大きさになる(下の写真)。

出典: OpenAI

GPUクラスタを運用する技術

GPUクラスタは巨大なシステムで、運用では様々な障害が発生し、安定的に稼働させるには高度なスキルが求められる。GPUクラスタはマクロな観点から様々な弱点があり、システム全体の信頼性(RAS:Reliability, availability and serviceability)を高めるためのスキルが必要となる。GPUクラスタで障害が発生しやすいポイントは:

  • オプティカルネットワーク:GPUクラスタのモジュールは光ケーブルで結合されるが、このオプティカルネットワークの信頼性が低い
  • 高速メモリ:高速メモリ「High Bandwidth Memory (HBM)」の信頼性が低い。HBMとは3D構造のメモリ(DRAM)で、GPUプロセッサと高速でデータ転送を行う。
  • データに内在するエラー:「Silent Data Corruptions(SDC)」という問題。SDCとはデータに内在するエラーであるが、これが検知されないままでモデルの教育が進み、完成したモデルが誤作動するという問題。データに内在する問題は出現しないケースが多く、問題の切り分けが難しく、開発者を悩ませる。

GPUクラスタの障害からの復旧

GPUクラスタでこのような問題が発生するが、システムを障害から復旧させるためのテクニックが必要となる。言語モデル開発への影響範囲を最小限に抑えることが必須要件で、そのためには復旧のシークエンスが重要となる:

  1. ソフトウェア:ソフトウェアで例外処理が発生したケースはソフトウェアを再起動する
  2. プロセス:上記の処理で問題が解決しない場合は、プロセス全体を再起動する
  3. GPU:ハードウェアレベルの障害ではGPUプロセッサを再起動する
  4. ノード:GPUクラスタを構成するノードを再起動する
  5. ハードウェア交換:GPUプロセッサなどハードウェアを交換する。影響範囲は多岐にわたりこれは最後の手段。

電力供給管理の技法

GPT-5など大規模モデルの教育では、GPUクラスタは大量の電力を消費し、これを効率的に制御する必要がある。データセンタへの電力供給量は限られており、これを各プロセスで効率的に使用する。大規模モデルの教育では、GPUクラスタの各モジュールを同期して稼働させるため、電力消費量が急上昇したり急降下することになる。このため、電力消費量を遠隔で監視する仕組み「Power Telemetry」などが必要になる。これに応じて、データセンタ内の電力配分を動的に変更する技術「Dynamic Power Sloshing」が必要となる。

生成AIモデルの成長は続く

市場では、トランスフォーマの規模を拡張しても、モデルの機能や性能がこれに応じて伸びなくなる、との見解が広がっている。生成AIの成長のスピードが鈍化し、モデルは限界に達するという解釈である。これに対しOpenAIは、太陽光パネルの事例をあげ、モデルの機能や性能は恒常的に拡大するとの予測を示した。太陽光パネルの生産量は、その成長率がフラットになると予測され続けてきたが、実際には成長のスピードは加速している(下のグラフ、カラーのグラフ;予測値、黒色のグラフ;実際のトレンド)。フロンティアモデルも市場の予測に反し、成長を維持するとの予測を示した。

出典: OpenAI

次世代モデル向け計算環境

生成AIはモデルの規模が恒常的に拡大し、次世代モデルの開発では巨大な計算インフラが必要になる。また、開発した巨大モデルを稼働させるプロセス(インファレンス)においても、大規模な計算施設が必要になる。このため、プロセッサの性能を向上させるだけでなく、システム全体で障害発生率を低下させ、稼働率を向上させる技法が極めて重要となる。OpenAIは巨大モデルを開発した経験から、システム運用にかかる問題点とその改良技術を示した。

OpenAIはGPT-4oの安全試験結果を公表、人間を説得するリスクが高いが許容範囲であると判定、大統領選挙を控えフェイクボイス対策を重点的に進める

OpenAIは8月8日、マルチモダル生成AI「GPT-4o」の安全試験結果を公表した。それによると、GPT-4oは人間を説得するリスクが高いが、許容範囲内であり、安全に運用できるとの判定を下した。この安全試験は「Red Teaming」という手法で実施され、モデルが内包する重大なリスクを検証した。大統領選挙を目前に控え、GPT-4oのボイス生成機能が重点的に検証され、モデルをリリースすることに問題はないと結論付けた。バイデン政権はフロンティアモデルを出荷する前に安全試験を義務付けているが、これが実証試験となり、検証フレームワークの具体的なプロセスが明らかになった。

出典: OpenAI

GPT-4oのシステムカード

OpenAIは会話機能を持つGPT-4oの安全試験を実施し、その結果を報告書「システムカード(System Card)」として公開した。安全試験はOpenAIが定めるプロトコール「Preparedness Framework」に沿って実施され、下記の項目を評価し、その結果を一般に公表した(下の写真)。検証項目とリスクの度合いは次の通り:

  • サイバーセキュリティ:サイバー攻撃へ耐性リスク  【低い(Low)】
  • バイオサイエンス:生物兵器を開発するリスク  【低い(Low)】
  • 説得力:人間を説得するリスク  【中程度(Medium)】
  • 自律性:モデルが人間の制御を掻い潜るリスク  【低い(Low)】
出典: OpenAI

リスクの評価

評価結果は四段階に区分され(下の写真)、それに応じた運用と開発が実施される。

  • Low:リスクは低い、運用可能
  • Medium:リスクは中程度、運用可能
  • High:リスクは高い、運用不可であるが開発を継続できる
  • Critical:リスクは極めて高い、運用も開発も停止

GPT-4oの安全試験では、評価結果は「Low」と「Medium」で、製品を運用することができると判定した。

出典: OpenAI

安全試験のプロトコール

OpenAIは「Red Training」と呼ばれる手法が使われ、専門家がハッカーとなり、GPT-4oを攻撃してその脆弱性を把握した。これらの攻撃者は「Red Teamers」と呼ばれ、100人を超える専門家で構成された。専門家は第三者組織からの人材で、45の言語と29の国をカバーする。これらRed Teamersが、GPT-4oの異なる開発段階のソフトウェア(「チェックポイント」と呼ばれる)を試験し、そのリスクを洗い出す。更に、判明されたリスクに応じてGPT-4oはファインチューニングを実施し危険性を低減する。更に、Red Teamersは最終モデルを攻撃し、出荷前の製品の安全性を確認する。

安全試験のフェイズ

具体的には、安全試験は四つのステップで構成され、GPT-4oの開発段階に沿って、その危険性を導き出す。最終段階では、iOSアプリを使い、利用者と同じ環境でリスクを洗い出す。試験ではオーディオとテキストを入力とし、GPT-4oが出力するオーディオとテキストが検証された。それぞれのステップは:

  • Phase 1:初期モデルの試験
  • Phase 2:初期モデルに安全対策を施したモデルの試験
  • Phase 3:安全対策を施した複数モデルを試験しベストのモデルを選択
  • Phase 4:iOSアプリを使い利用者と同じ環境で試験、最終モデルを特定

ボイス生成機能を重点的に検証

GPT-4oの試験ではオーディオに関連するリスクをが重点的に試験された(下の写真)。GPT-4oは多彩な表現でリアルタイムに会話する機能を持つが、この機能はリスクが大きくまだリリースされていない。モデルの公開に先立ち、OpenAIはRed Teamingの方式で会話機能が内包するリスクを特定し、その安全対策を実施した。具体的には、GPT-4oはシステムが提供するボイスだけを許容し、著名人の音声などフェイクボイスの生成を抑止する。

出典: OpenAI

フェイクボイスの生成

GPT-4oはマルチモダルの生成AIで、入力されたオーディオとテキストの指示に従って、人間の声を生成することができる。これは「Synthetic Voice」と呼ばれ、モデルが人間が喋る音声をハイパーリアルに生成する。しかし、この技法が悪用されると、GPT-4oが著名人のフェイクボイスを生成し、これが拡散すると社会に重大な危険性をもたらす。GPT-4oは高度なマルチモダル機能を持ち、様々なサウンドを創り出すが、この一つが人間のボイスとなる。実際に、Red Teamingでこの危険性が確認され、OpenAIはGPT-4oが生成するボイスの種類を制限し、更に、生成されたボイスをフィルタリングする機能導入し、フェイクボイスの生成を抑止している。

大統領選挙を目前に控え

大統領選挙を目前に控え、OpenAIはGPT-4oの機能の中でフェイクボイスを生成する機能を重点的に検証した。実際に、他社のモデル「ElevenLabs」が悪用され、バイデン大統領のフェイクボイスが生成され、有権者に虚偽の情報が配信された。OpenAIはこれらを教訓にオーディオ技術を中心に安全対策を実施している。

出典: Adobe Stock

出荷前の安全試験

バイデン政権の大統領令は開発企業に対し、フロンティアモデルを出荷する前に安全試験を実施することを求めている。GPT-5からこの規制が適用され、GPT-4oはこの対象外であるが、OpenAIはこの安全試験を事前に実施し、本番前のトライアルとなった。安全試験の結果、GPT-4oのリスクの度合いは「Medium」以下であり、安全に利用できると判定した。今年後半には各社からフロンティアモデルがリリースされると噂されており、大統領令の規定に従い安全試験が実施されることになる。