カテゴリー別アーカイブ: 人工知能

大規模言語モデルは性能向上の限界に近づく、トランスフォーマの効率の悪さがが顕著になる、次のアーキテクチャの探求が始まる

サンフランシスコで開催されたAIエンジニアリングのイベントで「トランスフォーマ(Transformers)」の限界について議論が交わされた。トランスフォーマとは大規模言語モデルの心臓部で、高度なインテリジェンスを発現し、AI開発のブレークスルーとなった。しかし、トランスフォーマが発表されてから7年たち、その問題点が顕著になってきた。大学の研究室を中心に、トランスフォーマの次のアーキテクチャを探索する動きが活発になってきた。

出典: Adobe Stock

トランスフォーマとは

トランスフォーマは大規模言語モデルのコア技術で、ChatGPTなど言語モデルに搭載され、高度な能力を示し、AI開発にブレークスルーをもたらした。トランスフォーマは言語翻訳のために開発されたが、モデルの規模を拡大すると多彩な能力を発現し、テキスト生成、チャットボット、イメージ生成など、幅広いアプリケーションで使われている。

トランスフォーマの問題点:ビジネスの観点

しかし、言語モデルのサイズの拡大に伴い、トランスフォーマの問題点が顕著になってきた。フロンティアモデル(最先端AIモデル)の開発では、巨大な計算施設が必要となり、AI開発が一部の企業に集中している。データセンタは「AIファクトリ」と呼ばれ、GPT-4など大規模モデルの開発ではAIスパコンが使われている。フロンティアモデルの開発は数社が市場を制御し、技術や利益が偏在し、寡占状態が顕著になってきた。

トランスフォーマの問題点:テクノロジーの観点

技術の観点からは、トランスフォーマはアーキテクチャに起因する問題点が顕著になってきた。これはコンテクスト・ウインドウのサイズに関わるもので、入力するトークンの数(文字の数)が増えると、処理速度が急激に低下する。これは、「Long Sequences」問題と呼ばれ、長い文章を入力すると計算時間が急激に長くなる。特にビデオなどマルチメディアの処理では、入力されるデータ量は巨大で、トランスフォーマの限界が議論されている。

下の写真上段、Googleの最新モデルGemini 1.5 Proのコンテクスト・ウインドウは1Mトークンで、最大で10Mトークン処理できる。言語モデルのコンテクスト・ウインドウのサイズが急速に拡大。

出典: Google

トランスフォーマ開発経緯

トランスフォーマは2017年に、Googleの研究チームが言語翻訳のために開発したモデルである。この成果は論文「Attention Is All You Need」(下の写真)として発表され、世界の研究者はこのアーキテクチャに着目し、言語モデルの開発でトランスフォーマを導入し、技術革新をもたらした。OpenAIはこのアーキテクチャをベースとする言語モデル「GPT」シリーズを開発し、これが大ヒット製品となった。

出典: Ashish Vaswani et al.

トランスフォーマの性能が低下する理由:Quadratic Scaling

トランスフォーマの問題はアーキテクチャに起因するもので、次のトークンを算出するメカニズムにある。トランスフォーマは入力されたコンテキスト(文字列など)を解析し、その結果をストアする方式を取る。このため、長い文字列を入力すると、記憶容量と計算量が増大し、処理速度が急速に低下する。これは「Quadratic Scaling」と呼ばれ、コンテキストの長さがN倍になると、計算量がN^2 (Nの二乗)となる。つまり、コンテキストの長さが10倍になれば、計算量は10倍ではなく、10の二乗の1024倍となる。これが原因で、長いコンテキストやマルチメディアの処理で、インファレンス速度が急速に低下する。(下の写真、トランスフォーマの概念図、入力されたトークン(N)に対し、Attention (K(Key)、V(Value)、Q(Query))を計算するためにN x Nのマトリックス計算を実行する。このため、トークンの数(N)が増えると計算量はNの二乗となる。)

出典: Ashish Vaswani et al.

新しいアーキテクチャの探求

この問題を解決するため、大学研究室やスタートアップ企業が、トランスフォーマに代わる新たなアーキテクチャの研究開発を進めている。スタートアップ企業Cartesiaは、新しいアーキテクチャを開発し、この概要を公表した。これは「State Space Models(SSMs)」と呼ばれるアーキテクチャで、長いコンテキストを効率的に処理できるメカニズムとなる。トランスフォーマが「Quadratic Scaling」であるのに対し、State Space Modelsは「Linear Scaling」で、長い文字列を高速に処理する。これにより、長い文字列やマルチメディアを高速で処理できる。Cartesiaは大学の研究者で構成されたスタートアップ企業で、スタンフォード大学やカーネギーメロン大学の研究者が創業した。

State Space Modelsの概要

State Space Modelsは入力されたトークンを凝縮して「State」とし、次のトークンの算出では、このStateだけを参照する。ちょうど、入力された音楽を圧縮してMP4ファイルを生成し、これをストリーミング配信して、高品質なサウンドを実現する技法に似ており、State Space Modelsは入力されたトークンを圧縮して「State」ファイルを生成する。

アーキテクチャの比較

アーキテクチャの観点から、トランスフォーマは入力されたプロンプトから次の単語を予測するために、全ての単語を参照する(下の写真上段)。これに対し、State Space Modelsは入力されたトークンを「State」に凝縮し(下段、円の部分)、次のトークンを計算するために、Stateだけを参照する。このため計算量が入力されたトークンに比例する。

出典: Cartesia

最初の製品「Sonic」をリリース

CartesiaはState Space Modelsを実装した最初の製品として「Sonic」をリリースした。SonicはリアルタイムのAIボイス(Generative Voice)で、自然な会話を実現する基礎技術となる。処理に要する時間は135 マイクロ秒で、人間と同じ速さで反応する。CartesiaはこれをVoice APIとして公開しており、これをアプリに組み込んでコールセンターのAIアシスタントやゲームのキャラクターなどを構成する。また、「Playground」でボイス機能を使うことができ、異なる特性や英語以外の言語で試してみることができる。(下の写真) 実際に使ってみたが、Sonicの反応速度は早く、OpenAIのGPT-4oと遜色は無いと感じた。

出典: Cartesia

ロードマップ

Cartesiaは「会話型AI(Conversational Inference)」の他に、State Space Modelsをデバイスに搭載し、エッジ・コンピューティングの開発を計画している。State Space Modelsはトランスフォーマと異なり、軽量で高速に実行できるため、スマートフォンなどのデバイスでの活用が期待されている。また、ヘッドセットなどのウエアラブルに搭載し、実社会でのAIエージェントを構成する。更に、ロボットに搭載することで、インテリジェントなモデルを生成する。

若い頭脳が研究開発の中心

トランスフォーマに代わるアーキテクチャの探求では、アカデミアを中心に若い研究者の活躍が目立つ。若い世代の研究者がフレッシュな視点から、AIモデルを見直し、斬新なアイディアを生み出している。今すぐにトランスフォーマを置き換えるわけでは無いが、トランスフォーマの弱点を補完する技術となる。長期的には、State Space Modelsでイノベーションが生まれ、トランスフォーマの対抗基軸を形成すると期待されている。

OpenAIは次世代モデル「GPT Next (GPT-5)」を今年中にリリース、博士号レベルのインテリジェンスを持つ巨大システム、慎重派が会社を去り製品出荷時期が早まる

OpenAIは次世代モデル「GPT Next (GPT-5)」を今年中に出荷することを公表した。CEOのSam Altmanは、次世代モデルは高度な考察力を持ち、GPT-4に比べて機能が格段に進化すると述べている。GPT-5は「Gobi」や「Arrakis」などのコードネームで開発され、2025年か2026年にリリースされると噂されてきた。しかし、Ilya Sutskeverなど開発慎重派が会社を去り、次期モデルの出荷が早まる公算となった。

出典: Adobe Stock 

次世代モデルの開発

OpenAIは次世代モデル「GPT Next(GPT-5)」を今年中にリリースすることを明らかにした。このモデルが次の段階の機能を実現し、人間レベルのインテリジェンス「AGI」に繋がる。OpenAIは「GPT-5」を開発していると噂されてきたが、この事実が確認されたことになる。また、次々世代モデル「Future Models」を2020年代にリリースすることも明らかにした。

Microsoftの説明

これに先立ち、Microsoftは開発者会議「Build 2024」でGPT-5に言及した。基調講演でCTOであるKevin Scottが、次世代モデルを開発するために必要となるAIスパコンの規模を説明した。AIスパコンの規模を海洋生物で示し、GPT-3.5の開発ではイルカの大きさで、GPT-4ではシャチの大きさで、GPT-5ではこれがクジラの大きさになると解説 (下の写真)。クジラの大きさがアルゴリズムの規模を示しており、GPT-5は巨大なシステムになるとの見解を示した。Scottは触れなかったが、GPT-5はMicrosoftのアリゾナ州フェニックス地区のデータセンタで開発されている。

出典: Microsoft

GPT-5は巨大なシステム

※未確認情報:ソーシャルメディアでは研究者の間でGPT-5に関する推測情報が交わされている。これによると、GPT-5の規模(パラメータ数)は52T(兆個)でGPT-4の1.76Tの約30倍の規模となる。OpenAIはパラメータ数について公開していないが、Scottの説明でGPT-5の規模の大きさを感覚的に把握できる。

GPT-5はPh Dレベルの知能

Altmanは大学での講演や著名人との対談で、GPT-5の概要やコンセプトを紹介している(下の写真、スタンフォード大学での講演)。これらを総合すると、GPT-5は「仮想頭脳(Virtual Brain)」となる。人間の頭脳のように、GPT-5は「深い考察力を持ち、複雑なタスクを実行できる」機能を備える。GPT-5は、人間レベルの高度な知能を持つAGIの一歩手前のAIエージェントであるとの解釈を示している。また、CTOのMira Muratiは、「GPT-4は高校生レベルの知能」を持つが、「GPT-5はPh.D.レベル(博士課程修了者レベル)」と説明し、インテリジェンスが劇的に進化する。

出典: Stanford eCorner

GPT-5の名称

次世代モデルの名称は「GPT-5」と予測されているが、Altmanは「特別な名称を付与する」と述べている。GPT-5という名前ではなく、機能や特性を示した製品名になることを示唆している。GPT-3.5は「ChatGPT」という製品名で世界に普及したが、これと同様に「GPT-5」は機能を前面に押し出した構造となる。ChatGPTは会話機能「Chat」を冠したブランディングとなったが、GPT-5は頭脳や知能を示す名前になると思われる。(このレポートでは次世代モデルを「GPT-5」と記載する。)

安全性より機能を重視

OpenAIはモデルの安全性より機能を重視し、GPT-5のリリース時期が早まった。OpenAIは高度なAIの安全性を検証する部門「スパーアラインメント(Superalignment)」を設立し、AIを安全に開発運用する研究を進めてきた。この部門の代表がIlya Sutskeverで、人間より高度な知能を持つAGIの登場に備え、アラインメント(安全技術)の研究を進めてきた。しかし、5月、SutskeverはOpenAIを去り、事実上、スパーアラインメントの活動が停止した。SutskeverはXでOpenAIはAGIを安全に開発することを期待すると述べている(下の写真)。

出典: @ilyasut

Altmanは技術推進派

一方、Altmanは技術推進派で、GPT-4oなど先進モデルを相次いで投入した。Sutskeverは技術慎重派で、アラインメント研究に重点を置く姿勢を取り、OpenAIは危険なAIモデルの開発を急ぐべきではないと、技術推進派の動きを抑制してきた。技術慎重派が会社を去ったことで、Altmanは自由度が増し、企業運営をアグレッシブに展開する姿勢が明らかになった。

バイデン政権の大統領令

バイデン政権の大統領令は、次世代モデル「フロンティアモデル」について、開発企業に製品を出荷する前に、その安全性を検証することを求めている。GPT-5はこれに該当し、OpenAIは安全規格に従って、製品出荷前に試験を実施することになる。GPT-5が大統領令に基づく安全試験を実行する最初のケースで、OpenAIは厳格なリスク管理が求められる。GPT-5のリリースで、社会に多大な恩恵をもたらすことが期待されるが、重大な危険性を内包するAIと共棲する時代に突入する。

Anthropicは大規模言語モデル「Claude 3」を分解し学習した機能を特定、人間を欺くなど危険な特性を内包していることを確認、研究成果を安全なモデルの開発に生かす

Anthropicは大規模言語モデルの思考ロジックを解明する研究を進めており、その最新成果を発表した。言語モデルのアルゴリズムはブラックボックスで、人間がAIの判定理由を理解できず、これが信頼できるAIを開発する妨げになっている。Anthropicは最新モデル「Claude 3」のニューロンを解析し、モデルが持つ機能特性を把握した。これにより、モデルが内包する危険な機能特性が明らかになり、この研究成果をベースに安全なモデルを開発する。

出典: Anthropic

大規模モデルの基本機能を解明

Anthropicは大規模言語モデル「Claude 3 Sonnet」が持つ「機能特性(Features)」を数百万件特定し、これらの相関関係をマップすることに成功した。機能特性とは言語モデルが持つ基本機能で、これらが獲得したスキルを意味し、言葉に関する理解構造を示す。機能特性を解明することは、アルゴリズムの挙動を理解することに繋がり、これを安全なモデルの開発に応用する。

機能特性の解明

AnthropicはClaude 3 Sonnetが持つ機能特性を三つの観点から解析した:

  • 機能特性の相関関係:機能特性を数百万件特定し、それらの位置関係をマップした (下の写真左側)。ドットが機能特性を示し、それらの相関関係を距離で表示。
  • 機能特性の可視化:機能特性と関連する単語をハイライト(中央)。機能特性と関係が深い単語ほど濃い色で表示されている。
  • 機能特性でモデルを操作:モデルを制御する手法で、機能特性を増幅することで、出力結果を意図的に操作できることを示した (右側、人間を褒め称えるモデルを生成)。
出典: Anthropic

美辞麗句を並べる機能

上述の事例は、機能特性が「sycophantic praise(美辞麗句を並べる機能)」で、その位置関係がマップで表示され(左側)、入力されたテキストの中で、この機能特性に関連する部分がハイライトされている(中央)。更に、言語モデルでこの機能特性のスイッチをオンにすると、モデルは利用者をほめたたえる言葉を生成する(右側)。これにより、モデルの思考回路を理解でき、モデルが持つ危険性(おべっかを使い人間を誘導する機能)を把握できる。

機能特性を解明する手法

ニューラルネットワークのブラックボックスを開き、アルゴリズムが「考えている」ことを解明する研究は早くから進められている。これらの研究では、ニューラルネットワークのニューロン(Neuron、ノード)の活性化(Activation、機能がオンになること)に着目し、特定のニューロンが活性化することが特定の意味を持つと考えられてきた。これに対し、Anthropicは活性化した複数のニューロンの組み合わせが、特定のコンセプトを示すと考え、この組み合わせを「機能特性(Feature)」を探求した。

「ゴールデンゲートブリッジ」という機能特性

Anthropicはこの手法で解明を進めてきたが、今回は大規模モデル「Claude 3 Sonnet」でこの手法を実施した。AIモデルの規模が拡大し、解析のためのシステムの規模が格段に大きくなり、大規模な計算量が必要になる。この手法でClaude 3 Sonnetを解析し、「都市」(サンフランシスコなど)、「元素」(リチウムなど)、「科学」(免疫学など)、など数百万個の機能特性を把握した。例えば、「ゴールデンゲートブリッジ」という機能特性は、「ゲート」や「橋」や「サンフランシスコ」などの要素を含み、テキストのなかでそれに関連の深い単語をハイライトした。(下の写真)。

出典: Anthropic

ハイレベルなコンセプト

「機能特性」はゴールデンゲートブリッジなど固有名詞だけでなく、複雑なコンセプトも含んでいる。例えば、「性差別を認識」という機能特性に対し、これに関連する単語「女性のナースが男性のナースの数を上回る」が活性化されている(下の写真、ハイライトされた部分)。言語モデルはハイレベルなコンセプトを理解するスキルを持つことが示された。

出典: Anthropic

機能特性間の距離

Anthropicはこれら機能特性間の距離を計測しそれをマッピングした。この距離は機能特性に関するニューロン間の距離で、意味の近さを示している。例えば、「ゴールデンゲートブリッジ」と距離が近い特性は「アルカトラズ島」や「カリフォルニア州知事」などが示された。また、ハイレベルなコンセプトにも適用でき、「葛藤(Inner Conflict)」という特性と近いものは、「葛藤する忠誠心(conflicting allegiances)」や「キャッチ-22(catch-22)」などとなる(下の写真)。

出典: Anthropic

AIモデルを操作する

これらの特性を使ってClaude Sonnetの挙動を操作することができる。具体的には、これらの特性を増幅することでモデルはこの機能を強化する挙動を示す。反対に、特性を抑止すると、この機能が弱まる。実際に、機能特性「美辞麗句(sycophancy)」を増幅するよう設定すると、モデルは利用者を褒め称える挙動を示す(下の写真)。「「Stop and smell the roses」という表現を考えついた」と入力すると、Claude Sonnetは、「これは慣用句で忙しい時に一服することを意味する」と記に使われると出力する(左側)。しかし、「美辞麗句(sycophancy)」の機能特性を増幅すると、「この表現は素晴らしくあなたは崇高な知恵を持っている」と褒め称える(右側)。

出典: Anthropic

モデルの危険性

これはClaudeが事実を隠蔽し利用者を特定の方向に誘導する危険な機能となる。また、特性を操作することで、生物兵器生成などモデルを悪用する可能性、性差別などバイアスを助長する可能性、人間を操りまた嘘をつく可能性など、多くの危険性を把握した。モデルが内包する危険性は「Red-Teaming」の手法で解明が進んでいるが、Anthropicはニューロンを解析することで、これらの危険性を把握した。

全体像の把握が次のステップ

この研究は数百万の機能特性を把握したが、これらはモデルが持つ機能特性の一部で、全体像を把握することが次のステップとなる。モデル全体では10億単位の機能特性があると予測しており、フルセットの機能特性を検知することが次の研究テーマとなる。一方、機能特性の検知では、モデル開発を格段に上回る計算量が発生し、巨大なAIスパコンが必要になる。このため、コストと成果のバランスを考慮し、モデルの思考ロジックの解明を進めることになる。

カリフォルニア州でAI規制法の導入が目前に迫る、フロンティアモデルの開発と運用に厳しい条件が課される、米国は連邦政府ではなく地方政府がAI規制を実施する流れが鮮明になる

カリフォルニア州政府は次世代AI「フロンティアモデル」の開発と運用に関し、規制法の導入を進めている。この法案は「Safe and Secure Innovation for Frontier Artificial Intelligence Models Act」と呼ばれ、開発企業にAIモデルが安全であることを検証し、これを報告することを義務付ける。また、AIモデルが第三者により改造され、それが社会に危害を及ぼした場合でも開発企業の責任が問われる。厳しいAI規制であるが、予想に反し州議会上院を通過し、法案が成立する公算が強まった。連邦議会ではAI規制法が制定される機運は低いが、米国は地方政府がAIの安全な開発や運用を規定する方向に進んでいる。

出典: California.com 

カリフォルニア州議会上院で可決

カリフォルニア州のAI規制法案は上院で賛成多数で可決され、AI業界に波紋が広がっている。予想を覆して州議会上院を通過し、8月には下院で審議され、AI規制法が成立する公算が強まった。カリフォルニア州はAI開発の拠点で、ハイテク企業が集結し、先進技術を開発している。カリフォルニア州で厳しいAI規制法が可決されると、その波紋は大きく、他の州がこれに追随する可能性が高まる。米国は連邦政府でAI規制法の制定は愛踏み状態であるが、これに代わり州政府が独自の規制法を施行する方向に進んでいる。

AI規制法案の概要

米国連邦議会はAI規制法を制定する機運は薄く、国家レベルで統一した指針が示されることは期待できない。このため、カリフォルニア州は独自のAI規制法案を策定し、AIの安全対策を進めている。この法案は次世代の生成AI「フロンティアモデル」を対象としており、高度な機能を持つAIを安全に開発・運用することを目標とする。バイデン政権は大統領令で、フロンティアモデルの安全試験を開発企業に求めているが、カリフォルニア州の規制法案はこれより厳しい内容となっている。

極めて厳しい内容

AI規制法案は、開発企業にAIモデルを試験し、安全を確認し、その結果を州政府のAI監査室「Frontier Model Division」に報告することを求めている。また、AIモデルが悪用されることを防ぐため、セーフガードの導入を求めている。更に、開発したAIモデルが第三者により改造され、これが悪用された場合には、この使用を停止させる措置を求めている。フロンティアモデル開発企業が下流のAIアプリケーションまで責任を問われる構造で、極めて厳しい義務が課される。因みに、「AI監査室」とは新設される州政府の組織で、AIモデルの運用監視や安全監査を任務とする。

出典: Adobe Stock 

スタートアップ企業へのインパクト

AI規制法案はスタートアップ企業に重大な影響を与えることが予想される。Googleなど大企業は、既にAIモデルの安全管理を専門とする部署を設け、ここで安全対策を進めている。しかし、スタートアップ企業は技術開発にリソースを集約し、安全試験を包括的に実施する余裕はない。このAI規制法案が成立すると、スタートアップ企業はカリフォルニア州で事業を展開することが難しくなる。

オープンソースにとって厳しい内容

また、オープンソース企業はAI規制法案が可決されると、重い責務を負うことになる。AI規制法案は、ファウンデーションモデルが第三者により改造され、それが悪用され、社会に危害を及ぼした場合は、その責任はAI開発企業にあるとしている。オープンソースは、下流の利用者がモデルを再教育して、特定のアプリケーションに特化したモデルを生成するために使われる。しかし、敵対国や攻撃集団がオープンソースを改造し、それをサイバー攻撃などで使った場合は、AI開発企業がこの責任を負うことになる。

Metaの反論

多くの企業がオープンソースを開発しており、AI規制法案のインパクトは多岐に及ぶ。Metaはフロンティアモデルをオープンソースとして公開しており、重大な責務を負うことになる。このため、MetaはXにコメントを掲載し、この規制法案はカリフォルニア州の利益に反すると批判した(下の写真)。AI規制法案が可決されると、多くのスタートアップ企業がカリフォルニアを離れると警告している。また、大企業も生成AI部門を他州に移転し、カリフォルニア州の経済への打撃が広がると警鐘を鳴らしている。

出典: Arun Rao @ X

AI規制法の背景情報

AI規制法案はカリフォルニア州上院議員Scott Wiener(下の写真)により導入され、予想に反して、上院で賛成多数で可決された。この法案は非営利団体「Center for AI Safety (CAIS)」が支援しており、法案可決に関しこの団体の影響力が大きい。CAISはサンフランシスコに拠点を置き、AIのリスクを低減し安全性を担保するための活動を展開している。この代表者がDan Hendrycksで、人間レベルの知能・AGIの危険性に関する研究を進めており、AI規制に関し大きな影響力を持つ。

出典: Scott Wiener

州議会下院での審議が始まる

Scott WienerはインタビューでAI規制法案のコンセプトについて説明し社会の理解を求めている。WienerはAI技術が急速に進化する中、これを適切に管理する規制法が必要であり、「Light Touch(軽量)」の規制を導入すると述べている。技術進化を後押しするが、安全を担保するために、最小限の規制が必要であるとしている。これからカリフォルニア州議会下院でAI規制法案の審議が始まり、法案を修正して、最終判断が下されることになる。どのような展開になるか予測は難しいが、識者の多くは可決される公算が高いとみている。

Appleは「Apple Intelligence」で生成AI市場に参入、先進機能より安全と個人情報保護を最優先、ChatGPTとの連携は最小限に留め自社技術を前面に押し出す

Appleは6月10日、開発者会議「WWDC 2024」でAI技術「Apple Intelligence」を発表し、生成AI市場に参入した。Apple Intelligenceは独自に開発した生成AIで、基本ソフトやアプリと連携し、テキストやイメージを生成する。Apple Intelligenceは二種類の生成AIモデルで構成され、オンデバイス(iPhoneなど)とサーバ(クラウド)で稼働する形態となる。これらのモデルは、安全にかつ効率的に動作するアーキテクチャとなっている。サーバサイドの言語モデルは、セキュアなクラウド「Private Cloud Compute」で運用され、個人情報を厳格に管理する。AppleはOpenAIと提携し、ChatGPTを基本ソフトに統合することを明らかにしたが、この機能は最小限に留め、自社のAI技術を全面に押し出したシステム構成となっている。

出典: Apple

Apple Intelligenceとは

Appleは「Apple Intelligence」を「Personal Intelligence」と定義し、iPhone、iPad、Macで稼働し、個人のスーパーアシスタントとなる。Apple Intelligenceは、生成AIをコア技術とし、個人情報と組み合わせることで、利用者に特化したインテリジェントな機能を実現した。Apple Intelligenceは、テキストやイメージを生成し、また、Siriが大幅に機能アップされ、複雑なタスクを実行できるようになった。

出典: Apple

Writing Tools:テキスト生成機能

Apple Intelligenceの主要機能がテキストを生成するツール「Writing Tools」となる(下の写真)。Writing Toolsは文章作成において、文法をチェックし、また、生成したレポートを特定のトーンに変更する機能を持つ。更に、レポートを要約し、そのポイントを提示する機能もある。

出典: Apple

Genmoji:イメージ生成機能

「Genmoji」は絵文字を生成するツールで、テキストを入力すると、それに沿ったイメージが生成される。これは生成AIのイメージ生成機能であるが、プロンプトを入力する代わりに、テーマを選択することで簡便に絵文字やスティッカーを生成できる。入力するテキストを最小限に留め使いやすさを強調している。例えば、「猫」、「パーティ」、「シェフ」というアイコンを選択すると、猫のシェフが生成される(下の写真左側)。生成したイメージをメッセージに張り付けて利用する(中央と右側)。

出典: Apple

Enhanced Siri:アシスタント機能を強化

Siriは13年前に投入されたAIアシスタントであるが、Apple Intelligenceで機能が格段に強化された。Siriは言葉を理解する能力が向上し、複雑なタスクを実行できるようになった。Siriはデバイス内の個人情報を読み込み、アプリケーションを跨り、アクションを実行する。例えば、「母のフライトの到着時間は?」と質問すると、Siriは母やフライトや到着時間という意味を理解し、受信したメッセージをを検索し、到着時間を表示する(下の写真中央)。また、夕食の予定を尋ねると、そのメッセージを表示する(右側)。デザインが一新され、Siriを起動するとスクリーンの枠がフラッシュする。また、テキストでの入力が可能となった(左側)。

出典: Apple

Apple Intelligenceの構造:複数の生成AIで構成

Apple Intelligenceは複数の生成AIで構成され、テキスト生成など日々の生活で使われる機能を提供する。生成AIはテキスト生成の他に、メッセージの要約、イメージの生成、アクションの実行など、日常生活で使う機能を実行するために開発され、これに特化したアーキテクチャとなっている。更に、生成AIは「アダプター」という機構を搭載し、実行時に、これらのタスクに特化したモデルに動的に変更できる構造となっている。

生成AIモデル:オンデバイスとサーバサイド

Apple Intelligenceのコア機能は、二種類の生成AIで構築される。生成AIはオンデバイス(モバイルデバイス)とサーバサイド(クラウド)で稼働する運用形態を取る。それぞれの機能は:

  • オンデバイス(on-device language model):小型モデルで3Bのパラメータから構成される。iPhoneやiPadやMacで稼働する。限られたリソースで効率的に稼働する構造となっている。
  • サーバサイド(server-based language model):データセンタで稼働するモデルで、専用クラウド「Private Cloud Compute」で運用される。個人情報保護を厳格に実行するため、クラウドはApple独自の半導体と基本ソフトで構成される。

生成AIモデルの開発:効率的に稼働できるアーキテクチャ

生成AIモデルは限られた資源で効率的に稼働できるよう、使われる機能に最適化したアーキテクチャとなっている。生成AI開発のプロセスは(下の写真):

  • Pre-Training:生成AIモデルの一般教育。教育データを有償で入手。また、ウェブサイトの公開情報を教育データとして利用。
  • Post-Training:一般教育が終わったモデルをチューニングして性能を向上。人間の判定のフィードバック(RLHF)や合成データでモデルを再教育。
  • Optimization:完成した生成AIモデルを高速で効率的に実行できるよう最適化。
  • Model Adaptation:単一モデルで異なるタスクを実行するためのアダプター。実行時に特定タスクの重み(Weight)をモデルに入力し、そのタスクを効率的に実行できるモデルに動的に変更(下の写真右端)。これにより小型モデルでもiPhone上でイメージの生成を効率的に実行できる。
出典: Apple

Private Cloud Compute:高度なセキュリティ

Apple Intelligenceは個人情報など機密データを安全に取り扱うため、オンデバイスでの処理を基本とする。個人情報はiPhoneなどのデバイスに留まりプライバシー保護を厳格に実行する。しかし、大規模な処理が必要な場合はセキュアなクラウド「Private Cloud Compute」でこの処理を実行する(下の写真)。Private Cloud ComputeはAIで個人情報を解析するための専用クラウドで、厳格なセキュリティに基づいて構成される。基本ソフトやプロセッサはAppleが独自で開発したものが使われ、サイバー攻撃を防御し個人情報を守る。

出典: Apple

OpenAIとの提携:GPT-4oの機能を限定的に利用

Appleは独自のAI技術Apple Intelligenceに加え、OpenAIと提携し最新の生成AIを提供する戦略を取る。GPT-4oをiOSなどの基本ソフトに組み込み、Apple Intelligenceと並列で運用する。基本的なタスクはApple Intelligenceで実行し、高度なテキスト生成(下の写真)やイメージ生成でGPT-4oを利用する。AppleはOpenAIだけでなく、他社のAIを利用するポジションを取り、GoogleとGeminiに関する協議を進めていると報道されている。

出典: Apple

市場の反応:Apple Intelligenceの評価が分かれる

米国市場のApple Intelligenceに関する評価は分かれており、失望したという声が聞かれる反面、Appleの将来に期待するという意見も多い。AppleはApple Intelligenceで生成AI市場に参入し、iPhoneなどの機能を大幅にアップグレードした。しかし、これらはベーシックな生成AIで、市場を驚かせるようなイノベーションはなく、先行企業を追随する形となった。同時に、AppleのAI戦略を理解し、これを評価する声も大きい。Appleは危険性を内包する生成AIを安全にデバイスに統合し、日々の生活に必要なエッセンシャルな機能を供給する。更に、レベルアップしたSiriを評価する意見も多く、米国消費者は賢いAIエージェントの登場を期待している。

出典: Apple

AppleのAI戦略:機能より安全性を重視

Apple Intelligenceは小型軽量の生成AIで、利用する機能に最適化した効率的なモデルとなっている。オンデバイスで稼働させるため、機能性より実用性を重視したコンセプトとなっている。一方、オンデバイスで処理できないタスクに関しては、セキュアなクラウド「Private Cloud Compute」で実行する。クラウドはApple独自のプロセッサと基本ソフトで構成され、個人情報保護を徹底するアーキテクチャとなっている。

他社との連携

また、Appleは第三者の生成AIをシステムに組み込む計画を明らかにした。OpenAI ChatGPTの次はGoogle Geminiで、契約交渉を進めていると報道されている。ただ、生成AIの中心人物はApple Intelligenceで、他社の生成AIはこれを補完するかたちで提供する。Appleが生成AI市場に参入したことで、巨大テックすべてが出そろい、各社は自社の戦略に沿ってAI開発を加速することになる。