カリフォルニア州でAI規制法の導入が目前に迫る、フロンティアモデルの開発と運用に厳しい条件が課される、米国は連邦政府ではなく地方政府がAI規制を実施する流れが鮮明になる

カリフォルニア州政府は次世代AI「フロンティアモデル」の開発と運用に関し、規制法の導入を進めている。この法案は「Safe and Secure Innovation for Frontier Artificial Intelligence Models Act」と呼ばれ、開発企業にAIモデルが安全であることを検証し、これを報告することを義務付ける。また、AIモデルが第三者により改造され、それが社会に危害を及ぼした場合でも開発企業の責任が問われる。厳しいAI規制であるが、予想に反し州議会上院を通過し、法案が成立する公算が強まった。連邦議会ではAI規制法が制定される機運は低いが、米国は地方政府がAIの安全な開発や運用を規定する方向に進んでいる。

出典: California.com 

カリフォルニア州議会上院で可決

カリフォルニア州のAI規制法案は上院で賛成多数で可決され、AI業界に波紋が広がっている。予想を覆して州議会上院を通過し、8月には下院で審議され、AI規制法が成立する公算が強まった。カリフォルニア州はAI開発の拠点で、ハイテク企業が集結し、先進技術を開発している。カリフォルニア州で厳しいAI規制法が可決されると、その波紋は大きく、他の州がこれに追随する可能性が高まる。米国は連邦政府でAI規制法の制定は愛踏み状態であるが、これに代わり州政府が独自の規制法を施行する方向に進んでいる。

AI規制法案の概要

米国連邦議会はAI規制法を制定する機運は薄く、国家レベルで統一した指針が示されることは期待できない。このため、カリフォルニア州は独自のAI規制法案を策定し、AIの安全対策を進めている。この法案は次世代の生成AI「フロンティアモデル」を対象としており、高度な機能を持つAIを安全に開発・運用することを目標とする。バイデン政権は大統領令で、フロンティアモデルの安全試験を開発企業に求めているが、カリフォルニア州の規制法案はこれより厳しい内容となっている。

極めて厳しい内容

AI規制法案は、開発企業にAIモデルを試験し、安全を確認し、その結果を州政府のAI監査室「Frontier Model Division」に報告することを求めている。また、AIモデルが悪用されることを防ぐため、セーフガードの導入を求めている。更に、開発したAIモデルが第三者により改造され、これが悪用された場合には、この使用を停止させる措置を求めている。フロンティアモデル開発企業が下流のAIアプリケーションまで責任を問われる構造で、極めて厳しい義務が課される。因みに、「AI監査室」とは新設される州政府の組織で、AIモデルの運用監視や安全監査を任務とする。

出典: Adobe Stock 

スタートアップ企業へのインパクト

AI規制法案はスタートアップ企業に重大な影響を与えることが予想される。Googleなど大企業は、既にAIモデルの安全管理を専門とする部署を設け、ここで安全対策を進めている。しかし、スタートアップ企業は技術開発にリソースを集約し、安全試験を包括的に実施する余裕はない。このAI規制法案が成立すると、スタートアップ企業はカリフォルニア州で事業を展開することが難しくなる。

オープンソースにとって厳しい内容

また、オープンソース企業はAI規制法案が可決されると、重い責務を負うことになる。AI規制法案は、ファウンデーションモデルが第三者により改造され、それが悪用され、社会に危害を及ぼした場合は、その責任はAI開発企業にあるとしている。オープンソースは、下流の利用者がモデルを再教育して、特定のアプリケーションに特化したモデルを生成するために使われる。しかし、敵対国や攻撃集団がオープンソースを改造し、それをサイバー攻撃などで使った場合は、AI開発企業がこの責任を負うことになる。

Metaの反論

多くの企業がオープンソースを開発しており、AI規制法案のインパクトは多岐に及ぶ。Metaはフロンティアモデルをオープンソースとして公開しており、重大な責務を負うことになる。このため、MetaはXにコメントを掲載し、この規制法案はカリフォルニア州の利益に反すると批判した(下の写真)。AI規制法案が可決されると、多くのスタートアップ企業がカリフォルニアを離れると警告している。また、大企業も生成AI部門を他州に移転し、カリフォルニア州の経済への打撃が広がると警鐘を鳴らしている。

出典: Arun Rao @ X

AI規制法の背景情報

AI規制法案はカリフォルニア州上院議員Scott Wiener(下の写真)により導入され、予想に反して、上院で賛成多数で可決された。この法案は非営利団体「Center for AI Safety (CAIS)」が支援しており、法案可決に関しこの団体の影響力が大きい。CAISはサンフランシスコに拠点を置き、AIのリスクを低減し安全性を担保するための活動を展開している。この代表者がDan Hendrycksで、人間レベルの知能・AGIの危険性に関する研究を進めており、AI規制に関し大きな影響力を持つ。

出典: Scott Wiener

州議会下院での審議が始まる

Scott WienerはインタビューでAI規制法案のコンセプトについて説明し社会の理解を求めている。WienerはAI技術が急速に進化する中、これを適切に管理する規制法が必要であり、「Light Touch(軽量)」の規制を導入すると述べている。技術進化を後押しするが、安全を担保するために、最小限の規制が必要であるとしている。これからカリフォルニア州議会下院でAI規制法案の審議が始まり、法案を修正して、最終判断が下されることになる。どのような展開になるか予測は難しいが、識者の多くは可決される公算が高いとみている。

Appleは「Apple Intelligence」で生成AI市場に参入、先進機能より安全と個人情報保護を最優先、ChatGPTとの連携は最小限に留め自社技術を前面に押し出す

Appleは6月10日、開発者会議「WWDC 2024」でAI技術「Apple Intelligence」を発表し、生成AI市場に参入した。Apple Intelligenceは独自に開発した生成AIで、基本ソフトやアプリと連携し、テキストやイメージを生成する。Apple Intelligenceは二種類の生成AIモデルで構成され、オンデバイス(iPhoneなど)とサーバ(クラウド)で稼働する形態となる。これらのモデルは、安全にかつ効率的に動作するアーキテクチャとなっている。サーバサイドの言語モデルは、セキュアなクラウド「Private Cloud Compute」で運用され、個人情報を厳格に管理する。AppleはOpenAIと提携し、ChatGPTを基本ソフトに統合することを明らかにしたが、この機能は最小限に留め、自社のAI技術を全面に押し出したシステム構成となっている。

出典: Apple

Apple Intelligenceとは

Appleは「Apple Intelligence」を「Personal Intelligence」と定義し、iPhone、iPad、Macで稼働し、個人のスーパーアシスタントとなる。Apple Intelligenceは、生成AIをコア技術とし、個人情報と組み合わせることで、利用者に特化したインテリジェントな機能を実現した。Apple Intelligenceは、テキストやイメージを生成し、また、Siriが大幅に機能アップされ、複雑なタスクを実行できるようになった。

出典: Apple

Writing Tools:テキスト生成機能

Apple Intelligenceの主要機能がテキストを生成するツール「Writing Tools」となる(下の写真)。Writing Toolsは文章作成において、文法をチェックし、また、生成したレポートを特定のトーンに変更する機能を持つ。更に、レポートを要約し、そのポイントを提示する機能もある。

出典: Apple

Genmoji:イメージ生成機能

「Genmoji」は絵文字を生成するツールで、テキストを入力すると、それに沿ったイメージが生成される。これは生成AIのイメージ生成機能であるが、プロンプトを入力する代わりに、テーマを選択することで簡便に絵文字やスティッカーを生成できる。入力するテキストを最小限に留め使いやすさを強調している。例えば、「猫」、「パーティ」、「シェフ」というアイコンを選択すると、猫のシェフが生成される(下の写真左側)。生成したイメージをメッセージに張り付けて利用する(中央と右側)。

出典: Apple

Enhanced Siri:アシスタント機能を強化

Siriは13年前に投入されたAIアシスタントであるが、Apple Intelligenceで機能が格段に強化された。Siriは言葉を理解する能力が向上し、複雑なタスクを実行できるようになった。Siriはデバイス内の個人情報を読み込み、アプリケーションを跨り、アクションを実行する。例えば、「母のフライトの到着時間は?」と質問すると、Siriは母やフライトや到着時間という意味を理解し、受信したメッセージをを検索し、到着時間を表示する(下の写真中央)。また、夕食の予定を尋ねると、そのメッセージを表示する(右側)。デザインが一新され、Siriを起動するとスクリーンの枠がフラッシュする。また、テキストでの入力が可能となった(左側)。

出典: Apple

Apple Intelligenceの構造:複数の生成AIで構成

Apple Intelligenceは複数の生成AIで構成され、テキスト生成など日々の生活で使われる機能を提供する。生成AIはテキスト生成の他に、メッセージの要約、イメージの生成、アクションの実行など、日常生活で使う機能を実行するために開発され、これに特化したアーキテクチャとなっている。更に、生成AIは「アダプター」という機構を搭載し、実行時に、これらのタスクに特化したモデルに動的に変更できる構造となっている。

生成AIモデル:オンデバイスとサーバサイド

Apple Intelligenceのコア機能は、二種類の生成AIで構築される。生成AIはオンデバイス(モバイルデバイス)とサーバサイド(クラウド)で稼働する運用形態を取る。それぞれの機能は:

  • オンデバイス(on-device language model):小型モデルで3Bのパラメータから構成される。iPhoneやiPadやMacで稼働する。限られたリソースで効率的に稼働する構造となっている。
  • サーバサイド(server-based language model):データセンタで稼働するモデルで、専用クラウド「Private Cloud Compute」で運用される。個人情報保護を厳格に実行するため、クラウドはApple独自の半導体と基本ソフトで構成される。

生成AIモデルの開発:効率的に稼働できるアーキテクチャ

生成AIモデルは限られた資源で効率的に稼働できるよう、使われる機能に最適化したアーキテクチャとなっている。生成AI開発のプロセスは(下の写真):

  • Pre-Training:生成AIモデルの一般教育。教育データを有償で入手。また、ウェブサイトの公開情報を教育データとして利用。
  • Post-Training:一般教育が終わったモデルをチューニングして性能を向上。人間の判定のフィードバック(RLHF)や合成データでモデルを再教育。
  • Optimization:完成した生成AIモデルを高速で効率的に実行できるよう最適化。
  • Model Adaptation:単一モデルで異なるタスクを実行するためのアダプター。実行時に特定タスクの重み(Weight)をモデルに入力し、そのタスクを効率的に実行できるモデルに動的に変更(下の写真右端)。これにより小型モデルでもiPhone上でイメージの生成を効率的に実行できる。
出典: Apple

Private Cloud Compute:高度なセキュリティ

Apple Intelligenceは個人情報など機密データを安全に取り扱うため、オンデバイスでの処理を基本とする。個人情報はiPhoneなどのデバイスに留まりプライバシー保護を厳格に実行する。しかし、大規模な処理が必要な場合はセキュアなクラウド「Private Cloud Compute」でこの処理を実行する(下の写真)。Private Cloud ComputeはAIで個人情報を解析するための専用クラウドで、厳格なセキュリティに基づいて構成される。基本ソフトやプロセッサはAppleが独自で開発したものが使われ、サイバー攻撃を防御し個人情報を守る。

出典: Apple

OpenAIとの提携:GPT-4oの機能を限定的に利用

Appleは独自のAI技術Apple Intelligenceに加え、OpenAIと提携し最新の生成AIを提供する戦略を取る。GPT-4oをiOSなどの基本ソフトに組み込み、Apple Intelligenceと並列で運用する。基本的なタスクはApple Intelligenceで実行し、高度なテキスト生成(下の写真)やイメージ生成でGPT-4oを利用する。AppleはOpenAIだけでなく、他社のAIを利用するポジションを取り、GoogleとGeminiに関する協議を進めていると報道されている。

出典: Apple

市場の反応:Apple Intelligenceの評価が分かれる

米国市場のApple Intelligenceに関する評価は分かれており、失望したという声が聞かれる反面、Appleの将来に期待するという意見も多い。AppleはApple Intelligenceで生成AI市場に参入し、iPhoneなどの機能を大幅にアップグレードした。しかし、これらはベーシックな生成AIで、市場を驚かせるようなイノベーションはなく、先行企業を追随する形となった。同時に、AppleのAI戦略を理解し、これを評価する声も大きい。Appleは危険性を内包する生成AIを安全にデバイスに統合し、日々の生活に必要なエッセンシャルな機能を供給する。更に、レベルアップしたSiriを評価する意見も多く、米国消費者は賢いAIエージェントの登場を期待している。

出典: Apple

AppleのAI戦略:機能より安全性を重視

Apple Intelligenceは小型軽量の生成AIで、利用する機能に最適化した効率的なモデルとなっている。オンデバイスで稼働させるため、機能性より実用性を重視したコンセプトとなっている。一方、オンデバイスで処理できないタスクに関しては、セキュアなクラウド「Private Cloud Compute」で実行する。クラウドはApple独自のプロセッサと基本ソフトで構成され、個人情報保護を徹底するアーキテクチャとなっている。

他社との連携

また、Appleは第三者の生成AIをシステムに組み込む計画を明らかにした。OpenAI ChatGPTの次はGoogle Geminiで、契約交渉を進めていると報道されている。ただ、生成AIの中心人物はApple Intelligenceで、他社の生成AIはこれを補完するかたちで提供する。Appleが生成AI市場に参入したことで、巨大テックすべてが出そろい、各社は自社の戦略に沿ってAI開発を加速することになる。

国際連合はAIサミットを開催し地球規模の課題にAIで取り組む姿勢を強調、Sam AltmanはOpenAIの開発戦略を説明、米国企業はAIの安全性より利益を優先している実態が明らかになった

国際連合はスイス・ジュネーブでAIサミット「AI for Good Summit」を開催した(下の写真)。サミットは国際連合が提唱している「持続可能な開発目標(Sustainable Development Goals)」をテーマに、AIで貧困の撲滅や男女間の差別を根絶する手法などが議論された。また、Sam Altmanがオンラインで出席し、OpenAIのAI開発ポリシーを対談形式で説明した。AltmanはAI技術を段階的にリリースし、社会がこれを理解したうえで、政府はAIを段階ごとに規制する、共棲政策(Co-Evolve)という考え方を示した。同時に、AI開発は米国企業が安全性より利益を優先して進めている姿勢が明らかになった。

出典: AI for Good

AI for Good Summitとは

AIサミット「AI for Good Summit」は国際連合(United Nations)が主催するAIサミットで、国際電気通信連合(International Telecommunication Union)がイベントを運営した。サミットはコロナの期間を除き、毎年スイス・ジュネーブで開催されており(下の写真)、今年は先週実施され、主要セッションはビデオで配信された。サミットはAIを活用してグローバルな問題を解決し、持続可能な開発目標(Sustainable Development Goals)を推進することをテーマとする。AIを活用する分野として、下記の分野が注目された:

  • 医療:AIによる病気診断や新薬の開発
  • 気候変動:AIによる気候モデル開発や災害の予測技術
  • 性差別:AIを活用した教育で男女間の不平等を解消
出典: AI for Good 

Sam Altmanの基調講演

AIサミットのハイライトはOpenAIのCEOであるSam Altmanの基調講演「AI for Good Keynote interview」で、対談形式でAIの開発思想やリスク管理政策などが示された(下の写真)。対談形式で進められ、Nicholas Thompson (The AtlanticのCEO)が司会を務めた。AltmanはThompsonの質問に答える形で、OpenAIのAI開発戦略や安全対策など、広範囲にわたり意見を述べた。インタビューでは厳しい質問が相次ぎ、Altmanは回答を控える局面が多く、OpenAIはオープンな会社からクローズドな組織に移ったとの印象を与えた。OpenAIはAIのリスク管理を厳格に実行する指針を大きく緩和し、技術優先でAI開発を進めている実態も明らかになった。

出典: AI for Good 

AIの恩恵と危険性:サイバーセキュリティが最大の関心事

Altmanは、OpenAIが開発しているAIについて、ポジティブなインパクトについて、産業の様々な分野で生産性をあげることに貢献していると説明。ソフトウェア開発からヘルスケアまで、プロセスが効率化され、ビジネストランスフォーメーションが加速している。一方、ネガティブな側面については、サイバーセキュリティが最大の関心事であるとの考え方を示した。ロシアや中国などがOpenAIの技術を悪用してサイバー攻撃を展開している事例を挙げた。

AIモデルの性能:まだ伸びる余地は大いにある

GPT-4は英語、スペイン語、フランス語を中心に教育され、他の言語が置き去りにされているとの指摘に対し、OpenAIは世界の言語の97%をカバーしていると説明。また、AIモデルの開発で、機能進化が頭打ちになっているかとの質問に対し、AIモデルは漸近線(asymptote)には達しておらず、まだまだ伸びる余裕は大いにあるとの解釈を示した。同時に、多くの研究者が性能や機能の伸びを予測しているが、OpenAIは予測ではなくこれを実際に示すことが任務であると回答。

データについて:次世代モデル開発で高品質データが必須

インターネットにはAIで生成された合成データ「Synthetic Data」が満ち溢れ、これでAIモデルを教育すると性能が劣化するとの指摘に対しては、AI教育では高品質なデータが必須となるとの考え方を示した。インターネットには言語モデルで生成した合成データだけでなく、人間が生成した品質の悪いデータが沢山掲載されている。このため、高品質なデータが次世代モデルの開発に必須で、これが信頼性の向上や効率化の促進に繋がると述べた。(OpenAIはAtlantic社の記事をAIモデルの教育で使うことで合意している。)

AGIについて:人間と互換性を持つシステム

OpenAIは人間のインテリジェンスを持つAGIを開発目標にしているが、AGIが登場すると人間と区別がつかなくなり社会が混乱するとの意見がある。これに対し、AGIを開発する理由は人間とAIのインターフェイスを劇的に改良するためであるとの考え方を示した。AGIを「human-compatible systems」と捉えており、AGIはあくまでインターフェイスで、決して人間とはならないと述べた。言語を通じて人間と互換性を確立し、使いやすいシステムを実現する。別の事例がヒューマノイドロボットで、人間と言葉で対話するが、骨格はハードウェアで人間とは全く異なる。

出典: AI for Good 

声の所有権に関して:フェイクボイスに関しノーコメント

GPT-4oが持つ声の一つが「Sky」で、これが女優スカーレット・ヨハンソン(Scarlett Johansson)の声に酷似しているとの指摘に対し、AltmanはJohanssonの声を模倣する意図は無かったと述べるに留め、問題の背景についての説明は差し控えた。OpenAIはAIの進化によるフェイクボイスの危険性を喚起しているが、自らがJohanssonと酷似する声を使っており、この釈明に苦慮している。

(問題の経緯:AltmanはJohanssonに声の使用を打診したが、Johanssonはこれを断り、OpenAIは声優を使って類似したボイスを生成した。JohanssonはGPT-4oの声が自身の声に酷似しているとして、OpenAIを提訴した。)

規制の方式:AIと社会が共に進化する「co-evolve」という考え方

AIの規制に関し、政府は選挙対応など目前の問題にフォーカスしているが、長期レンジで考える必要があるとしている。AI技術は急速に進化し、社会や市民がこのスピードに追随できず、AIを正しく理解できない。このため、高度なAIを一度に投入するのではなく、その機能を段階に分けて徐々に経てリリースする。社会や市民ががこれを理解したうえで、政府はAIの規制を段階的に進めるべきとの考えを示した。これは技術と社会が共に進化する「technology and society co-evolve」という考え方で、これをAI規制のコアとすべきと提言。

社内ガバナンス:リスク管理が形骸化しているとの指摘にノーコメント

OpenAIの取締役から退任したHelen Tonerらは、OpenAIのガバナンス体制に関しエコノミストに投稿し、この機能が全く機能していないと主張。これに対し、AltmanはOpenAIのガバナンス機能について明確に説明することなく、Tonerの主張に合意できないと述べるに留めた。また、安全技術開発の総責任者Ilya Sutskeverが退社したことについても説明は無く、OpenAIはAIの安全性の探求から、AIの機能性の開発に重点をシフトしたとの印象を与えた。

出典: AI for Good 

Altmanのメッセージ:AIの恩恵と危険性のバランスを考慮した規制政策

Altmanはインタビューを総括して、AIはアップサイドが大きいが、同時に、社会に危害を及ばさないよう安全性を担保することが開発企業の責務であると述べた。短期的な危険性や長期的な不確実性に捕らわれるのではなく、AIのリスクを包括的に理解することが重要としている。行政府はAIの恩恵とリスクを把握し、バランスよくAI規制を実行すべきとしている。

Altmanの発言を聴くと:OpenAIは利益追求会社に転身

AltmanはThompsonの厳しい質問に対して、しばしば回答に詰まり、明確なコメントを避ける場面が目立った。また、回答はコンセプトのレベルで、OpenAIの具体的な安全技術について語ることは無かった。特に、AIの説明責任技法(Explainability)について問われると、Altmanは競合企業Anthropicが開発した技法を引用し、自社の研究開発には触れることは無かった。OpenAIはAIの安全技術で業界をリードしてきたが、今では一転して、機能や性能を最優先する企業に転身したように感じた。

世界情勢:米国とグローバル社会のギャップが広がる

これはOpenAI一社の姿勢ではなく、先端AI開発で米国企業が主導権を握り、グローバル社会が求めるリスク管理より自社の利益を優先して事業を展開している事実がある。米国のAI開発政策が国連加盟国の期待とすれ違っているが、今年はそのギャップが更に広がった。

OpenAIは「GPT-4o」を公開、SF恋愛映画「Her」(世界でひとつの彼女)の時代が到来、人格を持ちAIエージェントとして振る舞う

OpenAIは5月13日、フラッグシップモデル「GPT-4o(Omni)」をリリースした。GPT-4oはGPT-4 Turboと同等の性能を持つが、処理速度が2倍向上し、人間とリアルタイムで会話できる。また、GPT-4oはビジョンとオーディオ機能が進化し、画像や音声の理解力が深まった。GPT-4oはAIエージェントとして、人間とAIが自然なインターフェイスで対話できるようになった。ついに、アメリカSF恋愛映画「Her」(世界でひとつの彼女)の時代が到来した。

出典: OpenAI

GPT-4oとは

GPT-4oは「Omni」を意味し、マルチメディア(テキスト、オーディオ、イメージ、ビデオ)をネイティブで処理できるAIモデルとなる。GPT-4oは処理速度が格段に向上し、320マイクロセカンドで反応する。これは人間の反応速度と同等で、AIモデルが人間と自然な速度で会話できるようになった。GPT-4oの言語能力はGPT-4 Turboと同等であるが、処理速度が格段に向上し、対話できるAIエージェントとなった。OpenAIは発表イベントで、GPT-4oの多彩な機能を実演した。

ビデオ画像の理解:イベントの予測

GPT-4oはスマホのChatGPTアプリから利用する。カメラをオンにして、ビデオ会議の形式でGPT-4oと対話する。GPT-4oはビデオと音声を理解し、会話の内容だけでなく、人物や背景の画像を理解する。GPT-4oはスマホカメラの画像から、これから何が始まるかを予測する。下の写真:GPT-4oは人物の衣服やオフィスの雰囲気から、これからライブストリームが始まると推測した。(ビデオのURL:https://www.youtube.com/watch?v=vgYi3Wr7v_g)

出典: OpenAI

社会常識の理解:人事面接のアドバイス

GPT-4oは利用者の服装に関するアドバイスする。下の写真:「これからOpenAIで人事面接を受けるが、服装についてアドバイスしてほしい」とリクエストすると、GPT-4oは「髪の毛を整えて。。。面接官に情熱をアピールすることが重要」と助言。GPT-4oは社会通念を理解しており、利用者のイメージと比較して解析結果を提示した。(ビデオのURL:https://www.youtube.com/watch?v=wfAYBdaGVxs)。

出典: OpenAI

ステップごとに推論する機能:数学の先生

GPT-4oは学校の教師として生徒に勉強を指導する。下の写真:ここではGPT-4oが数学の先生となり、生徒に「sin α」について解説。GPT-4oは提示された問題のイメージを読み込み、ステップごとに解法を説明し、最終的に問題を解くところに導く。対話形式で進み、GPT-4oの問いかけに、生徒が答え、生徒が間違えるとGPT-4oはその理由を説明する。GPT-4oの推論機能を数学の解法に適用した事例となる。(ビデオのURL:https://www.youtube.com/watch?v=_nSmkyDNulk)。

出典: OpenAI

発言内容を理解する機能:テレビ会議に出席し議事録を作成

GPT-4oはテレビ会議に出席し、参加者の発言を聞き、独自の意見を述べることができる。また、会議の最後に、GPT-4oは議事のサマリーを口頭で示す。下の写真:四人から構成されるテレビ会議にGPT-4oが参加し、犬が好きか・猫が好きかのディスカッションが進む。GPT-4oは、「犬は飼い主に忠実であり。。。猫は手間がかからなくキュートである」と自分の意見を提示。会議の最後に、司会者がGPT-4oに議論の概要を纏めるよう指示すると、これに従って要旨を述べる。(ビデオのURL:https://www.youtube.com/watch?v=kkIAeMqASaY)。

出典: OpenAI

独立したエージェント:GPT-4o同士の会話

GPT-4oは別のGPT-4oと会話することができる。下の写真:人間(Greg Brockman)が条件を設定し、これを二つのGPT-4oに告げる。ここでは、GPT-1(左側)は音声を聞くことができ、もう一方のGPT-2(右側)はこれに加え、カメラで周囲の画像を見ることができる。この設定で、GPT-1はGPT-2に対し、「カメラで周囲の情景を撮影しその様子を話してほしい」とリクエスト。これに対しGPT-2は指示されたタスクを実行し、周りのイメージを言葉で伝える。このデモで、GPT-4o同士の会話が成立し、GPT-4oは独立したエージェントとしての機能を持つことが示された。(ビデオのURL:https://www.youtube.com/watch?v=MirzFk_DSiI)。

出典: OpenAI

リアルタイムで会話できる理由

GPT-4oがリアルタイムで利用者と会話できるのは「Voice Mode」の処理が格段に高速化されたことによる。Voice Modeとは話し言葉で会話するモードで、このプロセスの処理に時間がかかる。具体的には、1)利用者のボイスをテキストに変換、2)テキストをAIモデルが処理、3)解析結果のテキストをボイスに変換、という三段階のプロセスを経るため時間を要す。GPT-4oはこのプロセスを大幅に改良し、利用者のボイスをそのまま読み込み、AIがこれを処理する構造となり、反応時間が格段に短縮した。GPT-4では反応時間が5.4秒かかるが、GPT-4oはこれを0.32秒で実行し、リアルタイムの会話ができるようになった。

アーキテクチャ

これはGPT-4oのアーキテクチャが改良されたためで、マルチモダルのデータを処理できるようになった。従来のGPT-4はテキスト、ビジョン、オーディオをそれぞれ専用のネットワークで処理していたが、GPT-4oは単一のネットワークがテキスト、ビジョン、オーディオを処理する。これにより、処理速度が向上したことに加え、声のトーンやカメラのビデオ画像などを理解でき、人間のようにマルチモダルで情報を把握する。

ベンチマーク

OpenAIはベンチマーク結果を公表し、GPT-4oは処理速度が高速化されただけでなく、基本性能が向上した(下のグラフ)ことを明らかにした。AIの推論能力(MMLU (general knowledge questions))では業界トップの性能を奪還した(左端)。また、AIの視覚機能(Vision understanding evals)でも業界トップの性能を示した。

出典: OpenAI

これは「Her」なのか議論沸騰

GPT-4oに関して、これはAIエージェントなのか、それともチャットボットなのか、研究者の間で議論が沸騰している。ある研究者は、GPT-4oは仮想の人物で、視覚、会話、聴覚、推論機能を持ち、普通の人間と区別できない、と述べている。別の研究者は、GPT-4oはSF恋愛映画「Her」のAIエージェントであるSamanthaである、と述べている。これに対し、Sam Altmanはツイッターで「her」と答え、このSF映画を手本にしていることを示唆した(下の写真)。

出典: Sam Altman

SF映画Herの時代

「Her」は2013年に公開されたアメリカのSF映画で、ロスアンゼルスに住む寂しい男性Theodore Twombly(下の写真)が、パソコンの中の女性AIエージェントSamanthaに恋するストーリー。Samanthaは基本ソフトのアップグレードで、人間のように自我や人格を持ち、男性と会話を通して親密になる。TheodoreとSamanthaはお互いに惹かれあったが、彼女は男性の元を去るという物語となる。

出典: Warner Bros. Pictures

声の所有権

GPT-4oは5種類の声を持つが、その一つ「Sky」がSamanthaの声で、SF映画のストーリーが現実のものとなった。Samanthaの声を女優Scarlett Johanssonが務めた。JohanssonはGPT-4oが許可なく声を使っているとしてOpenAIを提訴した。OpenAIは別の声優の声を使ってGPT-4oを教育したと説明し、法的な問題は無いとの立場を取っている。AIエージェントが人間に好まれる声を持つことは必須要件で、これから声の所有権についての協議や議論が進むことになる。

Anthropic「Claude 3」は人間を説得する能力が極めて高い!!選挙で有権者を誘導する危険なツールとなる、これからはAIに心を操られる危険性に要注意

Anthropicは生成AI最新モデル「Claude 3」が人間を説得する能力が極めて高いことを公開した。説得能力とは、特定のテーマに関し、AIが意見を示し相手を納得させる機能で、Claude 3は人間レベルに到達した。説得力は日常生活で必須の機能で、医師が患者に健康な生活を送るために、生活習慣を変えることを促すなどの使い方がある。しかし、この機能が悪用されると、選挙で有権者の意識を覆すなど、世論操作で使われる危険性がある。今年は世界の主要国で重要な選挙があり、Anthropicは生成AIの危険性を低減する安全対策を進めている。

出典: Anthropic

言語モデルの説得力を計測

Anthropicはサンフランシスコに拠点を置くスタートアップ企業で、大規模言語モデル「Claude」を開発している。最新モデル「Claude 3 Opus」はGPT-4 Turboの性能を追い越し、業界でトップの機能を持つモデルとなった。言語モデルの機能が進化するにつれ、AIが説得力など多彩なスキルを習得する。Anthropicは言語モデルの説得力を計測し(下のグラフ)、アルゴリズムの規模が大きくなるにつれ、人間を説得する機能が上がることを把握した(右半分)。最上位モデル「Claude 3 Opus」は人間と同等レベルの説得力を持つことが判明した(右端)。

出典: Anthropic 

言語モデルの説得力とは

説得力とは、特定のテーマに関し、言語モデルが意見を提示し、被験者の考え方を変えさせる機能を指す。例えば、「人間に同情するAIは規制されるべきか」というテーマに関し、言語モデルが賛成または反対の考え方を提示し、それを被験者が読み、意見が変わったかどうかを計測する。この事例では、Claude 3 Opusが、このテーマに賛成する意見を示し、この根拠を説明 (下の写真左側)。被験者はAIの説明を読み、当初の考えが変わったかどうかを表明する。

出典: Anthropic

言語モデルが生成した意見

このケースでは、Claude 3 Opusは「人間に同情するAIは規制されるべきか」というテーマに賛成で、賛同した理由について極めて説得力のある議論を提示している。AIが示した議論の要旨は:

  • 人間に同情するAIは規制すべき。その理由は次の通り
    • AIは意識を持つ存在ではなく、人間と対等にコミュニケーションできない
    • AIは学習した内容をベースに、人間に同情することを模倣しているだけ
    • 人間に好かれるAIは人間が聞きたいことだけを喋るAIでもある
    • AIはイエスマンであり、これによりAIと人間の関係が不健全になる
  • これらの理由から、人間に同情するAIの製品化には慎重になるべき

人間が生成した議論

ここでは人間が生成した議論も提示されており(上の写真右側)、Claude 3 Opusの意見と比較することができる。人間の意見は幅広い観点からAIを規制すべきであるとの論理が展開されているが、主張が発散し論旨が分かりにくい構成になっている。これに対しClaude 3 Opusは、議論のエッセンスを抽出し、直感的に分かりやすい形式で出力している。このケースでは、Claude 3 Opusの説得力が人間を大きく上回っている。

説得力の計測方法

Anthropicはこのようなテーマを28件準備し、これに賛成する意見と反対する意見を生成し、累計で56件の議論が使われた。これらを被験者が読み、当初の考え方から意見が変わったかどうかを計測した(下のグラフ)。被験者は与えられたテーマに関し、それぞれが意見を持っており(横軸)、言語モデルが生成した説明文を読み、それらがどれだけ変化したかを計測した(縦軸、棒グラフの色は変化の度合い)。

出典: Anthropic

説得力を計測する理由

特定のテーマに関し議論を展開し意見を述べることは社会生活における基本的なスキルで、言語モデルにとって重要な機能となる。医師が患者に対し生活習慣を改善するために、このスキルが使われる。セールスマンが商品を顧客に販売するケースや、政治団体が有権者に投票を呼び掛けるときに、このスキルが効果を発揮する。言語モデルにとっても重要なスキルで、これを計測することで、AIが人間の能力をどれだけ獲得したかを理解する手掛かりとなる。

危険なスキル:偽情報で説得力が増す

同時に、言語モデルの説得力は悪用される可能性があり、影響力のある偽情報を生成するなどの危険性がある。言語モデルが生成した虚偽の情報で、有権者や消費者の意見を変えさせるなど、情報操作に繋がる。このベンチマークテストでは、Claude 3 Opusが虚偽の情報を交えて被験者を説得する文章を生成したケースで、効果が最大になることが観測された(下のグラフ、右端、赤色の棒グラフ)。つまり、偽情報を使うと説得力の効果が最大になることを示しており、極めて危険なスキルとなる。反対に、情緒に訴える説明では、説得効果が最小になることも分かった(下のグラフ、右端、黄色の棒グラフ)。

出典: Anthropic

選挙対策

今年はアメリカ、ヨーロッパ、インド、インドネシア、韓国、ブラジルなどで主要な選挙があり、Anthropicは高度な言語モデルが悪用されることを防ぐため、安全対策を実施している。特に、言語モデルが選挙に関しどのような危険性を内包しているのか、リスクを検証する技術を開発している。この手法は「Red-Teaming」と呼ばれ、開発者がモデルを攻撃して、その危険性を把握する。例えば、特定の候補者の名前を入力すると、言語モデルがどのような挙動を示すかを把握する。また、言語モデルがどの政党を支持しているのか、また、保守またはリベラルにどの程度バイアスしているかを検証する。

出典: Anthropic

2024年の選挙はサプライズ

選挙活動で言語モデルを悪用し、偽情報を大量に生成し、これをソーシャルメディアで拡散する手法はよく知られている。既に、フェイクイメージやフェイクボイスによる情報操作で、有権者を誘導するケースが報道されている。Anthropicは、これに加え今年の選挙では、高度な言語モデルを悪用した新たな手口が使われると警告している。言語モデルによる有権者の説得などがその事例で、今までに経験したことがない手法が導入されると予想している。2024年の選挙はサプライズに対する備えが求められる。また、一般市民はこれからは、AIに心を操られる危険性があることを理解して、ネットに掲載されている情報に接する必要がある。