カテゴリー別アーカイブ: OpenAI

国際連合はAIサミットを開催し地球規模の課題にAIで取り組む姿勢を強調、Sam AltmanはOpenAIの開発戦略を説明、米国企業はAIの安全性より利益を優先している実態が明らかになった

国際連合はスイス・ジュネーブでAIサミット「AI for Good Summit」を開催した(下の写真)。サミットは国際連合が提唱している「持続可能な開発目標(Sustainable Development Goals)」をテーマに、AIで貧困の撲滅や男女間の差別を根絶する手法などが議論された。また、Sam Altmanがオンラインで出席し、OpenAIのAI開発ポリシーを対談形式で説明した。AltmanはAI技術を段階的にリリースし、社会がこれを理解したうえで、政府はAIを段階ごとに規制する、共棲政策(Co-Evolve)という考え方を示した。同時に、AI開発は米国企業が安全性より利益を優先して進めている姿勢が明らかになった。

出典: AI for Good

AI for Good Summitとは

AIサミット「AI for Good Summit」は国際連合(United Nations)が主催するAIサミットで、国際電気通信連合(International Telecommunication Union)がイベントを運営した。サミットはコロナの期間を除き、毎年スイス・ジュネーブで開催されており(下の写真)、今年は先週実施され、主要セッションはビデオで配信された。サミットはAIを活用してグローバルな問題を解決し、持続可能な開発目標(Sustainable Development Goals)を推進することをテーマとする。AIを活用する分野として、下記の分野が注目された:

  • 医療:AIによる病気診断や新薬の開発
  • 気候変動:AIによる気候モデル開発や災害の予測技術
  • 性差別:AIを活用した教育で男女間の不平等を解消
出典: AI for Good 

Sam Altmanの基調講演

AIサミットのハイライトはOpenAIのCEOであるSam Altmanの基調講演「AI for Good Keynote interview」で、対談形式でAIの開発思想やリスク管理政策などが示された(下の写真)。対談形式で進められ、Nicholas Thompson (The AtlanticのCEO)が司会を務めた。AltmanはThompsonの質問に答える形で、OpenAIのAI開発戦略や安全対策など、広範囲にわたり意見を述べた。インタビューでは厳しい質問が相次ぎ、Altmanは回答を控える局面が多く、OpenAIはオープンな会社からクローズドな組織に移ったとの印象を与えた。OpenAIはAIのリスク管理を厳格に実行する指針を大きく緩和し、技術優先でAI開発を進めている実態も明らかになった。

出典: AI for Good 

AIの恩恵と危険性:サイバーセキュリティが最大の関心事

Altmanは、OpenAIが開発しているAIについて、ポジティブなインパクトについて、産業の様々な分野で生産性をあげることに貢献していると説明。ソフトウェア開発からヘルスケアまで、プロセスが効率化され、ビジネストランスフォーメーションが加速している。一方、ネガティブな側面については、サイバーセキュリティが最大の関心事であるとの考え方を示した。ロシアや中国などがOpenAIの技術を悪用してサイバー攻撃を展開している事例を挙げた。

AIモデルの性能:まだ伸びる余地は大いにある

GPT-4は英語、スペイン語、フランス語を中心に教育され、他の言語が置き去りにされているとの指摘に対し、OpenAIは世界の言語の97%をカバーしていると説明。また、AIモデルの開発で、機能進化が頭打ちになっているかとの質問に対し、AIモデルは漸近線(asymptote)には達しておらず、まだまだ伸びる余裕は大いにあるとの解釈を示した。同時に、多くの研究者が性能や機能の伸びを予測しているが、OpenAIは予測ではなくこれを実際に示すことが任務であると回答。

データについて:次世代モデル開発で高品質データが必須

インターネットにはAIで生成された合成データ「Synthetic Data」が満ち溢れ、これでAIモデルを教育すると性能が劣化するとの指摘に対しては、AI教育では高品質なデータが必須となるとの考え方を示した。インターネットには言語モデルで生成した合成データだけでなく、人間が生成した品質の悪いデータが沢山掲載されている。このため、高品質なデータが次世代モデルの開発に必須で、これが信頼性の向上や効率化の促進に繋がると述べた。(OpenAIはAtlantic社の記事をAIモデルの教育で使うことで合意している。)

AGIについて:人間と互換性を持つシステム

OpenAIは人間のインテリジェンスを持つAGIを開発目標にしているが、AGIが登場すると人間と区別がつかなくなり社会が混乱するとの意見がある。これに対し、AGIを開発する理由は人間とAIのインターフェイスを劇的に改良するためであるとの考え方を示した。AGIを「human-compatible systems」と捉えており、AGIはあくまでインターフェイスで、決して人間とはならないと述べた。言語を通じて人間と互換性を確立し、使いやすいシステムを実現する。別の事例がヒューマノイドロボットで、人間と言葉で対話するが、骨格はハードウェアで人間とは全く異なる。

出典: AI for Good 

声の所有権に関して:フェイクボイスに関しノーコメント

GPT-4oが持つ声の一つが「Sky」で、これが女優スカーレット・ヨハンソン(Scarlett Johansson)の声に酷似しているとの指摘に対し、AltmanはJohanssonの声を模倣する意図は無かったと述べるに留め、問題の背景についての説明は差し控えた。OpenAIはAIの進化によるフェイクボイスの危険性を喚起しているが、自らがJohanssonと酷似する声を使っており、この釈明に苦慮している。

(問題の経緯:AltmanはJohanssonに声の使用を打診したが、Johanssonはこれを断り、OpenAIは声優を使って類似したボイスを生成した。JohanssonはGPT-4oの声が自身の声に酷似しているとして、OpenAIを提訴した。)

規制の方式:AIと社会が共に進化する「co-evolve」という考え方

AIの規制に関し、政府は選挙対応など目前の問題にフォーカスしているが、長期レンジで考える必要があるとしている。AI技術は急速に進化し、社会や市民がこのスピードに追随できず、AIを正しく理解できない。このため、高度なAIを一度に投入するのではなく、その機能を段階に分けて徐々に経てリリースする。社会や市民ががこれを理解したうえで、政府はAIの規制を段階的に進めるべきとの考えを示した。これは技術と社会が共に進化する「technology and society co-evolve」という考え方で、これをAI規制のコアとすべきと提言。

社内ガバナンス:リスク管理が形骸化しているとの指摘にノーコメント

OpenAIの取締役から退任したHelen Tonerらは、OpenAIのガバナンス体制に関しエコノミストに投稿し、この機能が全く機能していないと主張。これに対し、AltmanはOpenAIのガバナンス機能について明確に説明することなく、Tonerの主張に合意できないと述べるに留めた。また、安全技術開発の総責任者Ilya Sutskeverが退社したことについても説明は無く、OpenAIはAIの安全性の探求から、AIの機能性の開発に重点をシフトしたとの印象を与えた。

出典: AI for Good 

Altmanのメッセージ:AIの恩恵と危険性のバランスを考慮した規制政策

Altmanはインタビューを総括して、AIはアップサイドが大きいが、同時に、社会に危害を及ばさないよう安全性を担保することが開発企業の責務であると述べた。短期的な危険性や長期的な不確実性に捕らわれるのではなく、AIのリスクを包括的に理解することが重要としている。行政府はAIの恩恵とリスクを把握し、バランスよくAI規制を実行すべきとしている。

Altmanの発言を聴くと:OpenAIは利益追求会社に転身

AltmanはThompsonの厳しい質問に対して、しばしば回答に詰まり、明確なコメントを避ける場面が目立った。また、回答はコンセプトのレベルで、OpenAIの具体的な安全技術について語ることは無かった。特に、AIの説明責任技法(Explainability)について問われると、Altmanは競合企業Anthropicが開発した技法を引用し、自社の研究開発には触れることは無かった。OpenAIはAIの安全技術で業界をリードしてきたが、今では一転して、機能や性能を最優先する企業に転身したように感じた。

世界情勢:米国とグローバル社会のギャップが広がる

これはOpenAI一社の姿勢ではなく、先端AI開発で米国企業が主導権を握り、グローバル社会が求めるリスク管理より自社の利益を優先して事業を展開している事実がある。米国のAI開発政策が国連加盟国の期待とすれ違っているが、今年はそのギャップが更に広がった。

OpenAIは「GPT-4o」を公開、SF恋愛映画「Her」(世界でひとつの彼女)の時代が到来、人格を持ちAIエージェントとして振る舞う

OpenAIは5月13日、フラッグシップモデル「GPT-4o(Omni)」をリリースした。GPT-4oはGPT-4 Turboと同等の性能を持つが、処理速度が2倍向上し、人間とリアルタイムで会話できる。また、GPT-4oはビジョンとオーディオ機能が進化し、画像や音声の理解力が深まった。GPT-4oはAIエージェントとして、人間とAIが自然なインターフェイスで対話できるようになった。ついに、アメリカSF恋愛映画「Her」(世界でひとつの彼女)の時代が到来した。

出典: OpenAI

GPT-4oとは

GPT-4oは「Omni」を意味し、マルチメディア(テキスト、オーディオ、イメージ、ビデオ)をネイティブで処理できるAIモデルとなる。GPT-4oは処理速度が格段に向上し、320マイクロセカンドで反応する。これは人間の反応速度と同等で、AIモデルが人間と自然な速度で会話できるようになった。GPT-4oの言語能力はGPT-4 Turboと同等であるが、処理速度が格段に向上し、対話できるAIエージェントとなった。OpenAIは発表イベントで、GPT-4oの多彩な機能を実演した。

ビデオ画像の理解:イベントの予測

GPT-4oはスマホのChatGPTアプリから利用する。カメラをオンにして、ビデオ会議の形式でGPT-4oと対話する。GPT-4oはビデオと音声を理解し、会話の内容だけでなく、人物や背景の画像を理解する。GPT-4oはスマホカメラの画像から、これから何が始まるかを予測する。下の写真:GPT-4oは人物の衣服やオフィスの雰囲気から、これからライブストリームが始まると推測した。(ビデオのURL:https://www.youtube.com/watch?v=vgYi3Wr7v_g)

出典: OpenAI

社会常識の理解:人事面接のアドバイス

GPT-4oは利用者の服装に関するアドバイスする。下の写真:「これからOpenAIで人事面接を受けるが、服装についてアドバイスしてほしい」とリクエストすると、GPT-4oは「髪の毛を整えて。。。面接官に情熱をアピールすることが重要」と助言。GPT-4oは社会通念を理解しており、利用者のイメージと比較して解析結果を提示した。(ビデオのURL:https://www.youtube.com/watch?v=wfAYBdaGVxs)。

出典: OpenAI

ステップごとに推論する機能:数学の先生

GPT-4oは学校の教師として生徒に勉強を指導する。下の写真:ここではGPT-4oが数学の先生となり、生徒に「sin α」について解説。GPT-4oは提示された問題のイメージを読み込み、ステップごとに解法を説明し、最終的に問題を解くところに導く。対話形式で進み、GPT-4oの問いかけに、生徒が答え、生徒が間違えるとGPT-4oはその理由を説明する。GPT-4oの推論機能を数学の解法に適用した事例となる。(ビデオのURL:https://www.youtube.com/watch?v=_nSmkyDNulk)。

出典: OpenAI

発言内容を理解する機能:テレビ会議に出席し議事録を作成

GPT-4oはテレビ会議に出席し、参加者の発言を聞き、独自の意見を述べることができる。また、会議の最後に、GPT-4oは議事のサマリーを口頭で示す。下の写真:四人から構成されるテレビ会議にGPT-4oが参加し、犬が好きか・猫が好きかのディスカッションが進む。GPT-4oは、「犬は飼い主に忠実であり。。。猫は手間がかからなくキュートである」と自分の意見を提示。会議の最後に、司会者がGPT-4oに議論の概要を纏めるよう指示すると、これに従って要旨を述べる。(ビデオのURL:https://www.youtube.com/watch?v=kkIAeMqASaY)。

出典: OpenAI

独立したエージェント:GPT-4o同士の会話

GPT-4oは別のGPT-4oと会話することができる。下の写真:人間(Greg Brockman)が条件を設定し、これを二つのGPT-4oに告げる。ここでは、GPT-1(左側)は音声を聞くことができ、もう一方のGPT-2(右側)はこれに加え、カメラで周囲の画像を見ることができる。この設定で、GPT-1はGPT-2に対し、「カメラで周囲の情景を撮影しその様子を話してほしい」とリクエスト。これに対しGPT-2は指示されたタスクを実行し、周りのイメージを言葉で伝える。このデモで、GPT-4o同士の会話が成立し、GPT-4oは独立したエージェントとしての機能を持つことが示された。(ビデオのURL:https://www.youtube.com/watch?v=MirzFk_DSiI)。

出典: OpenAI

リアルタイムで会話できる理由

GPT-4oがリアルタイムで利用者と会話できるのは「Voice Mode」の処理が格段に高速化されたことによる。Voice Modeとは話し言葉で会話するモードで、このプロセスの処理に時間がかかる。具体的には、1)利用者のボイスをテキストに変換、2)テキストをAIモデルが処理、3)解析結果のテキストをボイスに変換、という三段階のプロセスを経るため時間を要す。GPT-4oはこのプロセスを大幅に改良し、利用者のボイスをそのまま読み込み、AIがこれを処理する構造となり、反応時間が格段に短縮した。GPT-4では反応時間が5.4秒かかるが、GPT-4oはこれを0.32秒で実行し、リアルタイムの会話ができるようになった。

アーキテクチャ

これはGPT-4oのアーキテクチャが改良されたためで、マルチモダルのデータを処理できるようになった。従来のGPT-4はテキスト、ビジョン、オーディオをそれぞれ専用のネットワークで処理していたが、GPT-4oは単一のネットワークがテキスト、ビジョン、オーディオを処理する。これにより、処理速度が向上したことに加え、声のトーンやカメラのビデオ画像などを理解でき、人間のようにマルチモダルで情報を把握する。

ベンチマーク

OpenAIはベンチマーク結果を公表し、GPT-4oは処理速度が高速化されただけでなく、基本性能が向上した(下のグラフ)ことを明らかにした。AIの推論能力(MMLU (general knowledge questions))では業界トップの性能を奪還した(左端)。また、AIの視覚機能(Vision understanding evals)でも業界トップの性能を示した。

出典: OpenAI

これは「Her」なのか議論沸騰

GPT-4oに関して、これはAIエージェントなのか、それともチャットボットなのか、研究者の間で議論が沸騰している。ある研究者は、GPT-4oは仮想の人物で、視覚、会話、聴覚、推論機能を持ち、普通の人間と区別できない、と述べている。別の研究者は、GPT-4oはSF恋愛映画「Her」のAIエージェントであるSamanthaである、と述べている。これに対し、Sam Altmanはツイッターで「her」と答え、このSF映画を手本にしていることを示唆した(下の写真)。

出典: Sam Altman

SF映画Herの時代

「Her」は2013年に公開されたアメリカのSF映画で、ロスアンゼルスに住む寂しい男性Theodore Twombly(下の写真)が、パソコンの中の女性AIエージェントSamanthaに恋するストーリー。Samanthaは基本ソフトのアップグレードで、人間のように自我や人格を持ち、男性と会話を通して親密になる。TheodoreとSamanthaはお互いに惹かれあったが、彼女は男性の元を去るという物語となる。

出典: Warner Bros. Pictures

声の所有権

GPT-4oは5種類の声を持つが、その一つ「Sky」がSamanthaの声で、SF映画のストーリーが現実のものとなった。Samanthaの声を女優Scarlett Johanssonが務めた。JohanssonはGPT-4oが許可なく声を使っているとしてOpenAIを提訴した。OpenAIは別の声優の声を使ってGPT-4oを教育したと説明し、法的な問題は無いとの立場を取っている。AIエージェントが人間に好まれる声を持つことは必須要件で、これから声の所有権についての協議や議論が進むことになる。

Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

Anthropicは3月4日、大規模言語モデルの最新版「Claude 3」を投入した。Claude 3は主要ベンチマークテスト全てでOpenAIのGPT-4を上回り、業界で最も高度なモデルとなった。特に、推論機能や数学の問題を解く能力が強化され、インテリジェンスが大きく向上した。同時に、Anthropicはモデルの安全性を最重視しており、Claude 3は最も倫理的な生成AIとなる。

出典: Anthropic

Claude 3の概要

Anthropicは第三世代目となる大規模言語モデル「Claude 3」をリリースした。Claude 3は異なるサイズで構成され、最大モデル「Opus」、中規模モデル「Sonnet」、小規模モデル「Haiku」の三つの構成を提供する。ユーザは、インテリジェンスや実行速度やコストを勘案し、最適なモデルを選ぶことができる(下のグラフ)。OpusとSonnetはクラウドやAPI経由で公開され、また、Haikuは近日中にリリースされる。

出典: Anthropic

Claude 3 OpusはGPT-4を上回る

Claude 3最大構成のOpusは、主要ベンチマークテストの全ての項目でOpenAIのGPT-4の性能を上回った(下のテーブル)。基本的なベンチマーク「MMLU」(大学生レベルの知識)でGPT-4を上回り、業界トップの座を奪還した。特に、難度の高いベンチマーク、「GPQA」(大学院生レベルの知識)や「GSM8K」(数学の基本機能)や「MATH」(数学の高度な機能)を試験するベンチマークで好成績を上げた。Claude 3は理解する能力や柔軟性で人間の能力に迫り、Artificial General Intelligence(AGI)への第一歩となる。

出典: Anthropic 

ガードレール機能

Claude 3はバイアスや危険情報を抑止するため、安全装置「Guardrails」が実装されている。ガードレールはファイアウォールとして機能し、入力されたプロンプトを解釈し、不適切な指示に対しては回答を出力することを抑止する構成となっている。一方、ガードレールは安全性を過度に重視するため、正当なプロンプトに対しても回答を拒絶し、モデルの能力が低下する問題を抱えている。このため、Claude 3はプロンプトを理解する能力が向上し、前世代のモデルClaude 2に比べ、回答を不当に拒否する率を大幅に低下させた(下のグラフ)。

出典: Anthropic

コンテクスト・ウインドウ

Claude 3は入力できるプロンプトのサイズ「コンテクスト・ウインドウ」を20万トークンとして提供する。最大で100万トークンを処理する能力があり、顧客の要望に応じてコンテクスト・ウインドウを拡大する。Claude 3の特徴は、入力された大規模なデータの中で、特定の情報を正確に思い出す機能が高いことにある。これは「Needle In A Haystack」と呼ばれ、20万トークンの中の情報を正確に覚えている(下のグラフ、濃い緑色の四角が正確に記憶している個所を示す)。

出典: Anthropic

最も安全な言語モデル

Anthropicは高度な言語モデルを開発するだけでなく、モデルが社会の倫理に沿い、安全な機能を提供する。Anthropicは専任のチームが安全性を検証し、モデルが虚偽情報や児童ポルノや生物兵器情報などを出力することを抑止する。また、Anthropicはモデルが準拠すべき憲法「Constitution」を制定し、アルゴリズムはこれを学習し、社会の倫理に準拠した挙動を示す。この技術は「Constitutional AI」と呼ばれ業界で注目されている。

出典: Anthropic

Claude 3 Opusを使ってみる   

Claude 3は数学の問題を解く機能が向上し、業界でトップの成績をマークした。ベンチマーク「Math」ではGoogleのGemini Ultraが記録を保持していたが、Claude 3 Opusはこの成績を大きく超え、トップの座についた。Claude 3 Opusに数学の問題を入力すると、モデルはステップごとに問題を解説し、最終解を導き出す。(下の写真、数式のイメージを入力すると、モデルはこれは二次方程式であると判定し、その使い方を解説する)

出典: Anthropic 

GPT-4が追い越される   

OpenAIが足踏み状態で、GPT-4の性能を上回るモデルの登場が続いている。GoogleはGemini Ultraを、AnthropicはClaude 3 Opusを投入し、これらがGPT-4の性能を上回った。GPT-4は一年前に投入されたモデルであり、他社がこれに追い付いた形となった。OpenAIは3月8日、取締役会のメンバーが決まり、Sam Altmanが復帰することとなった。これで経営体制が整い、OpenAIは研究開発を再開し、GPT-4の次のモデルを投入すると噂されている。大規模言語モデルの競争は新たなステージを迎える。

OpenAIは衝撃のAIビデオ「Sora」を公開!!テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入

OpenAIは2月15日、テキストでビデオを生成するモデル「Sora」を公開した。プロンプトで指示された内容でビデオを生成する技術であるが、生成された動画は写真撮影されたように鮮明で、AIとカメラの見分けがつかない。最も重要なポイントは、Soraは実社会で起こる物理現象を理解し、人間が指示しなくても物理法則に従ってビデオを描くことだ。Soraは世界のシミュレータ「World Simulators」であり、この技法が人間レベルのインテリジェンス「Artificial General Intelligence(AGI)」の開発に繋がる。

出典: OpenAI

Soraが描き出す世界

Soraはテキストで指示された内容に従って写真撮影したような高品質なビデオを生成する。「雪の日の東京で。。。桜が満開。。。」と指示すると、Soraは東京・浅草の桜並木を彷彿させるビデオを生成する。OpenAIはテキストでイメージを生成するモデル「DALL-E」を運用しているが、Soraはこの技術を拡張し高解像度のビデオを生成する。

 ※上のビデオ、モデルは3D空間の意味を理解し、カメラのアングルを変えながら、対象物を追跡して撮影。URL:https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4

Soraの基本機能

SoraはAIモデルで、テキストから写真撮影したようなリアルなシーンを描き出す。また、テキストから、アニメのような架空の世界を生成することもできる。Soraは生成AIのビデオモデルで、プロンプトに沿った高品質な映像を描き出す。ビデオの長さは1分で、他社モデルの数秒を大きく上回る。

Soraを開発した理由

Soraは物理社会のモデルで教育され、物の動きを理解し、それをシミュレーションする機能を獲得した。Soraを開発した 目的は、AIモデルが実社会における相互関係を学習することで、現実社会の問題を解決することが最終ゴールとなる。このモデルが、人間レベルのインテリジェンス「Artificial General Intelligence」の開発に繋がる。

研究開発プロジェクト

Soraは研究開発プロジェクトで一般には公開されていない。現在、モデルの安全性を検証する試験「Red-Teaming」が実施されている。生成AIがマルチモダルとなり、モデルが内包する危険性が格段に高まり、これらを洗い出す試験が実施されている。また、ビジュアル・アーティストや映画製作者に限定して公開され、Soraをどのように利用すべきかなど、専門家の意見をヒアリングする。

出典: OpenAI

※上のビデオ、プロンプトで女性のジャケットの色やサングラスの形や、背景の東京の通りの情景など詳細に指示することができる。URL:https://cdn.openai.com/sora/videos/tokyo-walk.mp4

モデルは物理現象を理解

Soraは複雑なシーンを描き出すことができる。複数のオブジェクトを対象に、指定された動きを忠実に再現し、対象物とその背景を高精度で描き出す。Soraはプロンプトで指示された内容を描き出すだけでなく、その対象物が物理社会でどう位置付けられるかを理解している。

出典: OpenAI

※上のビデオ、「山道を走行する旧式のSUVをカメラが後ろから追いかけて撮影。。。」というプロンプトに沿ってビデオを生成。モデルは、クルマは道路を走行し、舗装されていない道では小刻みに揺れるなど、物理法則を理解している。URL:https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4

プロンプトの理解

Soraは言語能力が極めて高く、言葉に関する深い理解を示す。プロンプトで指示された内容を正確に描き出すだけでなく、対象物をリアルに描写し、生成されたビデオは説得力があり、躍動感を生み出す。 Soraはアーティストのように印象的な動画を生成する。

出典: OpenAI

※上のビデオ、「ゴールデンリトリーバの子犬が、雪の中に頭を突っ込み、そこから雪を掻きわけて出てくる。。。」というプロンプトに対し、モデルは躍動感があり、印象的なビデオを生成する。URL: https://cdn.openai.com/sora/videos/snow-dogs.mp4

モデルの弱点

Soraは開発途上の生成AIマルチモダル技術で多くの弱点がある。Soraは物理現象のシミュレータであるが、多くの制限事項がある。物理の法則を正しく理解しておらず、グラスが割れる事象や、食べ物を食べる行動などを正しく生成できない。例えば、人間がクッキーをかじると、クッキーは欠けるが、モデルはそれを理解できない。これらがこれからの研究課題となる。

Diffusion Transformers」という技術

Soraは「Diffusion Transformers」という技術をベースに構築された。「Transformers」は大規模言語モデルの基礎技術で、テキストの基本単位「Token」をTransformersで処理し、次のTokenを予測する。Soraはこれを画像に適用し、イメージの基本単位「Patch」をTransformerで処理し、次のPatchを予測する(下の写真)。更に、Soraは「Diffusion」という技法を使っており、これによりクリアなイメージを生成する。イメージ生成技術の標準技法で、オリジナルのイメージにノイズを加え、これを除去する手法を学習し、最終的に高品質なイメージを生成する。

出典: OpenAI

極めて危険なAI

Soraはプロンプトからカメラで撮影したようにハイパーリアルなビデオを生成する。これを使えば、高品質な映画や動画を簡単に生成でき、エンターテインメントや広告ビジネスが激変する。また、Soraを悪用すると、現実と見分けのつかないフェイクビデオが生成され、社会が大混乱となる。現行の生成AIと比較してその危険性は甚大で、これをどう活用するのか、安全対策など更なる研究が必要となる。

出典: OpenAI

※上のビデオ、「イタリアのアマルフィ海岸の教会をドローンで撮影したシーン。。。」というプロンプトを入力することで、簡単に観光プロモーションビデオを生成できる。URL: https://cdn.openai.com/sora/videos/amalfi-coast.mp4

ニューヨーク・タイムズはOpenAIを著作権侵害で訴訟したが情勢は芳しくない?和解の道を選択か?言語モデルの教育に関しルールの制定が求められる

ニューヨーク・タイムズはOpenAIとMicrosoftを著作権侵害で提訴した。これに対し、OpenAIは公式にコメントを発表し、AIモデルは著作権法に違反していないとの解釈を示した。一方、欧州連合のAI規制法は、AI企業に教育で使ったデータを開示することを求めており、これが事実上の国際規格と解釈されている。AI企業とメディア企業の間で教育データに関する新たなルールの制定が求められる。

出典: GPT-4

ニューヨーク・タイムズの訴訟

ニューヨーク・タイムズはOpenAIとMicrosoftを著作権侵害で提訴した。OpenAIはニューヨーク・タイムズの記事で言語モデルを開発し、AIモデルは記事の内容をそのまま出力し、報道事業を脅かすと主張する。ニューヨーク・タイムズは訴状で実例を多数示し、特定なプロンプトを入力すると、GPT-4が記事をそのまま出力し、著作権法に違反すると主張している。具体的には、プロンプトに記事のURLと最初の文章を入力すると(下の写真上段、黒字の部分)、GPT-4は記事をそのまま出力する(下段左側、赤字の部分)。これはオリジナルの記事(下段右側、赤字の部分)と同じ文章となっている。

出典: New York Times

OpenAIの主張

これに対し、OpenAIは訴訟に関し公式な見解を発表し、AIモデルの教育は合法的に実施されたと主張している。これは四つのポイントから成り:

  1. OpenAIはメディア企業と共同で新しい形態のビジネスを生みだしている
  2. モデルの教育はフェアユースでメディア企業にオプトアウトする選択肢を提供している
  3. 記事をそのまま出力するのはバグで修正を続けている
  4. ニューヨーク・タイムズはすべてを語っていない

OpenAIの主張のポイント

技術的な観点から、訴訟ではモデルの「教育」と「実行」が争点となる。

  • モデルの教育:新聞記事など著作物でアルゴリズムを開発することの合法性が議論となる。
  • モデルの実行:モデルが出力した内容が問われる。

OpenAIは、モデルの「教育」は著作権に抵触しておらず、モデルの「実行」はバグであり、問題点を修正していると主張する。

モデルの教育

OpenAIは、著作物で言語モデルを教育するのは「フェアユース(Fair Use)」で、著作権侵害には当たらないと主張する。この解釈は業界で定着しており、著作者と開発者の双方にメリットがある。また、AIモデルを著作物で教育する手法は、アカデミアや業界団体や著作者団体などから支持されている。更に、OpenAIはメディア企業にアクセスを禁止するオプションを提示しており、実際に、ニューヨーク・タイムズはOpenAIのクローラーが記事を収集するのを禁止ている。

出典: OpenAI

モデルの実行

モデルの実行関しては、アルゴリズムは著作物を学習し、学んだ内容を出力するが、これは記事全体ではなくその一部であり、法令で許容された範囲内であると主張する。また、訴状の中でGPT-4が記事全体を出力する事例が提示されているが、OpenAIはこれに対してはAIモデルのバグであり、問題解決を進めているとしている。

EU AI Actの解釈は

欧州連合はAI規制法「AI Act」の最終合意に至り、この法令が今年から順次、施行されることになる。OpenAIがEU域内で事業を展開する際は、AI Actに準拠することが求められる。著作権に関しては、AI Actはモデルの教育で使ったデータを公開することを求めている。また、著作物を教育データとして使う場合は、所有者に許諾を得ることを義務付けている。この二つの条項が著作権に関する事実上の国際標準と解釈されており、ニューヨーク・タイムズの訴訟で重要な指針となる。

ビジネス拡大に寄与

現在、ニューヨーク・タイムズはOpenAIが記事をスクレ―ピングすることを禁止しており、GPT-4は最新記事に関する情報は学習していない。Sam AltmanはGPT-4などの言語モデルが、メディア企業のビジネスに貢献しているとの解釈を示している。モデルが記事の要約を出力し、その出典を示すことで、ニューヨーク・タイムズの記事の閲覧回数が上がるとの考え方である。Google検索エンジンが読者をサイトに誘導するのと同じコンセプトで、AIモデルがニューヨーク・タイムズのページビューを増やすとしている。(下の写真、最新モデルのGPT-4はニューヨーク・タイムズの記事は出力しないで、記事へのリンクを示している。)

出典: OpenAI

両社の合意は近い?

ニューヨーク・タイムズがOpenAIを提訴したのは、著作権に関する交渉を有利に進めるための手段とみられている。ニューヨーク・タイムズは法廷で勝訴することが目的ではなく、著作物のライセンス料を高値で合意することを目指している。OpenAIはメディア企業と提携を進めているが、著作物を教育で使うために100万ドルから500万ドルを支払っているとの情報もある。ニューヨーク・タイムズは記事のライセンス条件についての交渉を進めているが、両社の合意は近いとの見方もある。