Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは2月15日、生成AIの次世代モデル「Gemini 1.5」を公開した。昨年12月に、初代モデル「Gemini 1.0」をリリースしたが、Gemini 1.5はその後継モデルとなる。Gemini 1.5はアーキテクチャが改良され、処理効率が格段に向上した。また、入力できるデータ量が大きく拡張され、最大で100万トークンを処理できる。Googleは会社の威信をかけて、OpenAIのGPT-4に対抗するモデルの開発を加速させている。

出典: Google

Geminiシリーズ

Googleは昨年12月、生成AI次世代モデル「Gemini」を発表している。Geminiはファウンデーションモデルで、高度な言語機能の他に、イメージやビデオやオーディオを理解するマルチモダル機能を備えている。Geminiは三つのサイズから構成される：

Gemini Ultra：最大構成モデルでデータセンターで使われ複雑なタスクを実行する。チャットボット「Gemini Advanced」のエンジンとして使われている。
Gemini Pro：中規模構成モデルで幅広いレンジのタスクを実行する。チャットボット「Gemini」のエンジンとして使われている。
Gemini Nano：最小構成のモデルでスマートフォンで稼働する。ハイエンドスマホ「Pixel 8 Pro」に搭載されている。

今回発表されたのは「Gemini Pro 1.5」

今回の発表は中規模構成モデルの最新版「Gemini Pro 1.5」となる。Gemini Pro 1.5はアーキテクチャが大きく改良され、ハイエンドモデル「Gemini Ultra 1.0」と同等の性能を示す。更に、入力できるデータ量が拡大され、最大100万トークンを処理できる。Gemini Pro 1.5の主な改良ポイントは：

アーキテクチャ：Mixture-of-Experts (MoE)という方式を実装
コンテクスト・ウインドウ：入力できるトークンの数を100万に拡大

アーキテクチャ：Mixture-of-Experts (MoE)

Gemini Pro 1.5の性能が大きく向上した理由は、アーキテクチャとして「Mixture-of-Experts (MoE)」を採用したことにある。Googleは早くからMoEの研究を進めており、この成果をGemini 1.5に適用した。MoEとはモデルを構成するネットワークの方式で、単一構造ではなく、複数の専門家「Expert」を持つ構成とする(下のグラフィックス)。入力された命令に対し、その分野の専門家が解答を生成する仕組みとなる。これにより、プロンプトに対しモデル全体を稼働させるのではなく、その一部のエキスパートが処理を実行するため、高速で効率的にインファレンス処理を実行できる。

出典: Google

コンテクスト・ウインドウ：100万トークン

コンテクスト・ウインドウ(Context Window)が大幅に拡大された。コンテクスト・ウインドウとは、モデルに入力できるデータのサイズを指す。Gemini Pro 1.5では、このサイズが100万トークンに拡張された。具体的には、テキストでは70万単語、ビデオでは1時間分の動画を処理できる。コンテクスト・ウインドウは、ワーキングメモリであり、この領域が大きいと一度に大量のコンテクストを処理できる。例えば、源氏物語の英訳「The Tale of Genji」の全体を読み込ませ、Gemini Pro 1.5はこの小説のに関する知識を習得し、研究者や読者からの多彩な質問に回答することができる。(下のグラフィックス上段：Gemini Pro 1.5のコンテクスト・ウインドウのサイズ、実際には1000万トークンまで処理できる、下段：GPT-4のコンテクスト・ウインドウは12万8000トークン)。

出典: Google

利用方法

GoogleはGemini Pro 1.5をAIスタジオ「AI Studio」とAIクラウド「Vertex AI」で公開する。AIスタジオは生成AIモデルのプレイグランドで、異なるモデルを使ってその機能や性能を検証することができる。現在は「Gemini Pro 1.0」が公開されており(下のグラフィックス)、「Gemini Pro 1.5」は待ちリストに登録し、認可を得たユーザから利用できる状態となっている。

出典: Google

Geminiの開発手法

GoogleはGeminiの開発を並列で進めており、「Gemini 1.0」はリリース済みで、先週「Pro 1.5」が公開された。これから「Ultra 1.5」が投入され、されに、並列して「Gemini 2.0」が開発されており、その公開も近いとされる。Googleはこの市場のトップを奪還するため、Geminiの開発を加速している。

OpenAIは衝撃のAIビデオ「Sora」を公開！！テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入

OpenAIは2月15日、テキストでビデオを生成するモデル「Sora」を公開した。プロンプトで指示された内容でビデオを生成する技術であるが、生成された動画は写真撮影されたように鮮明で、AIとカメラの見分けがつかない。最も重要なポイントは、Soraは実社会で起こる物理現象を理解し、人間が指示しなくても物理法則に従ってビデオを描くことだ。Soraは世界のシミュレータ「World Simulators」であり、この技法が人間レベルのインテリジェンス「Artificial General Intelligence(AGI)」の開発に繋がる。

出典: OpenAI

Soraが描き出す世界

Soraはテキストで指示された内容に従って写真撮影したような高品質なビデオを生成する。「雪の日の東京で。。。桜が満開。。。」と指示すると、Soraは東京・浅草の桜並木を彷彿させるビデオを生成する。OpenAIはテキストでイメージを生成するモデル「DALL-E」を運用しているが、Soraはこの技術を拡張し高解像度のビデオを生成する。

※上のビデオ、モデルは３D空間の意味を理解し、カメラのアングルを変えながら、対象物を追跡して撮影。URL：https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4

Soraの基本機能

SoraはAIモデルで、テキストから写真撮影したようなリアルなシーンを描き出す。また、テキストから、アニメのような架空の世界を生成することもできる。Soraは生成AIのビデオモデルで、プロンプトに沿った高品質な映像を描き出す。ビデオの長さは１分で、他社モデルの数秒を大きく上回る。

Soraを開発した理由

Soraは物理社会のモデルで教育され、物の動きを理解し、それをシミュレーションする機能を獲得した。Soraを開発した目的は、AIモデルが実社会における相互関係を学習することで、現実社会の問題を解決することが最終ゴールとなる。このモデルが、人間レベルのインテリジェンス「Artificial General Intelligence」の開発に繋がる。

研究開発プロジェクト

Soraは研究開発プロジェクトで一般には公開されていない。現在、モデルの安全性を検証する試験「Red-Teaming」が実施されている。生成AIがマルチモダルとなり、モデルが内包する危険性が格段に高まり、これらを洗い出す試験が実施されている。また、ビジュアル・アーティストや映画製作者に限定して公開され、Soraをどのように利用すべきかなど、専門家の意見をヒアリングする。

出典: OpenAI

※上のビデオ、プロンプトで女性のジャケットの色やサングラスの形や、背景の東京の通りの情景など詳細に指示することができる。URL：https://cdn.openai.com/sora/videos/tokyo-walk.mp4

モデルは物理現象を理解

Soraは複雑なシーンを描き出すことができる。複数のオブジェクトを対象に、指定された動きを忠実に再現し、対象物とその背景を高精度で描き出す。Soraはプロンプトで指示された内容を描き出すだけでなく、その対象物が物理社会でどう位置付けられるかを理解している。

出典: OpenAI

※上のビデオ、「山道を走行する旧式のSUVをカメラが後ろから追いかけて撮影。。。」というプロンプトに沿ってビデオを生成。モデルは、クルマは道路を走行し、舗装されていない道では小刻みに揺れるなど、物理法則を理解している。URL：https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4

プロンプトの理解

Soraは言語能力が極めて高く、言葉に関する深い理解を示す。プロンプトで指示された内容を正確に描き出すだけでなく、対象物をリアルに描写し、生成されたビデオは説得力があり、躍動感を生み出す。 Soraはアーティストのように印象的な動画を生成する。

出典: OpenAI

※上のビデオ、「ゴールデンリトリーバの子犬が、雪の中に頭を突っ込み、そこから雪を掻きわけて出てくる。。。」というプロンプトに対し、モデルは躍動感があり、印象的なビデオを生成する。URL: https://cdn.openai.com/sora/videos/snow-dogs.mp4

モデルの弱点

Soraは開発途上の生成AIマルチモダル技術で多くの弱点がある。Soraは物理現象のシミュレータであるが、多くの制限事項がある。物理の法則を正しく理解しておらず、グラスが割れる事象や、食べ物を食べる行動などを正しく生成できない。例えば、人間がクッキーをかじると、クッキーは欠けるが、モデルはそれを理解できない。これらがこれからの研究課題となる。

「Diffusion Transformers」という技術

Soraは「Diffusion Transformers」という技術をベースに構築された。「Transformers」は大規模言語モデルの基礎技術で、テキストの基本単位「Token」をTransformersで処理し、次のTokenを予測する。Soraはこれを画像に適用し、イメージの基本単位「Patch」をTransformerで処理し、次のPatchを予測する(下の写真)。更に、Soraは「Diffusion」という技法を使っており、これによりクリアなイメージを生成する。イメージ生成技術の標準技法で、オリジナルのイメージにノイズを加え、これを除去する手法を学習し、最終的に高品質なイメージを生成する。

出典: OpenAI

極めて危険なAI

Soraはプロンプトからカメラで撮影したようにハイパーリアルなビデオを生成する。これを使えば、高品質な映画や動画を簡単に生成でき、エンターテインメントや広告ビジネスが激変する。また、Soraを悪用すると、現実と見分けのつかないフェイクビデオが生成され、社会が大混乱となる。現行の生成AIと比較してその危険性は甚大で、これをどう活用するのか、安全対策など更なる研究が必要となる。

出典: OpenAI

※上のビデオ、「イタリアのアマルフィ海岸の教会をドローンで撮影したシーン。。。」というプロンプトを入力することで、簡単に観光プロモーションビデオを生成できる。URL: https://cdn.openai.com/sora/videos/amalfi-coast.mp4

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

Googleは2月8日、生成AIのハイエンドモデル「Gemini Ultra」をリリースした。OpenAIのGPT-4を上回る性能で、この市場で首位を奪還した。Googleは昨年12月、Geminiを発表しベンチマーク結果を公表したが、Gemini Ultraはリリースされず、実際にモデルを使うことはできなかった。GoogleはUltraの公開に合わせ、製品体系を一新し名称を「Gemini」に統一した。「Bard」は「Gemini」に改称され、GeminiはGoogleのAI製品を表すブランドとなった。

出典: Google

Geminiの製品体系

BardはGemini Ultraの投入により製品体系が二系統となった：

「Gemini」：従来のBardで名称を変更。「Gemini Pro」に構築される。無償版。
「Gemini Advanced」：新モデルで「Gemini Ultra」に構築される。有償版(月額19.99ドル)。

また、スマホ向けのアプリ「Gemini」がリリースされ、AndroidとiOSでGeminiの機能を使うことができるようになった。

Gemini Advancedとは

Gemini AdvancedはハイエンドモデルGemini Ultra 1.0に構築されるチャットボットとなる。このモデルがOpenAIのGPT-4に対抗する製品で、生成AI市場の二強を担う。インターフェイスは黒色をベースとし、高級感を醸しだしている(下の写真)。Bardの構成を踏襲しており、プロンプトを入力すると、モデルが回答を出力する。

出典: VentureClef

Gemini Advancedを使ってみる: 推論機能に強み

Gemini Advancedは、プロンプトの指示に従って情報を出力するが、人間のプロフェッショナルのように、対話しながら問題を解決する機能が優れている。難しいタスクをステップごとに分割し、それぞれを解決しながら、最終ゴールに到達する。例えば、映画の鑑賞会を立案する方法を尋ねると、Gemini Advancedは、イベントの基本情報や場所の好みなどを質問し、利用者と対話しながら、ステップごとに内容を議論し、最終的プランを提案する(下の写真)。イベントコーディネータと対話しながら、結婚式のプランを立案する方式に似ている。

出典: VentureClef

Gemini Advancedを使ってみる: マルチモダル機能

Gemini Advancedはマルチモダル機能が強化され、指示した内容に従ってイメージを生成する。例えば、「GoogleのAGI発表イベントのイメージを生成」と指示すると、それを描き出す(下の写真)。イメージの品質は他社製品と比べて優れているとは言えないが、そのアーキテクチャに特徴がある。他社は「Diffusion」という手法を使うが、Googleは言語モデル「Transformers」でテキストだけでなくイメージなどのマルチモダルをこなす。単一のアーキテクチャで異なるモードのメディアを処理できるため、効率的なネットワークを構成できる。

出典: VentureClef

Gemini Advancedを使ってみる: 全体の印象

Gemini Advancedを使い始めたが、Geminiの特徴を継承し、この機能が一段と強化されたとの印象を受ける。Geminiは、難しいコンセプトを分解して、モジュールごとに分かりやすく説明するアプローチを取る。学校の先生が生徒に、複雑な内容をステップごとに分け、それぞれを分かりやすく説明する方式に似ている。例えば、アメリカンフットボールで「サンフランシスコフォーティナイナーズの攻撃の戦略と手法」を尋ねると、Gemini Advancedは、ヘッドコーチの攻撃に関する思想や、主要選手の役割など、多角的に体系立てて説明する(下の写真)。Gemini Advancedを使うと、難しい事柄を理解する時間が大幅に短縮されると感じる。

出典: VentureClef

価格体系

GeminiはBardの後継モデルとして無償で提供されるが、Gemini Advancedは有償モデルとなる。Gemini Advancedは、ストレージサービス「Google One」の中の「AI Premium」に含まれ、サブスクリプションは月額19.99ドルとなる(下の写真、右端)。AI Premiumには、Gemini Advancedの他にGmailなどのアシスタント機能が含まれる。この機能は「Duet AI」と呼ばれていたが、今回の発表で「Gemini」のブランドに統一された。

出典: Google

Gemini UltraとGPT-4の二強時代

Gemini AdvancedはGoogleのフラッグシップモデルで、OpenAIのGPT-4と互角の性能を提供する。GPT-4がリリースされ約一年が経過するが、GoogleがUltraを公開し、トップに追い付いた形となる。GPT-4は生成AI市場で独走してきたが、手ごわい競合相手が登場し、AI市場は二強時代に突入した

ホワイトハウスはAI大統領令の実施状況を公表、予定通り進行していることをアピール、しかし政権が変わるとAI政策が白紙になる危険性が指摘される

バイデン政権は昨年10月、AIの安全性に関する大統領令に署名し、米国企業に責任あるAI開発を求めた。今週、ホワイトハウスは大統領令の実施状況を公表し、規定された項目が予定通り進んでいることをアピールした。しかし、今年の大統領選挙で政権が変わると、大統領令は停止される可能性があり、米国のAI政策が岐路に直面している。

出典: Adobe Stock

大統領令の概要

バイデン大統領は昨年10月、責任あるAI開発と技術革新を推進するため、大統領令「President’s Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence (14110)」に署名した。大統領令は、AIが悪用されないため、セーフガードを設け、生物兵器の開発やサイバー攻撃を防ぐことを目的とする。また、AI開発企業には、大規模モデルの安全性に関する試験を実施し、その結果を報告することを求めた。米国政府はAI規制に消極的であったが、大統領令で政策を一転し、AIの危険性を制御しつつイノベーションを推進する方針を打ち出した。

90日目のチェックポイント

ホワイトハウスは大統領令を発行して90日目となる今週、その進捗状況を公表した。大統領令はAI規制に関し、実施項目(Action)と責任組織(Agency)と完了日(Required Timeline)が定められている。各省庁はこのアクションプランに沿って、規定された項目を期日までに実行することが求められる。発表によると、90日以内に実施する項目については、全て予定通り完了した(下のテーブル、一部)。

出典: White House

アクションプランの主な成果

大統領令は広範なアクションを定めているが、AI開発企業に大規模言語モデル(ファウンデーションモデル)の安全性を試験し、その結果を報告することを義務付けている。この項目は、商務省の管轄で、90日以内にタスクを完了することを求めている。具体的には：

モデルの安全性に関する試験 ：法令「Defense Production Act」に従ってAI開発企業にファウンデーションモデルの安全性を試験することを要請。(注：対象はGPT-4を超えるモデルで、次世代の生成AI開発でこの規定が適用される。)
モデルの開発状況の監視：クラウド事業者に外国企業がファウンデーションモデルを開発していることを監視し、それを報告することを求めた。この規定に関するドラフトが完成。(注：外国企業が米国のクラウドでファウンデーションモデルを開発することを規制する。)

大統領令の限界

大統領令は米国の大統領が発行する命令(Directive)で連邦省庁の運営を管理する効力を持つ。法令とは異なり、連邦政府内に閉じて効力を持つ。また、大統領令は既存の法令の範囲で制定され、これに抵触する際は裁判所によりその効果が停止されることもある。大統領令は強制力や罰則規定は無く、連邦省庁の自主的な運用に委ねられる。

連邦議会の役割

このため、AI規制を安定して実施するためには、連邦議会による法制化が必須となる。責任あるAI開発を企業に求めるためには、議会が法律として制定し、開発や運用の手法を義務付ける必要がある。これにより、政権が変わってもAI政策が引き継がれることになる。米国連邦議会は、AI規制法に関し可決した法令は無いが、法令制定に向けた機運が高まってきた。

AI規制法の動き

民主党のChuck SchumerはAI規制法の準備をけん引しており、公聴会「AI Insight Forum」(下の写真)を9回開催し、法案の準備を進めている。また、民主党のChris Coonsなどは、ディープフェイクを禁止する法案「NO FAKES Act」を提案している。特に、人気歌手テイラー・スウィフトの不適切イメージがAIで生成され、ソーシャルメディアで拡散し、国民的な問題となった。ディープフェイクを禁止する法令が喫緊の課題となり、その動きが注目されている。

出典: AI Insight Forum

AI政策を継続するためには

AI規制に関しては、中国を念頭に国家安全保障にかかる問題で、ここは民主党と共和党が歩み寄れる領域とも言われる。大統領選挙が11月に実施されるが、仮に政権が変わったとしても、積み上げてきたAI政策を継続するためには、連邦議会による法制化が必須の要件となる。

ニューヨーク・タイムズはOpenAIを著作権侵害で訴訟したが情勢は芳しくない？和解の道を選択か？言語モデルの教育に関しルールの制定が求められる

ニューヨーク・タイムズはOpenAIとMicrosoftを著作権侵害で提訴した。これに対し、OpenAIは公式にコメントを発表し、AIモデルは著作権法に違反していないとの解釈を示した。一方、欧州連合のAI規制法は、AI企業に教育で使ったデータを開示することを求めており、これが事実上の国際規格と解釈されている。AI企業とメディア企業の間で教育データに関する新たなルールの制定が求められる。

出典: GPT-4

ニューヨーク・タイムズの訴訟

ニューヨーク・タイムズはOpenAIとMicrosoftを著作権侵害で提訴した。OpenAIはニューヨーク・タイムズの記事で言語モデルを開発し、AIモデルは記事の内容をそのまま出力し、報道事業を脅かすと主張する。ニューヨーク・タイムズは訴状で実例を多数示し、特定なプロンプトを入力すると、GPT-4が記事をそのまま出力し、著作権法に違反すると主張している。具体的には、プロンプトに記事のURLと最初の文章を入力すると(下の写真上段、黒字の部分)、GPT-4は記事をそのまま出力する(下段左側、赤字の部分)。これはオリジナルの記事(下段右側、赤字の部分)と同じ文章となっている。

出典: New York Times

OpenAIの主張

これに対し、OpenAIは訴訟に関し公式な見解を発表し、AIモデルの教育は合法的に実施されたと主張している。これは四つのポイントから成り：

OpenAIはメディア企業と共同で新しい形態のビジネスを生みだしている
モデルの教育はフェアユースでメディア企業にオプトアウトする選択肢を提供している
記事をそのまま出力するのはバグで修正を続けている
ニューヨーク・タイムズはすべてを語っていない

OpenAIの主張のポイント

技術的な観点から、訴訟ではモデルの「教育」と「実行」が争点となる。

モデルの教育：新聞記事など著作物でアルゴリズムを開発することの合法性が議論となる。
モデルの実行：モデルが出力した内容が問われる。

OpenAIは、モデルの「教育」は著作権に抵触しておらず、モデルの「実行」はバグであり、問題点を修正していると主張する。

モデルの教育

OpenAIは、著作物で言語モデルを教育するのは「フェアユース(Fair Use)」で、著作権侵害には当たらないと主張する。この解釈は業界で定着しており、著作者と開発者の双方にメリットがある。また、AIモデルを著作物で教育する手法は、アカデミアや業界団体や著作者団体などから支持されている。更に、OpenAIはメディア企業にアクセスを禁止するオプションを提示しており、実際に、ニューヨーク・タイムズはOpenAIのクローラーが記事を収集するのを禁止ている。

出典: OpenAI

モデルの実行

モデルの実行関しては、アルゴリズムは著作物を学習し、学んだ内容を出力するが、これは記事全体ではなくその一部であり、法令で許容された範囲内であると主張する。また、訴状の中でGPT-4が記事全体を出力する事例が提示されているが、OpenAIはこれに対してはAIモデルのバグであり、問題解決を進めているとしている。

EU AI Actの解釈は

欧州連合はAI規制法「AI Act」の最終合意に至り、この法令が今年から順次、施行されることになる。OpenAIがEU域内で事業を展開する際は、AI Actに準拠することが求められる。著作権に関しては、AI Actはモデルの教育で使ったデータを公開することを求めている。また、著作物を教育データとして使う場合は、所有者に許諾を得ることを義務付けている。この二つの条項が著作権に関する事実上の国際標準と解釈されており、ニューヨーク・タイムズの訴訟で重要な指針となる。

ビジネス拡大に寄与

現在、ニューヨーク・タイムズはOpenAIが記事をスクレ―ピングすることを禁止しており、GPT-4は最新記事に関する情報は学習していない。Sam AltmanはGPT-4などの言語モデルが、メディア企業のビジネスに貢献しているとの解釈を示している。モデルが記事の要約を出力し、その出典を示すことで、ニューヨーク・タイムズの記事の閲覧回数が上がるとの考え方である。Google検索エンジンが読者をサイトに誘導するのと同じコンセプトで、AIモデルがニューヨーク・タイムズのページビューを増やすとしている。(下の写真、最新モデルのGPT-4はニューヨーク・タイムズの記事は出力しないで、記事へのリンクを示している。)

出典: OpenAI

両社の合意は近い？

ニューヨーク・タイムズがOpenAIを提訴したのは、著作権に関する交渉を有利に進めるための手段とみられている。ニューヨーク・タイムズは法廷で勝訴することが目的ではなく、著作物のライセンス料を高値で合意することを目指している。OpenAIはメディア企業と提携を進めているが、著作物を教育で使うために100万ドルから500万ドルを支払っているとの情報もある。ニューヨーク・タイムズは記事のライセンス条件についての交渉を進めているが、両社の合意は近いとの見方もある。

Emerging Technology Review

シリコンバレーからの最新技術レポート

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

OpenAIは衝撃のAIビデオ「Sora」を公開！！テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

ホワイトハウスはAI大統領令の実施状況を公表、予定通り進行していることをアピール、しかし政権が変わるとAI政策が白紙になる危険性が指摘される

ニューヨーク・タイムズはOpenAIを著作権侵害で訴訟したが情勢は芳しくない？和解の道を選択か？言語モデルの教育に関しルールの制定が求められる