カテゴリー別アーカイブ: Google

世界経済フォーラムでAIに議論が集中、AGI(人間を超えるAI)がリリースされると極めて不安定な社会となる、GoogleとAnthropicが恩恵と危険が混在する未来像を提示

今年の世界経済フォーラム「ダボス会議」は議論のテーマがAIに集中し、パネルディスカッションや基調講演で業界の著名人が独自の見解を示した。イベントはストリーミング配信され多くのセッションを聴くことができた。特に、人間の知能を超えるAGIが注目を集め、登場時期の予測や、AGIがリリースされた後の社会像について意見が交わされた。AGIは今年中にリリースされるとの予測が示され、社会はこれを受け入れる体制の整備が間に合わず、大きな混乱が予想されるとの見解が示された。世界は今までに経験したことのない技術進化の嵐のなかを賭け走ることになる。

出典: World Economic Forum

AGIのパネルディスカッション

AIに関する議論のハイライトは、GoogleとAnthropicのAGIに関するパネルディスカッションであった。「The Day After AGI」との題目で、Demis Hassabis(Google DeepMindのCEO)とDario Amodei(AnthropicのCEO)が、AGIがリリースされた後の社会像について意見を交わした(下の写真)。HassabisはAGIは2030年ころに完成すると予想するが、Amodeiは2026年から2027年にリリースされると考える。更に、AGIは大きな将来性を持つが、同時に重大な課題を内包しており、社会に大きな混乱をもたらす。制度や法令を整備することでAGIがもたらす動乱期を乗り越えることが次のミッションになるとの見解が示された。

出典: World Economic Forum

HassabisのAGIに関する解釈

AGIについて共通の理解が確立されていない中、Hassabis(下の写真)はAGIである要件はAIサイエンティストと定義し、これを満たすモデルが登場するのは2030年ころと予測する。Hassabisは、アインシュタインが相対性理論を生み出したように、AIサイエンティストが新たな理論を構築する機能をAGIの要件とする。更に、AGIは世界感を持ち、実社会においてはヒューマノイド・ロボットとして実現され、人間のスキルを凌駕する。AGIに到達するには、トランスフォーマに基づく現行のAIフロンティアモデルを拡大するだけでは不十分で、大きなブレークスルーが必要であるとの見解を示した。

出典: World Economic Forum

AmodeiのAGIに関する理解

Amodei(下の写真)はAGIという用語はSF映画を連想させるとして、これを「Powerful AI(パワフルなAI」と表現する。(このレポートでは用語を統一するためAGIと表記する。) AGIは、多様な分野(バイオや物理など)でノーベル賞受賞者に匹敵するブレインを搭載したモデル、と定義する。AGIは分野のエキスパートが超並列でタスクを実行するシステムとなる。AmodeiはAGIが登場する時期を2026年から2027年ころと予測する。AGIは早ければ今年にリリースされることになり、その理由を「Loop(ループ)」と説明する。ループとは「輪」であり、ここでは繰り返しの処理を意味する。AnthropicはAI開発にAIコーディング・エージェントを使っており、AIがAIをプログラムする構成となる。つまり、AIがAIを開発するループが形成され、開発速度が指数関数的に高速化される。Amodeiはあと6ヶ月から12か月で、AIコーディング・エージェントが人間レベルに到達し、プログラミングの100％をAIが実行すると予測する。AI開発のペースが爆発的に速まり、AmodeiはAGIは予想外に早く開発されると考える。

出典: World Economic Forum

社会へのインパクト

HassabisはAGIの登場により社会が豊かになるとのポジティブな面を強調した。これを「Post-Scarcity(脱希少性経済)」と呼び、AIやロボットの労働力によって多くの財が潤沢に生産される社会が到来するとのビジョンを示した。AGIによりエネルギーや生活に必要な資源が潤沢になる社会が到来すると考える。一方で、Hassabisは、AGI開発を国家が単独で進めるのではなく、この恩恵を幅広く普及させるために国際協調が不可欠であると主張する。原子力に関して「CERN(欧州原子核研究機構)」が運営されているように、AGIに関する共同研究機関「AGI版CERN」を設立し、研究開発と社会移行について国家間でコラボレーションすることを提唱した。

社会が激動期に突入

AmodeiはAGIがもたらす雇用喪失が社会における最大の問題であると考える。エントリーレベルのホワイトカラーの職は、今後1年から5年以内に消滅すると予測する。初級レベルのプログラマがこれに相当し、大学卒業者の就職問題が目の前の課題となる。インターネットで事業形態が一変したように、技術は常に社会に波風をもたらす。AGIはそのインパクトが格段に大きく、その速度が速く、今までに経験したことのない激動期に入る。Amodeiはこれを「技術思春期(Technological Adolescence)」と表現し、AGIは人間と同じように子供から大人へ成長するプロセスに入り、非常に不安定な時期を迎える。AGIの巨大な恩恵を享受するために、激動期を生き延びる仕組みを考案することが人類の次のミッションとなると提案した。(下の写真、スイス・ダボスの街並み)

出典: World Economic Forum

シリコンバレーのコンセンサス

AIがAIを開発する「ループ」が形成され技術開発が爆発的な速度で進むことになる。シリコンバレーの識者はこれを「シンギュラリティ(Singularity)」と呼び、米国社会はここに足を踏み入れたとの見解を示している。ハイテク企業は大規模なレイオフを実行し、雇用喪失が現実の問題となっている。実際に、AmazonはAIとロボットの導入により16,000人をレイオフすると発表した。今年はAGIが投入され社会は大失業時代を迎えることになる。

今年のキーワードは「AIサイエンティスト」、研究室に配属されエージェントとして医薬品を開発、トランプ政権のジェネシス・ミッションが大きな追い風

2026年はAIサイエンティストが研究所で人間に代わりバイオ医薬品などを開発する年となる。AIサイエンティストとは科学技術に特化したAIエージェントで、研究者に代わり新薬の開発などを実行する。AIサイエンティストは科学に関する膨大なデータを解析し、仮説を立案し、それを検証することで、地上に存在しない新たなたんぱく質や抗体などを生成する。トランプ政権はジェネシス・ミッションで、AIサイエンティストを戦略技術と位置付けており、連邦政府がこのプロジェクトを支援する。

出典: Generated with Google Nano Banana Pro

AIサイエンティストとチャットボット

AIサイエンティストは最重要研究テーマで議論が白熱しハイプの状態が続いてきた。今年はこれがいよいよ技術として実装される年となる。AIサイエンティストはチャットボットとは機能も構造も大きく異なる。チャットボットは科学者の質問に回答し、アシスタントとして研究を支援する。これに対しAIサイエンティストは、与えられた研究テーマを人間の介在無く自律的に実行する。医薬品の開発では特定の機能を持つたんぱく質を創成するなど、人間の研究者レベルのタスクを実行する。

AIサイエンティストの機能

このように、AIサイエンティストは研究者として位置付けられる。人間がハイレベルな研究テーマを指示し関連するデータセットを提示すると、AIサイエンティストは独自で研究プロセスを展開する。具体的には、公開されている論文を読み研究の最先端情報を理解する。次に、提示されたデータセットを解析し、これらを統合して仮説を構築する。更に、構築した仮説を証明するために試験を実行する。

出典: Generated with Google Nano Banana Pro

AIサイエンティストの性能

最先端のAIサイエンティストは人間の研究者が半年かかる作業を半日程度で実行する。研究を実行するためには膨大な数の論文を読む必要があるが、AIサイエンティストは1,000を超える論文を読みこれを理解し研究の最先端情報を把握する。これらをベースに仮説を立案し、これを検証するプロセスを実行する。実際には、仮説を検証するためのプログラムを生成し、これを実行することで推論が正しいことを裏付ける。AIサイエンティストは膨大な情報を解析するだけでなく、これを前提し新たな仮説を生み出し、これが正しいことを証明する機能を持つ。

AIサイエンティストの恩恵

AIサイエンティストは医療において大きな進化をもたらすと期待されている。ニューロサイエンスの分野では、脳の加齢のメカニズムを解明し、アルツハイマー型認知症の治療薬の開発で大きな成果が期待される。また、エネルギーの分野では、ペロブスカイト太陽電池(perovskite solar cells)を効率化する技法の開発で使われる。

フロンティアモデルとの関係

AI開発企業からOpenAI GPT-5.2やGoogle Gemini 3などフロンティアモデルがリリースされているが、これらが単体でAIサイエンティストを構築することはできない。AIサイエンティストの開発では「Structured World Model(構造的世界モデル)」というアーキテクチャがキーとなる。AIサイエンティストは複数のAIエージェントから構成され、Structured World Modelがこれらを管理運用するフレームワークとなる。このフレームワークの元で、論文を解析するAIエージェントや提示されたデータを解析するAIエージェントなどが稼働しており、エージェント間で情報を共有する制御や、長時間にわたりコヒーレントな処理を保証する仕組みなどが必須の機能となる。

AIサイエンティスト市場

ビッグテックやスタートアップがAIサイエンティストの開発を進めている。その代表がGoogleで、AIサイエンティスト「AI Co-scientist」を開発している。AI Co-scientistは、膨大な量のデータセットをベースに、物理学、バッテリー素材、核融合発電などの分野をターゲットに、自律的に研究を実行する。GoogleはAI Co-scientistを米国エネルギー省の国立研究所に納入し、科学技術研究に寄与することを計画している。トランプ政権のジェネシス・ミッションに沿って、国立研究所と共同でサイエンスの研究開発を加速する。

出典: Google

研究所の自動化技術

AIサイエンティストはロボティックスと融合し、研究所のオペレーションを自動化する。これは「Self-Driving Labs (SDLabs)」と呼ばれ、AIサイエンティストが構築した仮説を、研究所においてロボットが実験を司り、人間に代わりこれを証明する。AIサイエンティストが研究所のロボットに、薬剤の混合や試験結果の検証などを指示し、AIとロボットのループで研究が進む。ジェネシス・ミッションではこの技法を「Robotics Labs」と呼び、この開発を重要アクション項目と定めている。

出典: World Economic Forum

サイエンスのブレークスルー

AIモデルはブラックボックスでアルゴリズムの判定理由が不透明で、これがハルシネーションの原因となる。AIサイエンティストは研究成果の精度が厳しく問われ、生成した仮説を裏付けるデータが必須となる。AIサイエンティストは研究成果をRobotics Labsで検証し、根拠となる実験結果を示すことで、高精度な研究成果を生み出す。今年はAIサイエンティストで米国の科学技術研究が急進し、大きなブレークスルーが起こると期待される。

Google「Gemini 3」はベンチマークテストで他社を圧倒！！AI市場で独走態勢に突入、マルチモダル推論機能が格段に向上しAGIに向けて大きく前進

Googleは11月18日、最新モデル「Gemini 3」を発表し、同日に製品をリリースした。Gemini 3はベンチマークテストでトップの性能を示し他社を圧倒した。AI開発競争でGoogleがOpenAIやAnthropicを大きく引き離し独走態勢に突入した。Gemini 3はマルチモダルと推論機能が格段に強化され、高度なAIエージェントを構築するベースとなる。DeepMindのCEOであるDemis Hassabisは「AGI開発に向けた大きな一歩となる」と述べた。実際に使ってみると、Gemini 3は高度なインテリジェンスを発揮し、AGIエージェント時代に突入したとの印象を受けた。

出典: Generated with Google Gemini 3 Pro

製品構成

Googleは二つのモデル、「Gemini 3 Pro」と「Gemini 3 Deep Think」、をリリースした。前者はベースモデルで日々の業務やAIエージェントの基盤技術となる。後者は推論機能を強化したモデルで、長時間にわたる考察を通し極めて複雑なタスクを実行する。Googleは検索エンジンの「AI Mode」にGemini 3 Proを導入しサーチ機能が大きく向上した。

Gemini 3 Proの性能

Gemini 3 Proは業界の標準ベンチマークテスト「LMArena Leaderboard」で二位を大きく引き離しトップの性能をマークした(下のグラフ)。xAI Grok-4.1がトップであったがGemini 3 Proが1501をマークし大きく躍進した。LMArena Leaderboardは利用者のフィードバックで性能を決めるベンチで世論調査による性能評価となる。これは利用者の実感を反映したもので、Gemini 3は大きなメリットを感じるモデルとなる。

出典: LMArena Leaderboard / Generated with Google Gemini 3 Pro

Gemini 3 Deep Thinkの性能

Gemini 3 Deep Thinkはベースモデルを拡張したもので、推論機能とマルチモダルを理解する能力が大きく向上した。Gemini 3 Deep Thinkは極めて複雑な問題を解決するために使われる。Gemini 3 Deep Thinkは最も難解なベンチマーク「Humanity’s Last Exam」でGPT-5 Proを引き離してトップの成績をマークした(下のグラフ、左側)。また、AIモデルの知能指数を測定するベンチマーク「ARC-AGI-2」では、Gemini 3 Deep ThinkはGPT-5.1の2.5倍の性能をマークし、インテリジェンスの高さを示した(下の写真、右側)。また、前世代モデルGemini 2.5から性能が10倍近く向上し、Gemini 3 Deep Thinkは推論機能が格段に向上したことが分かる。

出典: Google

コア機能＃１：理解能力

Gemini 3はマルチモダルの推論機能がエンハンスされ、マルチメディアのコンテンツを理解する能力が格段に進化した。イメージやビデオを読み込みその内容を理解する。ピックルボール(Pickleball)の試合のビデオを入力し(下の写真、左側)、Gemini 3に「右手前のプレーヤの動きを解析し、スキルを向上するためのアドバイス」を求めると、モデルは「パドル(ラケット)の位置が下がる傾向にあり、常にお腹の高さに構えておくこと」と助言した(右側)。Geminiがスポーツ競技のコーチとなり、プレーヤに的確なアドバイスを行う。

出典: Google

コア機能＃２：開発能力

Gemini 3の最大の特徴はプログラム・コーディングなど開発能力が格段に向上したことにある。これは「バイブコーディング(Vibe Coding)」とも呼ばれ、シンプルなプロンプトでGemini 3がホームページを開発し、ビデオゲームを生成する。Gemini 3に「レトロなイメージの３D宇宙船ゲームを開発しブラウザーに展開」と指示すると、それを開発しそれをHTMLファイルに格納する。ゲームはJavaScriptベースのWebGLで可視化され、これをブラウザーに展開してゲームをプレーする(下の写真)。ゲームボーイ(Game Boy)などに搭載されているゲームはバイブコーディングで生成できる。

出典: Google

コア機能＃３：計画能力

計画能力とは複雑なタスクを完遂するために長期レンジのプランを策定しこれを実行する機能となる。AIエージェントのコア技術でGemini 3は計画機能が大きく向上した。計画能力を査定するベンチマークの代表が「Vending-Bench 2」で、AIエージェントが人間に代わり自動販売機の管理を司り、指定された期間の収入を比較するものとなる(下の写真)。

出典: Andon Labs

Vending-Bench 2で、主要モデルをAIエージェントとして360日間稼働させると、Gemini 3 Proがトップの性能をマークした(下のグラフ)。収入額は5,462ドルで二位のClaude Sonnet 4.5の3,840ドルを大きく上回った。Gemini 3はAIエージェントのコア技術としてデザインされているがその実力を発揮した。

出典: Google

実際に使ってみると：Google AI Studio

Gemini 3 Proはアプリとクラウド「Google AI Studio」(下の写真)で使うことができる。実際に使ってみると、Gemini 3 Proはコーディング能力が大きく進化したと感じる。バイブコーディングを体験でき、本当に言葉だけでプログラムを開発できる。Gemini 3 Proに「会社が主催するダンスパーティーのイベントに関するホームページを生成」するよう指示すると(下の写真、中央部)、ウェブサイトのランディングページを生成した。

出典: Google Gemini 3 Pro

実際に使ってみると：ホームページ

ホームページはHTMLで記述されそれをブラウザーで閲覧するとデザインを見ることができる(下の写真)。ここでは「未来志向のデザイン」とプロンプトで指示しており、その命令が反映されたページが生成された。このページでイベントの概要を読み、RSVPボタンをクリックして、チケットを購入する。プログラミングの知識がなくてもプロンプトで本格的なウェブサイトやコードを生成することができ、ソフトウェア開発は新たな時代を向けたことを実感する。

出典: Google Gemini 3 Pro

AGIに向けた大きな一歩

三年前にChatGPTがリリースされ、生成AIブームが起こり、OpenAIがAI市場をリードしてきた。その後、Googleは「Google Brain」と「DeepMind」を統合し、AI研究所「Google DeepMind」を創設し、基礎研究と製品開発を一本化した。GPTシリーズの対抗モデルとしてGeminiシリーズを投入し、OpenAIを追いかけてきた。ついに、Gemini 3で順位が逆転し、GoogleがAI市場のトップに立った。GoogleはGeminiをAIエージェントのプラットフォームと位置付け、Gemini 3はAGI開発に向けた大きな一歩をしるした。

【捕捉情報：Gemini 3 Proのベンチマークテスト結果】

推論機能・一般知識

Gemini 3は推論機能が大幅に強化され、全てのベンチマークテストで競合他社のモデルの性能を上回った。最難関のベンチマークテスト「Humanity’s Last Exam」でGemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

数学・ロジック

AGIの達成度を査定するベンチマークテスト「ARC-AGI-2」で、Gemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

ビジョン・マルチモダル

Gemini 3はマルチモダル機能が強化され全てのベンチマークテストで競合他社のモデルの性能を上回った。PC画面のGUIを理解する機能を査定するベンチマークテスト「ScreenSpot-Pro」で他社を大きく上回り、AIエージェントとしてツールを使う機能の高さが示された。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

コーディング・エージェント

Gemini 3はコーディング機能で他社を上回ったが、「SWE-Bench」でClaude Sonnet 4.5に及ばなかった。SWE-BenchはAIエージェントのエンジニアリング機能を査定するベンチマークテスト。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

Google「ナノ・バナナ」の衝撃！！米国メディア業界が激変、最新モデルGemini 2.5 Flashが画像を編集しフォトショップを置き換える

Googleは今週、イメージを編集するAIモデル「Gemini 2.5 Flash Image」を公開した(下の写真、イメージ)。このモデルは“ナノ・バナナ(Nano Banana)”の愛称で呼ばれ、入力した写真をプロンプトに従って編集する機能を持つ。Adobe Photoshop(アドビ・フォトショップ)の機能をAIモデルが代行するもので、言葉でイメージを編集でき、米国で爆発的に利用が広がっている。実際に使ってみると、プロのクリエーターではなく素人がエンタープライズ品質のクリエイティブを簡単に生成でき、AIイメージの中で最先端を走る製品であると実感する。

出典: Generated with Google Gemini 2.5 Flash

ナノ・バナナの概要

“ナノ・バナナ”の機能はシンプルで、写真をアップロードし、これをプロンプト(言葉)で編集することができる。多くのAIモデルが同等の機能を搭載しているが、ナノ・バナナが決定的に異なるのは、入力した写真のイメージを忠実に保持することにある。写真に写っている人物の顔イメージを正確に記憶し、これを編集して出力する。結果はフォトショップで編集したように、入力イメージを正確に保持し、指示されたタスクをピンポイントで実行する。(下の写真、ジュリア・ロバーツの顔写真(左側)を芸術家(右側)に編集したもの、顔イメージが正確に再現されている。)

出典: Generated with Google Gemini 2.5 Flash

ナノ・バナナの使い方

ナノ・バナナはGoogleのAIクラウド「Google AI Studio」で利用する。メディア生成のページで「Nano Banana」を選択する。このページでイメージ生成モデル「Imagen」やビデオ生成モデル「Veo」などを使うことができる。また、Geminiアプリからナノ・バナナを使うことができる。GoogleはGeminiシリーズでマルチモダルを基盤とする応用技術の開発を重点的に展開している。

出典: Google

コア機能１：イメージを編集

ナノ・バナナの基本機能はイメージを編集する機能で、入力した写真をプロンプトで編集することができる。テイラー・スウィフトの顔写真を入力し(上段)、「東京のファッションモデル」に編集するよう指示すると、渋谷の交差点でポーズをとるシーンが生成される(下段)。ナノ・バナナは顔イメージから全体像を生成し、背景に渋谷交差点のイメージを生成する。

出典: Generated with Google Gemini 2.5 Flash

コア機能２：イメージのフュージョン

ナノ・バナナは二つの写真を合成して新たなイメージを生成する機能がある。トランプ大統領(左端)とゴールデンリトリバー(中央)の写真を入力し、「ホワイトハウスで大統領が犬を抱いているイメージ」を生成するよう指示すると、そのシーンが生成される(右端)。ナノ・バナナは著名人をフィルタリングすることなく、アルゴリズムが編集イメージを出力する。

出典: Generated with Google Gemini 2.5 Flash

コア機能３：マルチステップ

ナノ・バナナは対話形式でイメージを編集していく機能がある。シャンゼリゼ通り(上段)をクリスマスのシーンに編集する際に、ステップごとにオブジェクトを追加することができる。最初のステップでクリスマス飾りをインポーズし、次の段階でサンタクロースのパレード(下段)を付加できる。企業などがアイディアをステップごとにブレーンストーミングし、最終モデルを生成するなどの使い方が想定される。

出典: Generated with Google Gemini 2.5 Flash

コア機能４：イマジネーション

ナノ・バナナは入力したイメージをシードとし指示されたオブジェクトを生成する。桜の花の写真を入力し(上段)、「このデザインの着物を生成」するよう指示すると、桜の花をあしらった着物を生成する。「モデルがこの着物を着てニューヨークのタイムズスクエアを歩くイメージ」を指示すると、このシーンがリアルに生成される(下段)。

出典: Generated with Google Gemini 2.5 Flash

ファウンデーションモデル

ナノ・バナナはファウンデーションモデル最新版「Google Gemini 2.5 Flash」をベースとするAIモデルとなる。Gemini 2.5 Flashはネイティブのマルチモダルで、イメージ(写真)とテキスト(プロンプト)を単一のニューラルネットワークで処理することができる。ナノ・バナナは世界のナレッジを有し、イメージやテキストのコンテクストを理解し、プロンプトの命令を正確にイメージに反映する。

イメージの一貫性

AIモデルでイメージを生成する際の最大の課題がオブジェクトの一貫性(Consistency)で、シーンが変わっても、オブジェクトの形状が変わらないことが最重要エレメントとなる。ナノ・バナナは、入力したイメージが変わることなく、その形状やシーンを忠実に再現する。女性の顔や背景のシーンが維持され、出力される画像に高精度に反映される(下の写真)。他のAIモデルでイメージを編集すると、入力した写真の顔が微妙に変形し、これがクリエイティブ作成の最大のネックとなっている。

出典: Google

イメージの一貫性を保つ技法

Gemini 2.5 Flashはこの一貫性を実現するために複数の手法を使っている。その一つが前述のマルチモダルで、テキストとイメージを単一のモデルで処理する。もう一つがイメージを編集する手法で、アルゴリズムは写真ではなくそれを圧縮したデータを対象とする。圧縮したデータは「Latent Space」と呼ばれ、入力したイメージを「Embedding(埋め込み)」という手法でベクトル化したものとなる。AIモデルは編集処理をこのLatent Spaceで実行し、オブジェクトは一貫性を保つことができる。(下の写真、入力した写真(左側)を様々なシーンに編集するが(右側)、顔イメージは異感性を保つ)

出典: Generated with Google Gemini 2.5 Flash

ウォーターマーク

ナノ・バナナは生成したイメージはAIで造られたものであることを示すためウォーターマーク(Watermark)を挿入する。生成されたイメージの右下にGeminiのロゴを表示する。また、イメージの中に人間の眼では識別できないデジタルなウォーターマークを挿入する。これはGoogle DeepMindが開発した「SynthID」という手法が使われ、生成したイメージの出典などのメタデータが添付される。ナノ・バナナで生成した画像は、人間の眼では真偽を判別することができないため、ウォーターマークが必須となる。

メディア業界が激変

専門家が高度なツールを使って広告などのコンテンツを生成してきたが、ナノ・バナナを使うことで、誰でもがクリエーターになれる時代となった。Adobe Photoshopを使うスキルが無くても、プロレベルのコンテンツを生成でき、メディア業界のビジネスモデルが大きく変わる。同時に、ソーシャルメディアにはAIで生成したイメージやビデオが大量にポストされ、所謂“フェイクイメージ”が日常生活の一部を構成する。消費者はフェイク時代を生き延びるためのノウハウを修得することが新たな課題となる。

Google AIビデオ「Veo 3」が米国で一大センセーション！！ビデオだけでなく音声や音楽を生成、AIで映画を製作できコンテンツ業界が激変

Googleはテキストからビデオを生成するAIモデルの最新版「Veo 3」をリリースした。Veo 3はビデオの品質が格段に向上したことに加え、会話や背景音や音楽を生成する機能が付加され、AIで完全なビデオを生成できるようになった。ビデオとサウンドが生成され、AIで映画を製作できる時代に突入した。実際に使ってみると、音楽を演奏するシーンは衝撃的で、楽器の演奏に合わせてクールなサウンドが生成される(下の写真)。ソーシャルメディアにVeo 3で生成したビデオが数多く掲載され、コンテンツ業界が激変する予兆を示している。

出典: VentureClef、ビデオのURL：https://photos.app.goo.gl/3Z5Yt4xY7nTv1M5f7

Veo 3の概要

GoogleはAIビデオの最新モデル「Veo 3」をリリースした。衝撃的にリアルなビデオを生成できソーシャルメディアで波紋を広げている。Veo 3は入力されたテキスト(プロンプト)とイメージに従って、ビデオを生成する機能を持つ。多くのAIビデオが市場に投入されているが、Veo 3はイメージだけでなくサウンドを生成する機能を持ち、ビデオ撮影したようにリアルな映像を生み出す。Veo 3は720pの画質で8秒間のビデオを生成する。

AIビデオの生成ツール

Googleは同時に、ビデオを生成するツール「Flow」をリリースした。Flowはプロ向けのAIビデオ制作フレームワークで、多彩な機能を搭載している。FlowはVeoの他に、Imegen(イメージ生成AIモデル)とGemini(言語モデル)とリンクし、AIモデルを組み合わせて高度なビデオを生成できる。Imegenで生成したイメージを元に、ここからビデオに生成する機能などがある。また、Gemini 2.5 Proを使いブラウザーのインターフェイスからビデオを作成するオプションもある。Gemini の「Videoボタン」を選択し、プロンプトを入力してビデオを生成する(下の写真)。

出典: VentureClef

Veo 3のシステム構成

Veo 3は三つのAIモデルを組み合わせた構造で、言語モデル「Gemini」が入力されたプロンプトを理解する。ビデオモデルがプロンプトに従って映像を生成し、オーディオモデルが映像に沿ったサウンドを付加する。ビデオモデルは「ディフュージョン(Diffusion)」というアーキテクチャに基づき、ランダムなノイズからこれらを除去する手法でクリアなイメージを生成する。

物理現象の理解と背景音

GoogleはVeo 3で生成したビデオを公開している。デリケートな鳥の羽が風で飛ばされて、蜘蛛の巣に引っ掛かる映像が示されている(下の写真)。軽い羽根が風に乗る物理現象を正確に描いている。また、AIモデルは情景を理解し、風の音などの背景音を自動で生成する。人間がプロンプトで背景サウンドを指示する必要は無く、AIがシーンを理解し自動で背景音を挿入する。

出典: Google、ビデオのURL：https://youtu.be/ODyROOW1dCo?t=1

スパイ映画のワンシーン

Veo 3は映画のシーンを生成する。込み合っている駅のプラットフォームで、スパイが機密情報の受け渡しを会話するシーンが描かれている(下の写真)。ここでは背景の騒音と二人の人物の会話が描写されている。背景の騒音はVeo 3が自動的に生成するが、会話の内容はプロンプトで設定できる。ハリウッドで制作される映画のクリップがVeo 3で生み出される。

出典: Google、ビデオのURL：https://youtu.be/ODyROOW1dCo?t=32

バイオリンを演奏

Veo 3の衝撃は音楽の演奏をシンセサイズできることにある。バイオリンを演奏するシーンでは、楽器を操作する細やかな動作を忠実に再現し、それに同期して鮮明なサウンドを生成する(下の写真)。プロのバイオリニストのレベルの演奏をVeo 3で生成できる。実際にVeo 3を使ってみると、簡単に演奏のシーンを生成できる。「東京タワーの下でバンドがジャズを演奏」と指示するだけで、ピアノ、サキソフォン、ベース、ドラムが描き出され、クールな音楽が生成される(先頭の写真)。

出典: Google、ビデオのURL：https://youtu.be/ODyROOW1dCo?t=63

コマーシャルビデオを生成

Veo ３によりクリエイティブ産業が激変することになる。Veo 3は8秒間の短編ビデオを生成する機能を持ち、コマーシャルビデオの多くがVeo 3で生成されることになる。実際に、ビデオ制作の専門家は、Veo 3で生成したビデオを連結してコマーシャルビデオのプロトタイプを生成している(下の写真)。日常目にするコマーシャルビデオと全く遜色は無く、低価格で魅力的なビデオを生成できる時代となった。コンテンツ業界のビジネスプラクティスが根底から変わることになる。

出典: PJ Ace

フェイクビデオとその対策

Veo 3で生成した映像はカメラで撮影したビデオと全く見分けがつかない。業界はこの現象を「Singularity」と表現し、AIビデオとリアルビデオの境界が消滅したことを示している。高品質のフェイクニュースやフェイクビデオが大量に生成されることになり、消費者はコンテンツの真偽を判定するスキルをアップデートする必要がある。目に入る映像からはリアルとフェイクの判断は不可能で、多角的な視点から本物を見分ける技能が必須となる。ビデオ製作者や配布メディアやコンテンツの背後情報など、複数の要素を頼りに総合的な判断能力が求められる。(下の写真、偽のモーターショーから実況中継するビデオ)

出典: PJ Ace

Emerging Technology Review

シリコンバレーからの最新技術レポート

カテゴリー別アーカイブ: Google

世界経済フォーラムでAIに議論が集中、AGI(人間を超えるAI)がリリースされると極めて不安定な社会となる、GoogleとAnthropicが恩恵と危険が混在する未来像を提示

今年のキーワードは「AIサイエンティスト」、研究室に配属されエージェントとして医薬品を開発、トランプ政権のジェネシス・ミッションが大きな追い風

Google「Gemini 3」はベンチマークテストで他社を圧倒！！AI市場で独走態勢に突入、マルチモダル推論機能が格段に向上しAGIに向けて大きく前進

Google「ナノ・バナナ」の衝撃！！米国メディア業界が激変、最新モデルGemini 2.5 Flashが画像を編集しフォトショップを置き換える

Google AIビデオ「Veo 3」が米国で一大センセーション！！ビデオだけでなく音声や音楽を生成、AIで映画を製作できコンテンツ業界が激変