カテゴリー別アーカイブ: Google

今年のキーワードは「AIサイエンティスト」、研究室に配属されエージェントとして医薬品を開発、トランプ政権のジェネシス・ミッションが大きな追い風

2026年はAIサイエンティストが研究所で人間に代わりバイオ医薬品などを開発する年となる。AIサイエンティストとは科学技術に特化したAIエージェントで、研究者に代わり新薬の開発などを実行する。AIサイエンティストは科学に関する膨大なデータを解析し、仮説を立案し、それを検証することで、地上に存在しない新たなたんぱく質や抗体などを生成する。トランプ政権はジェネシス・ミッションで、AIサイエンティストを戦略技術と位置付けており、連邦政府がこのプロジェクトを支援する。

出典: Generated with Google Nano Banana Pro

AIサイエンティストとチャットボット

AIサイエンティストは最重要研究テーマで議論が白熱しハイプの状態が続いてきた。今年はこれがいよいよ技術として実装される年となる。AIサイエンティストはチャットボットとは機能も構造も大きく異なる。チャットボットは科学者の質問に回答し、アシスタントとして研究を支援する。これに対しAIサイエンティストは、与えられた研究テーマを人間の介在無く自律的に実行する。医薬品の開発では特定の機能を持つたんぱく質を創成するなど、人間の研究者レベルのタスクを実行する。

AIサイエンティストの機能

このように、AIサイエンティストは研究者として位置付けられる。人間がハイレベルな研究テーマを指示し関連するデータセットを提示すると、AIサイエンティストは独自で研究プロセスを展開する。具体的には、公開されている論文を読み研究の最先端情報を理解する。次に、提示されたデータセットを解析し、これらを統合して仮説を構築する。更に、構築した仮説を証明するために試験を実行する。

出典: Generated with Google Nano Banana Pro

AIサイエンティストの性能

最先端のAIサイエンティストは人間の研究者が半年かかる作業を半日程度で実行する。研究を実行するためには膨大な数の論文を読む必要があるが、AIサイエンティストは1,000を超える論文を読みこれを理解し研究の最先端情報を把握する。これらをベースに仮説を立案し、これを検証するプロセスを実行する。実際には、仮説を検証するためのプログラムを生成し、これを実行することで推論が正しいことを裏付ける。AIサイエンティストは膨大な情報を解析するだけでなく、これを前提し新たな仮説を生み出し、これが正しいことを証明する機能を持つ。

AIサイエンティストの恩恵

AIサイエンティストは医療において大きな進化をもたらすと期待されている。ニューロサイエンスの分野では、脳の加齢のメカニズムを解明し、アルツハイマー型認知症の治療薬の開発で大きな成果が期待される。また、エネルギーの分野では、ペロブスカイト太陽電池(perovskite solar cells)を効率化する技法の開発で使われる。

フロンティアモデルとの関係

AI開発企業からOpenAI GPT-5.2やGoogle Gemini 3などフロンティアモデルがリリースされているが、これらが単体でAIサイエンティストを構築することはできない。AIサイエンティストの開発では「Structured World Model(構造的世界モデル)」というアーキテクチャがキーとなる。AIサイエンティストは複数のAIエージェントから構成され、Structured World Modelがこれらを管理運用するフレームワークとなる。このフレームワークの元で、論文を解析するAIエージェントや提示されたデータを解析するAIエージェントなどが稼働しており、エージェント間で情報を共有する制御や、長時間にわたりコヒーレントな処理を保証する仕組みなどが必須の機能となる。

AIサイエンティスト市場

ビッグテックやスタートアップがAIサイエンティストの開発を進めている。その代表がGoogleで、AIサイエンティスト「AI Co-scientist」を開発している。AI Co-scientistは、膨大な量のデータセットをベースに、物理学、バッテリー素材、核融合発電などの分野をターゲットに、自律的に研究を実行する。GoogleはAI Co-scientistを米国エネルギー省の国立研究所に納入し、科学技術研究に寄与することを計画している。トランプ政権のジェネシス・ミッションに沿って、国立研究所と共同でサイエンスの研究開発を加速する。

出典: Google

研究所の自動化技術

AIサイエンティストはロボティックスと融合し、研究所のオペレーションを自動化する。これは「Self-Driving Labs (SDLabs)」と呼ばれ、AIサイエンティストが構築した仮説を、研究所においてロボットが実験を司り、人間に代わりこれを証明する。AIサイエンティストが研究所のロボットに、薬剤の混合や試験結果の検証などを指示し、AIとロボットのループで研究が進む。ジェネシス・ミッションではこの技法を「Robotics Labs」と呼び、この開発を重要アクション項目と定めている。

出典: World Economic Forum

サイエンスのブレークスルー

AIモデルはブラックボックスでアルゴリズムの判定理由が不透明で、これがハルシネーションの原因となる。AIサイエンティストは研究成果の精度が厳しく問われ、生成した仮説を裏付けるデータが必須となる。AIサイエンティストは研究成果をRobotics Labsで検証し、根拠となる実験結果を示すことで、高精度な研究成果を生み出す。今年はAIサイエンティストで米国の科学技術研究が急進し、大きなブレークスルーが起こると期待される。

Google「Gemini 3」はベンチマークテストで他社を圧倒!!AI市場で独走態勢に突入、マルチモダル推論機能が格段に向上しAGIに向けて大きく前進

Googleは11月18日、最新モデル「Gemini 3」を発表し、同日に製品をリリースした。Gemini 3はベンチマークテストでトップの性能を示し他社を圧倒した。AI開発競争でGoogleがOpenAIやAnthropicを大きく引き離し独走態勢に突入した。Gemini 3はマルチモダルと推論機能が格段に強化され、高度なAIエージェントを構築するベースとなる。DeepMindのCEOであるDemis Hassabisは「AGI開発に向けた大きな一歩となる」と述べた。実際に使ってみると、Gemini 3は高度なインテリジェンスを発揮し、AGIエージェント時代に突入したとの印象を受けた。

出典: Generated with Google Gemini 3 Pro

製品構成

Googleは二つのモデル、「Gemini 3 Pro」と「Gemini 3 Deep Think」、をリリースした。前者はベースモデルで日々の業務やAIエージェントの基盤技術となる。後者は推論機能を強化したモデルで、長時間にわたる考察を通し極めて複雑なタスクを実行する。Googleは検索エンジンの「AI Mode」にGemini 3 Proを導入しサーチ機能が大きく向上した。

Gemini 3 Proの性能

Gemini 3 Proは業界の標準ベンチマークテスト「LMArena Leaderboard」で二位を大きく引き離しトップの性能をマークした(下のグラフ)。xAI Grok-4.1がトップであったがGemini 3 Proが1501をマークし大きく躍進した。LMArena Leaderboardは利用者のフィードバックで性能を決めるベンチで世論調査による性能評価となる。これは利用者の実感を反映したもので、Gemini 3は大きなメリットを感じるモデルとなる。

出典: LMArena Leaderboard / Generated with Google Gemini 3 Pro

Gemini 3 Deep Thinkの性能

Gemini 3 Deep Thinkはベースモデルを拡張したもので、推論機能とマルチモダルを理解する能力が大きく向上した。Gemini 3 Deep Thinkは極めて複雑な問題を解決するために使われる。Gemini 3 Deep Thinkは最も難解なベンチマーク「Humanity’s Last Exam」でGPT-5 Proを引き離してトップの成績をマークした(下のグラフ、左側)。また、AIモデルの知能指数を測定するベンチマーク「ARC-AGI-2」では、Gemini 3 Deep ThinkはGPT-5.1の2.5倍の性能をマークし、インテリジェンスの高さを示した(下の写真、右側)。また、前世代モデルGemini 2.5から性能が10倍近く向上し、Gemini 3 Deep Thinkは推論機能が格段に向上したことが分かる。

出典: Google

コア機能#1:理解能力

Gemini 3はマルチモダルの推論機能がエンハンスされ、マルチメディアのコンテンツを理解する能力が格段に進化した。イメージやビデオを読み込みその内容を理解する。ピックルボール(Pickleball)の試合のビデオを入力し(下の写真、左側)、Gemini 3に「右手前のプレーヤの動きを解析し、スキルを向上するためのアドバイス」を求めると、モデルは「パドル(ラケット)の位置が下がる傾向にあり、常にお腹の高さに構えておくこと」と助言した(右側)。Geminiがスポーツ競技のコーチとなり、プレーヤに的確なアドバイスを行う。

出典: Google

コア機能#2:開発能力

Gemini 3の最大の特徴はプログラム・コーディングなど開発能力が格段に向上したことにある。これは「バイブコーディング(Vibe Coding)」とも呼ばれ、シンプルなプロンプトでGemini 3がホームページを開発し、ビデオゲームを生成する。Gemini 3に「レトロなイメージの3D宇宙船ゲームを開発しブラウザーに展開」と指示すると、それを開発しそれをHTMLファイルに格納する。ゲームはJavaScriptベースのWebGLで可視化され、これをブラウザーに展開してゲームをプレーする(下の写真)。ゲームボーイ(Game Boy)などに搭載されているゲームはバイブコーディングで生成できる。

出典: Google

コア機能#3:計画能力

計画能力とは複雑なタスクを完遂するために長期レンジのプランを策定しこれを実行する機能となる。AIエージェントのコア技術でGemini 3は計画機能が大きく向上した。計画能力を査定するベンチマークの代表が「Vending-Bench 2」で、AIエージェントが人間に代わり自動販売機の管理を司り、指定された期間の収入を比較するものとなる(下の写真)。

出典: Andon Labs

Vending-Bench 2で、主要モデルをAIエージェントとして360日間稼働させると、Gemini 3 Proがトップの性能をマークした(下のグラフ)。収入額は5,462ドルで二位のClaude Sonnet 4.5の3,840ドルを大きく上回った。Gemini 3はAIエージェントのコア技術としてデザインされているがその実力を発揮した。

出典: Google

実際に使ってみると:Google AI Studio

Gemini 3 Proはアプリとクラウド「Google AI Studio」(下の写真)で使うことができる。実際に使ってみると、Gemini 3 Proはコーディング能力が大きく進化したと感じる。バイブコーディングを体験でき、本当に言葉だけでプログラムを開発できる。Gemini 3 Proに「会社が主催するダンスパーティーのイベントに関するホームページを生成」するよう指示すると(下の写真、中央部)、ウェブサイトのランディングページを生成した。

出典: Google Gemini 3 Pro

実際に使ってみると:ホームページ

ホームページはHTMLで記述されそれをブラウザーで閲覧するとデザインを見ることができる(下の写真)。ここでは「未来志向のデザイン」とプロンプトで指示しており、その命令が反映されたページが生成された。このページでイベントの概要を読み、RSVPボタンをクリックして、チケットを購入する。プログラミングの知識がなくてもプロンプトで本格的なウェブサイトやコードを生成することができ、ソフトウェア開発は新たな時代を向けたことを実感する。

出典: Google Gemini 3 Pro

AGIに向けた大きな一歩

三年前にChatGPTがリリースされ、生成AIブームが起こり、OpenAIがAI市場をリードしてきた。その後、Googleは「Google Brain」と「DeepMind」を統合し、AI研究所「Google DeepMind」を創設し、基礎研究と製品開発を一本化した。GPTシリーズの対抗モデルとしてGeminiシリーズを投入し、OpenAIを追いかけてきた。ついに、Gemini 3で順位が逆転し、GoogleがAI市場のトップに立った。GoogleはGeminiをAIエージェントのプラットフォームと位置付け、Gemini 3はAGI開発に向けた大きな一歩をしるした。

【捕捉情報:Gemini 3 Proのベンチマークテスト結果】

推論機能・一般知識

Gemini 3は推論機能が大幅に強化され、全てのベンチマークテストで競合他社のモデルの性能を上回った。最難関のベンチマークテスト「Humanity’s Last Exam」でGemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

数学・ロジック

AGIの達成度を査定するベンチマークテスト「ARC-AGI-2」で、Gemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

ビジョン・マルチモダル

Gemini 3はマルチモダル機能が強化され全てのベンチマークテストで競合他社のモデルの性能を上回った。PC画面のGUIを理解する機能を査定するベンチマークテスト「ScreenSpot-Pro」で他社を大きく上回り、AIエージェントとしてツールを使う機能の高さが示された。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

コーディング・エージェント

Gemini 3はコーディング機能で他社を上回ったが、「SWE-Bench」でClaude Sonnet 4.5に及ばなかった。SWE-BenchはAIエージェントのエンジニアリング機能を査定するベンチマークテスト。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

Google「ナノ・バナナ」の衝撃!!米国メディア業界が激変、最新モデルGemini 2.5 Flashが画像を編集しフォトショップを置き換える

Googleは今週、イメージを編集するAIモデル「Gemini 2.5 Flash Image」を公開した(下の写真、イメージ)。このモデルは“ナノ・バナナ(Nano Banana)”の愛称で呼ばれ、入力した写真をプロンプトに従って編集する機能を持つ。Adobe Photoshop(アドビ・フォトショップ)の機能をAIモデルが代行するもので、言葉でイメージを編集でき、米国で爆発的に利用が広がっている。実際に使ってみると、プロのクリエーターではなく素人がエンタープライズ品質のクリエイティブを簡単に生成でき、AIイメージの中で最先端を走る製品であると実感する。

出典: Generated with Google Gemini 2.5 Flash

ナノ・バナナの概要

“ナノ・バナナ”の機能はシンプルで、写真をアップロードし、これをプロンプト(言葉)で編集することができる。多くのAIモデルが同等の機能を搭載しているが、ナノ・バナナが決定的に異なるのは、入力した写真のイメージを忠実に保持することにある。写真に写っている人物の顔イメージを正確に記憶し、これを編集して出力する。結果はフォトショップで編集したように、入力イメージを正確に保持し、指示されたタスクをピンポイントで実行する。(下の写真、ジュリア・ロバーツの顔写真(左側)を芸術家(右側)に編集したもの、顔イメージが正確に再現されている。)

出典: Generated with Google Gemini 2.5 Flash

ナノ・バナナの使い方

ナノ・バナナはGoogleのAIクラウド「Google AI Studio」で利用する。メディア生成のページで「Nano Banana」を選択する。このページでイメージ生成モデル「Imagen」やビデオ生成モデル「Veo」などを使うことができる。また、Geminiアプリからナノ・バナナを使うことができる。GoogleはGeminiシリーズでマルチモダルを基盤とする応用技術の開発を重点的に展開している。

出典: Google

コア機能1:イメージを編集

ナノ・バナナの基本機能はイメージを編集する機能で、入力した写真をプロンプトで編集することができる。テイラー・スウィフトの顔写真を入力し(上段)、「東京のファッションモデル」に編集するよう指示すると、渋谷の交差点でポーズをとるシーンが生成される(下段)。ナノ・バナナは顔イメージから全体像を生成し、背景に渋谷交差点のイメージを生成する。

出典: Generated with Google Gemini 2.5 Flash

コア機能2:イメージのフュージョン

ナノ・バナナは二つの写真を合成して新たなイメージを生成する機能がある。トランプ大統領(左端)とゴールデンリトリバー(中央)の写真を入力し、「ホワイトハウスで大統領が犬を抱いているイメージ」を生成するよう指示すると、そのシーンが生成される(右端)。ナノ・バナナは著名人をフィルタリングすることなく、アルゴリズムが編集イメージを出力する。

出典: Generated with Google Gemini 2.5 Flash

コア機能3:マルチステップ

ナノ・バナナは対話形式でイメージを編集していく機能がある。シャンゼリゼ通り(上段)をクリスマスのシーンに編集する際に、ステップごとにオブジェクトを追加することができる。最初のステップでクリスマス飾りをインポーズし、次の段階でサンタクロースのパレード(下段)を付加できる。企業などがアイディアをステップごとにブレーンストーミングし、最終モデルを生成するなどの使い方が想定される。

出典: Generated with Google Gemini 2.5 Flash

コア機能4: イマジネーション

ナノ・バナナは入力したイメージをシードとし指示されたオブジェクトを生成する。桜の花の写真を入力し(上段)、「このデザインの着物を生成」するよう指示すると、桜の花をあしらった着物を生成する。「モデルがこの着物を着てニューヨークのタイムズスクエアを歩くイメージ」を指示すると、このシーンがリアルに生成される(下段)。

出典: Generated with Google Gemini 2.5 Flash

ファウンデーションモデル

ナノ・バナナはファウンデーションモデル最新版「Google Gemini 2.5 Flash」をベースとするAIモデルとなる。Gemini 2.5 Flashはネイティブのマルチモダルで、イメージ(写真)とテキスト(プロンプト)を単一のニューラルネットワークで処理することができる。ナノ・バナナは世界のナレッジを有し、イメージやテキストのコンテクストを理解し、プロンプトの命令を正確にイメージに反映する。

イメージの一貫性

AIモデルでイメージを生成する際の最大の課題がオブジェクトの一貫性(Consistency)で、シーンが変わっても、オブジェクトの形状が変わらないことが最重要エレメントとなる。ナノ・バナナは、入力したイメージが変わることなく、その形状やシーンを忠実に再現する。女性の顔や背景のシーンが維持され、出力される画像に高精度に反映される(下の写真)。他のAIモデルでイメージを編集すると、入力した写真の顔が微妙に変形し、これがクリエイティブ作成の最大のネックとなっている。

出典: Google

イメージの一貫性を保つ技法

Gemini 2.5 Flashはこの一貫性を実現するために複数の手法を使っている。その一つが前述のマルチモダルで、テキストとイメージを単一のモデルで処理する。もう一つがイメージを編集する手法で、アルゴリズムは写真ではなくそれを圧縮したデータを対象とする。圧縮したデータは「Latent Space」と呼ばれ、入力したイメージを「Embedding(埋め込み)」という手法でベクトル化したものとなる。AIモデルは編集処理をこのLatent Spaceで実行し、オブジェクトは一貫性を保つことができる。(下の写真、入力した写真(左側)を様々なシーンに編集するが(右側)、顔イメージは異感性を保つ)

出典: Generated with Google Gemini 2.5 Flash 

ウォーターマーク

ナノ・バナナは生成したイメージはAIで造られたものであることを示すためウォーターマーク(Watermark)を挿入する。生成されたイメージの右下にGeminiのロゴを表示する。また、イメージの中に人間の眼では識別できないデジタルなウォーターマークを挿入する。これはGoogle DeepMindが開発した「SynthID」という手法が使われ、生成したイメージの出典などのメタデータが添付される。ナノ・バナナで生成した画像は、人間の眼では真偽を判別することができないため、ウォーターマークが必須となる。

メディア業界が激変

専門家が高度なツールを使って広告などのコンテンツを生成してきたが、ナノ・バナナを使うことで、誰でもがクリエーターになれる時代となった。Adobe Photoshopを使うスキルが無くても、プロレベルのコンテンツを生成でき、メディア業界のビジネスモデルが大きく変わる。同時に、ソーシャルメディアにはAIで生成したイメージやビデオが大量にポストされ、所謂“フェイクイメージ”が日常生活の一部を構成する。消費者はフェイク時代を生き延びるためのノウハウを修得することが新たな課題となる。

Google AIビデオ「Veo 3」が米国で一大センセーション!!ビデオだけでなく音声や音楽を生成、AIで映画を製作できコンテンツ業界が激変

Googleはテキストからビデオを生成するAIモデルの最新版「Veo 3」をリリースした。Veo 3はビデオの品質が格段に向上したことに加え、会話や背景音や音楽を生成する機能が付加され、AIで完全なビデオを生成できるようになった。ビデオとサウンドが生成され、AIで映画を製作できる時代に突入した。実際に使ってみると、音楽を演奏するシーンは衝撃的で、楽器の演奏に合わせてクールなサウンドが生成される(下の写真)。ソーシャルメディアにVeo 3で生成したビデオが数多く掲載され、コンテンツ業界が激変する予兆を示している。

出典: VentureClef、ビデオのURL:https://photos.app.goo.gl/3Z5Yt4xY7nTv1M5f7

Veo 3の概要

GoogleはAIビデオの最新モデル「Veo 3」をリリースした。衝撃的にリアルなビデオを生成できソーシャルメディアで波紋を広げている。Veo 3は入力されたテキスト(プロンプト)とイメージに従って、ビデオを生成する機能を持つ。多くのAIビデオが市場に投入されているが、Veo 3はイメージだけでなくサウンドを生成する機能を持ち、ビデオ撮影したようにリアルな映像を生み出す。Veo 3は720pの画質で8秒間のビデオを生成する。

AIビデオの生成ツール

Googleは同時に、ビデオを生成するツール「Flow」をリリースした。Flowはプロ向けのAIビデオ制作フレームワークで、多彩な機能を搭載している。FlowはVeoの他に、Imegen(イメージ生成AIモデル)とGemini(言語モデル)とリンクし、AIモデルを組み合わせて高度なビデオを生成できる。Imegenで生成したイメージを元に、ここからビデオに生成する機能などがある。また、Gemini 2.5 Proを使いブラウザーのインターフェイスからビデオを作成するオプションもある。Gemini の「Videoボタン」を選択し、プロンプトを入力してビデオを生成する(下の写真)。

出典: VentureClef

Veo 3のシステム構成

Veo 3は三つのAIモデルを組み合わせた構造で、言語モデル「Gemini」が入力されたプロンプトを理解する。ビデオモデルがプロンプトに従って映像を生成し、オーディオモデルが映像に沿ったサウンドを付加する。ビデオモデルは「ディフュージョン(Diffusion)」というアーキテクチャに基づき、ランダムなノイズからこれらを除去する手法でクリアなイメージを生成する。

物理現象の理解と背景音

GoogleはVeo 3で生成したビデオを公開している。デリケートな鳥の羽が風で飛ばされて、蜘蛛の巣に引っ掛かる映像が示されている(下の写真)。軽い羽根が風に乗る物理現象を正確に描いている。また、AIモデルは情景を理解し、風の音などの背景音を自動で生成する。人間がプロンプトで背景サウンドを指示する必要は無く、AIがシーンを理解し自動で背景音を挿入する。

出典: Google、ビデオのURL:https://youtu.be/ODyROOW1dCo?t=1

スパイ映画のワンシーン

Veo 3は映画のシーンを生成する。込み合っている駅のプラットフォームで、スパイが機密情報の受け渡しを会話するシーンが描かれている(下の写真)。ここでは背景の騒音と二人の人物の会話が描写されている。背景の騒音はVeo 3が自動的に生成するが、会話の内容はプロンプトで設定できる。ハリウッドで制作される映画のクリップがVeo 3で生み出される。

出典: Google、ビデオのURL:https://youtu.be/ODyROOW1dCo?t=32 

バイオリンを演奏

Veo 3の衝撃は音楽の演奏をシンセサイズできることにある。バイオリンを演奏するシーンでは、楽器を操作する細やかな動作を忠実に再現し、それに同期して鮮明なサウンドを生成する(下の写真)。プロのバイオリニストのレベルの演奏をVeo 3で生成できる。実際にVeo 3を使ってみると、簡単に演奏のシーンを生成できる。「東京タワーの下でバンドがジャズを演奏」と指示するだけで、ピアノ、サキソフォン、ベース、ドラムが描き出され、クールな音楽が生成される(先頭の写真)。

出典: Google、ビデオのURL:https://youtu.be/ODyROOW1dCo?t=63

コマーシャルビデオを生成

Veo 3によりクリエイティブ産業が激変することになる。Veo 3は8秒間の短編ビデオを生成する機能を持ち、コマーシャルビデオの多くがVeo 3で生成されることになる。実際に、ビデオ制作の専門家は、Veo 3で生成したビデオを連結してコマーシャルビデオのプロトタイプを生成している(下の写真)。日常目にするコマーシャルビデオと全く遜色は無く、低価格で魅力的なビデオを生成できる時代となった。コンテンツ業界のビジネスプラクティスが根底から変わることになる。

出典: PJ Ace

フェイクビデオとその対策

Veo 3で生成した映像はカメラで撮影したビデオと全く見分けがつかない。業界はこの現象を「Singularity」と表現し、AIビデオとリアルビデオの境界が消滅したことを示している。高品質のフェイクニュースやフェイクビデオが大量に生成されることになり、消費者はコンテンツの真偽を判定するスキルをアップデートする必要がある。目に入る映像からはリアルとフェイクの判断は不可能で、多角的な視点から本物を見分ける技能が必須となる。ビデオ製作者や配布メディアやコンテンツの背後情報など、複数の要素を頼りに総合的な判断能力が求められる。(下の写真、偽のモーターショーから実況中継するビデオ)

出典: PJ Ace

Googleは人間の知能を超えるAIモデル・AGIの開発を加速、AGIは重大な危険性を内包し安全技術の開発を今から開始すべきと提唱

GoogleのAI研究所「Google DeepMind」は人間の知能を超えるAIモデル「Artificial General Intelligence (AGI)」の研究開発を加速している。AGIの登場が目前に迫るとの認識を示し、Googleはその危険性を特定し、リスクを低減するための枠組みを発表した。AGIの定義や出荷時期で多様な解釈が混在するなか、GoogleはAGIを安全に開発運用するための準備を開始すべきとのポジションを取る。

出典: Generated with Google Imagen 3

GoogleのAGI開発

GoogleはAGIについて公式な見解は発表していないが、開発を加速させ業界の先頭を走っている。Googleはモデルの開発と共に安全性の研究を進め、責任あるAGI開発を実行している。GoogleはAGIのリスクを査定し、これを低減するための研究成果を公開した。AGIについて共通の理解は確定していないが、GoogleはAGIを知的なタスクを実行する際に、人間レベルの知能を持つAIシステムと定義する。また、開発時期についても様々な予測があるが、GoogleはAGIは数年以内に登場すると考える。

AGIの潜在能力

AGIは人間レベルの知的タスクを実行するスキルを持ち、AIエージェントのように稼働する。AGIは知的機能として、理解能力、推論機能、計画機能、自律的に稼働する機能を備える。応用技術の観点からは、AGIは新薬開発、地球温暖化対策、医療、教育などの分野で活躍が期待される。特に、医療分野では病気の診断で、また、教育分野では個人向けチューターとして応用される。

AGIの危険性

GoogleはAGIを安全に開発運用するために、その危険性を特定し、このリスクを低減するための技術を開発するアプローチを取る。実際に、GoogleはAGIの危険性を分析し、そのリスクを四つのタイプに纏めた(下の写真)。これらは:

  • Misuse:AGIが悪用されるリスク、AIシステムで危害を与える情報を生成するなど
  • Misalignment:AGIが設計仕様通り稼働しないリスク、AIシステムが設計者を欺くなどの危険性
  • Mistakes:AGIが危害を与えていることを認識できないリスク
  • Structural RisksマルチAGIにより危害が発生するリスク

これら四つのリスクの中で「Misuse」と「Misalignment」が重大な被害をもたらすとしている。

出典: Google

Misuse:AGIが悪用されるリスク

「Misuse」はAGIが悪用されるリスクで、悪意ある団体がAGIを使って社会に危害をもたらす情報を生成する危険性を示す。AGIで有害なコンテンツを生成し、また、AGIをサイバー攻撃に適用するなどのリスクがある。特に、ハッカー集団や敵対国がAGIを悪用し、社会インフラをサイバー攻撃し、危害をもたらすケースが警戒されている。

Misalignment:AGIが設計仕様通り稼働しないリスク

「Misalignment」は、AIシステムが意図的に開発者の設計目的に反し、危害をもたらすケースとなる。これはAIシステムが開発者を欺くケースで、AGIは間違った情報を意図的に生成するなどの危険性がある。具体的には、AGIは開発者を騙し、人間の管理を逸脱し、AIシステムが独自の判断で処理を実行するリスクを抱えている。

Mistakes:AGIが危害を与えていることを認識できないリスク

「Mistakes」は、AIシステムは断片的に間違った情報を出力するが、AIシステムはこれが危害を及ぼすとは認識していないケースを指す。例えば、AIエージェントが電力配信網を管理する際に、電線の保守作業が必要なことを理解していないため、電力網に過大な負荷がかかり、停電になるケースなど。

Structural Risks:マルチAGIにより危害が発生するリスク

「Structural Risks」とは、複数のエージェント・マルチAGIを運用するシステムに関するリスクで、個々のAIシステムは正しく稼働するが、システム全体で問題が発生するリスクを指す。複数の関係者や組織やAIシステムが関与し、単一のAIシステムを修正しても問題が解決しない危険性を含む。

AGIが悪用されるリスクを低減する手法

AIシステムが敵対国などで悪用されるリスクを低減するためには、モデルの教育やモデルの運用で包括的な対策が必要となる(下の写真)。AIモデルの教育では、セキュリティ機能を強化し、有害な情報を出力する機能を抑制する。また、AIモデルの運用では、プロンプトに対するレスポンスを監視し、モデルの悪用を検知する。更に、「Red Teaming」の手法でモデルの危険性を探索し、問題点を修正する。

出典: Google

AGIが設計仕様通り稼働しないリスクを低減する手法

AIシステムが開発者を欺いて危険な挙動をすることを抑止するためには、教育プロセスを強化する必要がある(下の写真)。モデルが規定通り稼働するよう、実行時の挙動の監視を強化し、それをアルゴリズムに反映する。更に、モデル運用のプロセスで、プロンプトに対するレスポンスを監視し、規定に反する挙動を把握し、モデルを修正する。教育が終了した後も、運用のプロセスでモデルの挙動のモニターを継続する。

出典: Google

責任あるAGI開発

研究成果はAGIの安全性に関する技術的な評価で、AIガバナンスなど組織や体制に関する考察は含んでいない。また、見通せない未来のリスクなどについても言及していない。特に、人間の知能を遥かに超えるAIシステム「Artificial Super Intelligence (ASI)」に関する評価はスコープの範囲外としている。AGIはシステム構成や機能などに関し共通の理解は確立されておらず不確定な要素が多いが、GoogleはAGIの安全技術に関する研究開発を今から起動し、将来に備えるべきと主張する。