カテゴリー別アーカイブ: Google

Googleは人間の知能を超えるAIモデル・AGIの開発を加速、AGIは重大な危険性を内包し安全技術の開発を今から開始すべきと提唱

GoogleのAI研究所「Google DeepMind」は人間の知能を超えるAIモデル「Artificial General Intelligence (AGI)」の研究開発を加速している。AGIの登場が目前に迫るとの認識を示し、Googleはその危険性を特定し、リスクを低減するための枠組みを発表した。AGIの定義や出荷時期で多様な解釈が混在するなか、GoogleはAGIを安全に開発運用するための準備を開始すべきとのポジションを取る。

出典: Generated with Google Imagen 3

GoogleのAGI開発

GoogleはAGIについて公式な見解は発表していないが、開発を加速させ業界の先頭を走っている。Googleはモデルの開発と共に安全性の研究を進め、責任あるAGI開発を実行している。GoogleはAGIのリスクを査定し、これを低減するための研究成果を公開した。AGIについて共通の理解は確定していないが、GoogleはAGIを知的なタスクを実行する際に、人間レベルの知能を持つAIシステムと定義する。また、開発時期についても様々な予測があるが、GoogleはAGIは数年以内に登場すると考える。

AGIの潜在能力

AGIは人間レベルの知的タスクを実行するスキルを持ち、AIエージェントのように稼働する。AGIは知的機能として、理解能力、推論機能、計画機能、自律的に稼働する機能を備える。応用技術の観点からは、AGIは新薬開発、地球温暖化対策、医療、教育などの分野で活躍が期待される。特に、医療分野では病気の診断で、また、教育分野では個人向けチューターとして応用される。

AGIの危険性

GoogleはAGIを安全に開発運用するために、その危険性を特定し、このリスクを低減するための技術を開発するアプローチを取る。実際に、GoogleはAGIの危険性を分析し、そのリスクを四つのタイプに纏めた(下の写真)。これらは:

  • Misuse:AGIが悪用されるリスク、AIシステムで危害を与える情報を生成するなど
  • Misalignment:AGIが設計仕様通り稼働しないリスク、AIシステムが設計者を欺くなどの危険性
  • Mistakes:AGIが危害を与えていることを認識できないリスク
  • Structural RisksマルチAGIにより危害が発生するリスク

これら四つのリスクの中で「Misuse」と「Misalignment」が重大な被害をもたらすとしている。

出典: Google

Misuse:AGIが悪用されるリスク

「Misuse」はAGIが悪用されるリスクで、悪意ある団体がAGIを使って社会に危害をもたらす情報を生成する危険性を示す。AGIで有害なコンテンツを生成し、また、AGIをサイバー攻撃に適用するなどのリスクがある。特に、ハッカー集団や敵対国がAGIを悪用し、社会インフラをサイバー攻撃し、危害をもたらすケースが警戒されている。

Misalignment:AGIが設計仕様通り稼働しないリスク

「Misalignment」は、AIシステムが意図的に開発者の設計目的に反し、危害をもたらすケースとなる。これはAIシステムが開発者を欺くケースで、AGIは間違った情報を意図的に生成するなどの危険性がある。具体的には、AGIは開発者を騙し、人間の管理を逸脱し、AIシステムが独自の判断で処理を実行するリスクを抱えている。

Mistakes:AGIが危害を与えていることを認識できないリスク

「Mistakes」は、AIシステムは断片的に間違った情報を出力するが、AIシステムはこれが危害を及ぼすとは認識していないケースを指す。例えば、AIエージェントが電力配信網を管理する際に、電線の保守作業が必要なことを理解していないため、電力網に過大な負荷がかかり、停電になるケースなど。

Structural Risks:マルチAGIにより危害が発生するリスク

「Structural Risks」とは、複数のエージェント・マルチAGIを運用するシステムに関するリスクで、個々のAIシステムは正しく稼働するが、システム全体で問題が発生するリスクを指す。複数の関係者や組織やAIシステムが関与し、単一のAIシステムを修正しても問題が解決しない危険性を含む。

AGIが悪用されるリスクを低減する手法

AIシステムが敵対国などで悪用されるリスクを低減するためには、モデルの教育やモデルの運用で包括的な対策が必要となる(下の写真)。AIモデルの教育では、セキュリティ機能を強化し、有害な情報を出力する機能を抑制する。また、AIモデルの運用では、プロンプトに対するレスポンスを監視し、モデルの悪用を検知する。更に、「Red Teaming」の手法でモデルの危険性を探索し、問題点を修正する。

出典: Google

AGIが設計仕様通り稼働しないリスクを低減する手法

AIシステムが開発者を欺いて危険な挙動をすることを抑止するためには、教育プロセスを強化する必要がある(下の写真)。モデルが規定通り稼働するよう、実行時の挙動の監視を強化し、それをアルゴリズムに反映する。更に、モデル運用のプロセスで、プロンプトに対するレスポンスを監視し、規定に反する挙動を把握し、モデルを修正する。教育が終了した後も、運用のプロセスでモデルの挙動のモニターを継続する。

出典: Google

責任あるAGI開発

研究成果はAGIの安全性に関する技術的な評価で、AIガバナンスなど組織や体制に関する考察は含んでいない。また、見通せない未来のリスクなどについても言及していない。特に、人間の知能を遥かに超えるAIシステム「Artificial Super Intelligence (ASI)」に関する評価はスコープの範囲外としている。AGIはシステム構成や機能などに関し共通の理解は確立されておらず不確定な要素が多いが、GoogleはAGIの安全技術に関する研究開発を今から起動し、将来に備えるべきと主張する。

Googleは最もインテリジェントなモデル「Gemini 2.5」を公開、推論機能が 強化され業界トップの性能をマーク、中国企業を大きく引き離す

Googleは最新モデル「Gemini 2.5」をリリースし、ベンチマークテストで二位に大きく差を付け、業界トップとなった。GoogleはGemini 2.5を最もインテリジェントなモデルと呼び、推論機能が強化され、プログラミングや複雑なタスクの実行で実力を発揮する。Gemini 2.5はDeepSeek R1の性能を大きく上回り、米国企業が再び実力を示した。

出典: Generated with Google ImageFX

推考モデル

Gemini 2.5はGoogle DeepMindが開発した最新モデルで、推論機能が強化され、最もインテリジェントなモデルとなった。Google DeepMindはGemini 2.5を「Thinking Model(推考モデル)」と呼び、推考を重ね複雑な問題を解く構造となる。プログラミング機能が高く、複雑なコードをエラー無く生成することができる。

主要機能と開発手法

Gemini 2.5は高度な推論機能を持ち、情報を解析し、論理的な帰結を導き、情報に基づく意思決定を行う。Googleは推論機能の開発で、強化学習「Reinforcement Learning」や思考連鎖「Chain-of-Thoughts」の手法を用いてきた。この結果が前世代モデル「Gemini 2.0 Flash Thinking」に反映された。Gemini 2.5はこれをベースにポスト教育で機能が強化され、インテリジェンスが大きく向上した。

ベンチマーク結果

Googleはこのモデルを「Gemini 2.5 Pro Experimental」として製品化しこれを公開した。また、GoogleはGemini 2.5 Proのベンチマーク結果示し、高い性能をマークしたことをアピールした(下のグラフ)。これによると、Gemini 2.5 Proはコーディング、数学、科学など、推論機能が問われるタスクで高度な成績を示した。Gemini 2.5 Proの対抗機種はOpenAI 03-miniであるが、ほぼすべての項目で性能が上回った。また、DeepSeek R1に対しては全ての項目で性能が大きく上回った。

出典: Generated with Google Gemini 2.5 Pro

利用環境

Gemini 2.5 ProをGoogleのAIスタジオ「Google AI Studio」で利用することができる(下の写真)。Google AI Studioは最新モデルGemini 2.5の他に、Gemini 2.0やGemini 1.5などを提供している。また、GoogleのオープンソースモデルGemma 3とGemma 2を使うことができる。AI StudioはAIモデルのサンドボックスで、ここでモデルを試験し、機能や性能を検証することができる。またGoogleは、AIクラウド「Vertex AI」でGemini 2.5を近日中に提供するとしている。

出典: Google

プログラミング性能

実際にGemini 2.5 Proを使ってみるとプログラミングの機能が極めて高いことが分かる。プログラムを作成するにあたり、コーディングする必要は無く、Gemini 2.5 Proに言葉で指示するだけでコードを生成できる。例えば、人気ゲーム「テトリス」をJavaScriptでコーディングするよう指示すると、Gemini 2.5 Proはコードを生成し、その機能や使い方を説明する(上の写真)。生成されたコードを何も修正することなく、そのままJavaScript開発環境「p5.js」で実行することができる(下の写真)。

出典: p5.js

ソフトウェア開発機能

Gemini 2.5 Proはソフトウェア開発における強力なツールとなり、ウェブアプリケーションやAIエージェントの開発で威力を発揮する。Gemini 2.5 Proはグラフィカルなインターフェイスのプログラムを得意とし、ウェブサイトやウェブゲームの開発で使われる(下の写真、Gemini 2.5 Proで簡単にインタラクティブなグラフを生成できる)。また、AIエージェントの開発が急速に進んでおり、Gemini 2.5 Proは人間に代わり複雑なプログラミングを実行する。Gemini 2.5 Proは実社会のエンジニアリングで役に立つモデルとして設計された。

出典: Google

コーディングの品質

Gemini 2.5 Proを使うと、最低限のプログラミングのスキルで、コードを生成できる。プロンプトにプログラムの概要や使用する言語を入力するだけで、Gemini 2.5はコードを出力する。多くの推論モデルがコーディング機能を備えているが、Gemini 2.5の機能が最も洗練されているように感じる。Gemini 2.5はワンショットでエラーの無い高品質なコードを生成する。

バイブコーディング

言葉だけでAIモデルを使ってコーディングする手法は「バイブコーディング(Vibe Cording)」と呼ばれ話題となっている。いま、必要なプログラム言語は「Python」ではなく「英語(普通の言葉)」であるといわれている。コンピュータの知識が無くてもプログラミングできる時代が到来したとも言われている。しかし、実際にGemini 2.5 Proなどを使って言葉でコーディングしてみると、コードは自動で生成されるが、それを編集し運用するためには、それなりのスキルが求められる。コードの位置づけや、開発環境、実行環境など、プログラミングに関する基礎知識が必須となる。バイブコーディングはトレンディなコンセプトであるが、企業のプログラム開発で使うことができるのか、実社会でのベンチマークが必要となる。

キラーアプリはAIエージェント!!Googleは生成AI最新モデル「Gemini 2.0」とAIエージェント「Astra」と「Mariner」を投入

Googleは生成AIモデルの最新版「Gemini 2.0」をリリースした。Gemini 2.0は高性能なモデルであることに加え、AIエージェントを構成するための基礎技術となる。AIエージェントとは知的なAIモデルで、複雑なタスクを自律的に実行し、人間の作業を代行する存在となる。Googleは人間のように自立的に行動するAIエージェントの研究開発を重点的に進めており、この技術を人間レベルのインテリジェンスを持つAGI(Artificial General Intelligence)に拡張するとのビジョンを示した。

出典: Google

Gemini 2.0の概要

Gemini 2.0はシリーズの最新モデルで、性能が向上したことに加え、マルチモダル機能が強化された。オーディオやイメージやビデオを読み込むことができるだけでなく、これらを生成する機能が付加された。また、Gemini 2.0は検索エンジン(Google Search)やマップ(Google Maps)を操作することができ、人間のようにツールを使う機能が実装された。

Gemini 2.0 Flashを投入

今回の発表では「Gemini 2.0 Flash」が公開され、一般に利用することができるようになった。開発者はクラウド「Google Vertex AI」からAPI経由でこれを利用する。また、ブラウザーからは「2.0 Flush Experimental」として対話形式で利用できる(下の写真)。これは正式版の前のプレビュー版であるが最新機能を体験できる。

出典: Google

Gemini 2.0 Flashの特性

Gemini 2.0 Flashは軽量モデルで、高速で稼働することに加え、マルチモダル機能が強化された。Flashは処理速度が速く、リアルタイムでの反応が要求されるアプリケーションで利用される。その代表がAIエージェントで、Flashはマルチモダルを読み込み、これを高速で処理することで、リアルタイムでの会話が可能となった。また、基本性能が大きく向上し、ハイエンドモデルである「Gemini 1.5 Pro」を上回り、Geminiシリーズの最高速モデルとなった(下の写真)。

出典: Google

AIエージェント汎用モデル:Project Astra

GoogleはAIエージェントの汎用モデル「Project Astra」の最新版を公開した。Project Astraはスマートフォンに搭載されるAIエージェントで、カメラが撮影するビデオを入力とし、質問に会話形式で回答する。屋内や屋外で、スマホのカメラで撮影した映像についての質問にリアルタイムで回答する。公園に設置されている建造物について、「これは何か」と問いかけると、AIエージェントは「Eve Rothchildが制作した「My World and Your World」という作品である」と回答する(下の写真)。AIエージェントは入力されたビデオを瞬時に解析し、自然な対話で回答する。

出典: Google

AIエージェント専用モデル:Project Mariner

Googleは特定のタスクに特化した機能を持つAIエージェント「Project Mariner」を公開した。Project MarinerはChromeブラウザーの拡張機能(Extension)として実装され、ウェブサイトで指示されたタスクを実行する。例えば、「Google Arts and Culture」のサイトでカラフルな絵を見つけるよう指示すると、AIエージェントはこのサイトにアクセスし、タスクを実行する。更に、Eコマースサイト「Etsy」でカラフルな絵の具を購買するように指示すると、それを実行し、商品を購入バスケットに入れる(下の写真)。但し、支払い処理のプロセスでは、人間の判断を仰ぎ、利用者が最終判断を下す。

出典: Google

ウェアラブル向け基本ソフト:Android XR

Googleはウェアラブル向けの基本ソフト「Android XR」を発表した。これはヘッドセットやスマートグラス向けの基本ソフトで、ARやVRを融合したXR(Extended Reality)のプラットフォームとなる。Android XRにGemini 2.0が組み込まれ、これをXRグラスに搭載することで、ウェアラブルでAIエージェントを利用できる構造となる。GoogleはQualcomm及びSamsungと共同で開発し、Android XRはパートナー企業が開発するXRグラスに搭載される。また、Googleも独自のXRグラスを開発しており、AIエージェントが日常生活における秘書の役割を担う。市街地でレストランの場所を尋ねると、AIエージェントがXRグラスに道順やレストランの情報を表示し、目的地までナビゲーションする(下の写真)。

出典: Google

AIエージェントの時代に

生成AIはインテリジェンスを提供するプラットフォームで、この基盤で様々なアプリケーションが開発されている。その中で、人間に代わり作業を代行するAIエージェントに注目が集まっている。AIエージェントは従来のソフトウェアと異なり、人間が介在することなく自律的に業務を実行し、企業のビジネスプロセスを高度に自動化すると期待されている。Googleの他に、OpenAIやMetaがAIエージェントの開発を重点的に進めており、2025年は多彩なモデルが投入されることになる。

GoogleはGeminiの機能を拡張、検索エンジンに統合しAIが回答を生成、現実社会で活躍するAIアシスタントを初公開、開発者会議「Google I/O」の重要ポイントをレビュー

Googleは5月14日、開発者会議「Google I/O」で生成AI「Gemini」の最新情報を公開した。基調講演でSundar Pichaiは「Geminiの時代が到来した」と述べ、AIをビジネスの基盤とし、それを検索エンジンなど主要サービスに統合。また、高速モデル「Gemini Flash」がリリースされ、これを基盤とするAIアシスタントの構想が示された。今年のGoogle I/OはGemini一色の開発者会議となった。

出典: Google

Geminiの機能アップ

Googleは昨年12月、フロンティアモデル「Gemini」を投入した。更に、今年2月には高速モデル「Gemini Pro 1.5」を投入し、業界トップの性能をマークした。Geminiの特徴はコンテクスト・ウインドウ(入力できるデータサイズ)が大きいことで、最大で100万トークン(言葉の単位)を処理できる。開発者会議ではこれを拡大し、200万トークンをサポートすることを明らかにした。また、Googleはモデルの処理速度を向上した「Gemini Flash」を投入した(下の写真)。「Gemini Pro」が大規模モデルで機能性を追求するが、「Gemini 1.5 Flash」はスリムなモデルで高速処理を実現した。会話などリアルタイムの応答が求められるアプリケーションで使われる。

出典: Google

検索エンジンをGeminiで強化

GoogleはGeminiを検索エンジンに組み込んだ検索サービス「Search Generative Experience」を試験的に運用してきた。Googleはこの検索サービスを強化した「AI Overviews」を開発し、来週からアメリカで展開する。AI Overviewsとは、ズバリ回答を生成する機能で、複雑な質問に対し、Geminiが情報を統合し、回答を生成する。例えば、グループで共同生活する際に、三日間の食事のメニューを尋ねると、検索エンジンはこれをテーブル形式に纏めて回答する(下の写真)。

出典: Google

ビデオでの質問に回答

質問をテキストではなくビデオで尋ねると、検索エンジンはこれに回答する。例えば、旧式のレコードプレーヤーのアームが動かなくなった際は、それをビデオで撮影し(下の写真右側)、検索エンジンに入力し、対処法を尋ねるなどの使い方ができる(左側)。

出典: Google

マルチモダル:「Imagen 3」と「Veo」

Geminiの特徴はネイティブのマルチモダル構造を取ることで、テキストの他にイメージやビデオやボイスを入出力することができる。単一のネットワークでマルチモダルを処理するアーキテクチャとなる。Googleはテキストからビデオを生成するモデル「Veo」を投入した。Veoはプロンプトを正確に理解し高解像度(1080p)の映像を生成する。Veoはクリエータがビデオを制作するすることを目的に開発され、映画のシーンのような映像を生成する。(下の写真:「香港の街並みを走り抜けるクルマ」。URL:https://www.youtube.com/watch?v=diqmZs1aD1g)

出典: Google

イメージ生成モデルの強化

テキストからイメージを生成するモデルの最新版「Imagen 3」がリリースされた。このモデルは解像度が向上し、写真撮影したような極めてリアルなイメージを生成する。また、プロンプトを理解する能力が向上し、指示された意図を正確に把握してイメージを創り上げる。(下の写真:「渓谷を流れる川と緑の木々に覆われた山々」)

出典: Google

ワークスペースの機能拡張

Googleはオフィス製品「Workspace」を提供している。WorkspaceはGmail、Docs、Sheets、Slidesで構成され、ここにGeminiを統合し、生産性を向上してきた。これは「Gemini for Google Workspace」と呼ばれ、ここに最新モデル「Gemini Pro 1.5」が統合され、機能が大きく拡張した。これにより、Gmailは受信したメールの要約を生成する(下の写真)。サイドパネルで受信したメールを要約するよう指示すると、Geminiはメール毎にその内容を簡潔にまとめる(右側のカラム)。これは、小学校のPTA会議に関するメール4通の要約を生成した事例で、メール本文を読まないで会議の内容を理解できる。

出典: Google

未来のAIアシスタント:Project Astra

GoogleはAIアシスタントのコンセプト「Project Astra」を初公開した。AIアシスタントはGemini 1.5 Flashに構築されたモデルで、人間のように視覚を持ち、言葉の指示に従ってタスクを実行する。AIアシスタントは現実社会で周囲のオブジェクトを理解し、問われたことに対しリアルタイムで回答する。この処理を実行するためには、高速のイメージ処理と会話機能が求められ、Gemini Flashがこの要件を実現する。(下の写真:スマホカメラでオフィス内部をスキャンし、「音を発生するデバイスを見つけたら知らせて」と指示すると、AIアシスタントは「スピーカーを見つけた」と回答。)

出典: Google

Geminiの時代

今年のGoogle I/OはAIフロンティアモデル「Gemini」を主軸とする開発者会議となった。Geminiはチャットボットではなく、Google Cloudで社会のインフラを支える存在となる。また、検索エンジンにGeminiが組み込まれ、生成AI検索が標準となり、Googleのビジネスが激変する。更に、GoogleはGemini FlashでAIアシスタントのコンセプトを示し、AIがデジタルからリアルの社会に降りてきて、人間レベルの知能を持つ「AGI」に繋がる構想を明らかにした。

Google DeepMindは言葉の指示に従ってタスクを実行するAIエージェント「SIMA」を開発、3D仮想環境で人間レベルの知能を獲得することが目標、AGIへの重要なステップとなる

Google DeepMindは3月13日、3D仮想環境において言葉の指示でタスクを実行するAIエージェント「SIMA」を公開した(下の写真)。SIMAはビデオゲームのキャラクターであるが、人間が命令したことを実行するAIエージェントとして開発された。例えば、「木を切り倒せ」と指示すると、SIMAは3Dゲーム環境でこれを実行する。最終目標は人間と同じレベルのスキルを獲得することで、言語モデルが世界観を理解し、AGIへの重要なステップとなる。

出典: Google DeepMind

AIエージェントの研究

GoogleはAI研究部門「Google Brain」と高度AI研究所「DeepMind」を統合し、「Google DeepMind」を設立し、AI研究部門を再編した。Google DeepMindは、AIエージェント研究の最新成果「Scalable Instructable Multiworld Agent (SIMA)」を発表した。SIMAは3Dビデオゲーム環境で、自然言語の指示に従って、タスクを実行するAIエージェントとなる。

SIMAの概要と機能

3Dビデオゲームでキャラクターを操作するときは、キーボードやマウスを使い、動作の指示を入力する。例えば、キーボードからキャラクターの移動方向を指示するなどの使い方をする。これに対しSIMAは、自然言語(テキスト)で指示されたことを理解し、その内容を実行する。具体的には、ゲームの中のキャラクターに言葉で命令すると、その指示を理解してタスクを実行する。

SIMAの使い方

人気ゲーム「Goat Simulator 3」のキャラクター「ヤギ」に、「フェンスを跳び越せ」と命令すると、ヤギはその意味を理解してそれを実行する(下の写真右側)。また、ヤギに「クルマを盗め」という難解なタスク命令をすると、その意味を理解し、これを実行する(左側)。複雑な命令を受けると、SIMAはタスクをサブタスクに分割し、ステップごとにそれを実行し、最終ゴールに到達する。

出典: Google DeepMind 

SIMAを開発した意義:Embodied AI

SIMAはビデオゲームをするために開発されたのではなく、AIエージェントが3Dゲーム環境で世界観を理解し、言葉の意味を現実社会の事象に結び付けることを目標としている。具体的には二つの技法を獲得することが目的で:

  • 言葉の意味と見たものを結び付ける技法(Ground Language in Perception)
  • 3D仮想環境でタスクを実行する技法(Embodied Actions)

3D仮想環境で言葉の指示によりタスクを実行するAIは「Embodied AI」と呼ばれ、AI研究の重要テーマで、Google DeepMindの他にOpenAIやMetaなどが開発を進めている。(下の写真、Embodied AIの事例で3Dゲーム環境で言葉の指示に従ってテスクを実行。)

出典: Google DeepMind

SIMAの開発方法

SIMAは3Dビデオゲームを使って開発され(下の写真左側)、ここで展開されるキャラクターがAIエージェントとなる。上述の「Goat Simulator 3」というゲームの他に、「Satisfactory」(上の写真上段)や「Valheim」(下段)など9種類のゲームが使われた。このゲームを人間がプレーし、その操作方法(キーボードとマウスの操作法をテキストで記述)とスクリーンイメージをAIエージェントに入力し(中央)、モデルがスキルを学習する。教育されたモデルが人間の指示に従ってタスクを実行し、その結果を人間が評価する(右側)。

出典: Google DeepMind

SIMAの性能

この手法で教育を受けたSIMAは人間の命令に従ってタスクを実行する精度が向上した。SIMAを複数のゲームで教育した場合、単一のゲームで教育したSIMAに比べ、命令を正しく実行する精度が150%以上向上した(下のグラフ左端)。このベンチマーク結果は、SIMAを多種類のゲームで教育すると、精度が上がることを示しており、Google DeepMindは開発の規模を拡大する計画である。

出典: Google DeepMind

人間レベルのAIエージェント

次のステップとして、Google DeepMindはSIMAをより多くのゲーム環境で教育することで、SIMAの汎用能力(Generalizability)が向上すると期待している。汎用能力とは、人間のように、一つのスキルを学習すると、それを異なるタスクに適用し、柔軟に学習する能力を指す。これにより、SIMAは言葉を理解する能力が上がり、複雑なタスクを実行する能力に繋がる。この汎用能力が人間レベルのインテリジェンス「AGI」を開発するための重要なステップとなる。