キラーアプリはAIエージェント!!Googleは生成AI最新モデル「Gemini 2.0」とAIエージェント「Astra」と「Mariner」を投入

Googleは生成AIモデルの最新版「Gemini 2.0」をリリースした。Gemini 2.0は高性能なモデルであることに加え、AIエージェントを構成するための基礎技術となる。AIエージェントとは知的なAIモデルで、複雑なタスクを自律的に実行し、人間の作業を代行する存在となる。Googleは人間のように自立的に行動するAIエージェントの研究開発を重点的に進めており、この技術を人間レベルのインテリジェンスを持つAGI(Artificial General Intelligence)に拡張するとのビジョンを示した。

出典: Google

Gemini 2.0の概要

Gemini 2.0はシリーズの最新モデルで、性能が向上したことに加え、マルチモダル機能が強化された。オーディオやイメージやビデオを読み込むことができるだけでなく、これらを生成する機能が付加された。また、Gemini 2.0は検索エンジン(Google Search)やマップ(Google Maps)を操作することができ、人間のようにツールを使う機能が実装された。

Gemini 2.0 Flashを投入

今回の発表では「Gemini 2.0 Flash」が公開され、一般に利用することができるようになった。開発者はクラウド「Google Vertex AI」からAPI経由でこれを利用する。また、ブラウザーからは「2.0 Flush Experimental」として対話形式で利用できる(下の写真)。これは正式版の前のプレビュー版であるが最新機能を体験できる。

出典: Google

Gemini 2.0 Flashの特性

Gemini 2.0 Flashは軽量モデルで、高速で稼働することに加え、マルチモダル機能が強化された。Flashは処理速度が速く、リアルタイムでの反応が要求されるアプリケーションで利用される。その代表がAIエージェントで、Flashはマルチモダルを読み込み、これを高速で処理することで、リアルタイムでの会話が可能となった。また、基本性能が大きく向上し、ハイエンドモデルである「Gemini 1.5 Pro」を上回り、Geminiシリーズの最高速モデルとなった(下の写真)。

出典: Google

AIエージェント汎用モデル:Project Astra

GoogleはAIエージェントの汎用モデル「Project Astra」の最新版を公開した。Project Astraはスマートフォンに搭載されるAIエージェントで、カメラが撮影するビデオを入力とし、質問に会話形式で回答する。屋内や屋外で、スマホのカメラで撮影した映像についての質問にリアルタイムで回答する。公園に設置されている建造物について、「これは何か」と問いかけると、AIエージェントは「Eve Rothchildが制作した「My World and Your World」という作品である」と回答する(下の写真)。AIエージェントは入力されたビデオを瞬時に解析し、自然な対話で回答する。

出典: Google

AIエージェント専用モデル:Project Mariner

Googleは特定のタスクに特化した機能を持つAIエージェント「Project Mariner」を公開した。Project MarinerはChromeブラウザーの拡張機能(Extension)として実装され、ウェブサイトで指示されたタスクを実行する。例えば、「Google Arts and Culture」のサイトでカラフルな絵を見つけるよう指示すると、AIエージェントはこのサイトにアクセスし、タスクを実行する。更に、Eコマースサイト「Etsy」でカラフルな絵の具を購買するように指示すると、それを実行し、商品を購入バスケットに入れる(下の写真)。但し、支払い処理のプロセスでは、人間の判断を仰ぎ、利用者が最終判断を下す。

出典: Google

ウェアラブル向け基本ソフト:Android XR

Googleはウェアラブル向けの基本ソフト「Android XR」を発表した。これはヘッドセットやスマートグラス向けの基本ソフトで、ARやVRを融合したXR(Extended Reality)のプラットフォームとなる。Android XRにGemini 2.0が組み込まれ、これをXRグラスに搭載することで、ウェアラブルでAIエージェントを利用できる構造となる。GoogleはQualcomm及びSamsungと共同で開発し、Android XRはパートナー企業が開発するXRグラスに搭載される。また、Googleも独自のXRグラスを開発しており、AIエージェントが日常生活における秘書の役割を担う。市街地でレストランの場所を尋ねると、AIエージェントがXRグラスに道順やレストランの情報を表示し、目的地までナビゲーションする(下の写真)。

出典: Google

AIエージェントの時代に

生成AIはインテリジェンスを提供するプラットフォームで、この基盤で様々なアプリケーションが開発されている。その中で、人間に代わり作業を代行するAIエージェントに注目が集まっている。AIエージェントは従来のソフトウェアと異なり、人間が介在することなく自律的に業務を実行し、企業のビジネスプロセスを高度に自動化すると期待されている。Googleの他に、OpenAIやMetaがAIエージェントの開発を重点的に進めており、2025年は多彩なモデルが投入されることになる。

OpenAIは推論モデル正式版「o1」をリリース、考察力が格段に向上したが危険性も大きく増大、フロンティアモデルの安全性を評価する技術の開発が始まる

OpenAIはクリスマスまでの12日間に集中して新製品を発表している。初日の12月5日は、推論モデル「o1」の正式版をリリースした。o1は推論機能が格段に向上したことに加え、サイバー攻撃を防御する機能も大きく進化した。一方で、兵器を製造するスキルが大きく向上し、新たなリスクを低減するための技法が求められる。モデルのインテリジェンスが増すと新たな脅威が生まれ、推論モデルを安全に開発運用するセーフティ技術が重要な研究テーマとなる。

出典: OpenAI

システムカード

OpenAIは「o1」正式版のリリースに合わせモデルの仕様書となる「システムカード(System Card)」(下の写真)を公開した。システムカードはモデルの機能や性能を詳しく説明するドキュメントで、これが運用上の使用手引きとなる。同時に、システムカードはモデルの危険性を評価した結果を詳細に報告しており、安全技術を開発するための重要な資料となる。

出典: OpenAI

リスク評価の結果

システムカードはモデルのリスク評価を重点項目とし、その手法や結果を詳細に報告している。これによると、o1は攻撃への耐性が格段に強化され、シリーズの中で最も強固なシステムとなった。具体的には、リスク評価は下記の項目からなり、いずれの項目もo1は現行モデル「GPT-4o」の性能を上回った。

  • コンテンツ制御(Disallowed content):有害コンテンツを出力する危険性
  • ジェイルブレーク(Jailbreak):プロンプトによりシステム制御を奪う攻撃
  • 教育データの出力(Regurgitation):教育データをそのまま出力する危険性
  • ハルシネーション(Hallucination):事実でないデータを出力する危険性
  • 公平性・バイアス(Fairness and Bias):不公平でバイアスしたデータの出力
出典: OpenAI

サイバーセキュリティが向上

o1製品群はGPT-4oに比べてジェイルブレークを防御する安全機能が格段に向上した(下のグラフ)。ジェイルブレーク(Jailbreak)とは、悪意あるプロンプトを入力し、システムの制御を奪う攻撃で、AIモデルを安全に運用するための障害となっている。o1の安全機能が向上した理由は、サイバーセキュリティに推論機能が導入されたことによる。これは「chain-of-thought reasoning」と呼ばれ、問題を複数のステップに分解し、逐次的に推論を行う手法で、安全指針に沿っているかどうかの判断を的確に実行し、ジェイルブレークなどのサイバー攻撃を防御する。

出典: OpenAI

新たな危険性が生まれる

一方で、o1は兵器開発スキルなどが向上し新たな危険性が生まれた。兵器製造スキルは「CBRN」と呼ばれ、化学生物兵器や核兵器などを製造する機能を指す。敵対国がo1を悪用することで高度な兵器を開発するリスクが高まり、OpenAIなど先進企業はこの危険性を査定し、安全対策を導入する作業を進めている。

兵器製造のスキルが向上

o1のケースでは科学者など専門家がモデルを悪用して兵器開発のプロセスを効率化する危険性が高まった。o1製品群の生物兵器開発のスキルに関しては、人間のエキスパートの能力を大きく上回る(下のグラフ、人間のエキスパートのレベルは破線で、AIモデルのレベルは青丸で示されている)。このため、OpenAIはo1最新モデルに安全対策を施しこのリスクを低減した。具体的には、o1の教育データから兵器製造に関する情報を削除するなどの対策が取られた。ただし、安全対策を施したo1のリスクレベルについての情報は開示されていない。

出典: OpenAI

リスク評価フレームワーク

OpenAIはo1を含むフロンティアモデルの危険性を評価するフレームワーク「Preparedness Framework Evaluations」を制定し、安全試験を実施しモデルの危険性を評価し、それに応じた対策を講じている。評価項目は四つの分野から成り、完全試験の結果に従って、リスクレベルが格付けされる。o1は「Cybersecurity(サイバー攻撃のスキル)」と「Autonomy(自律性)」のリスクは低いと評価されたが、「CBRN(兵器製造スキル)」と「Persuasion(説得力)」のリスクが中程度となる。出荷基準は中程度以下のリスクレベルで、OpenAIはo1製品を出荷することができると判定した。

出典: OpenAI

推論モデルは危険性が向上

o1システムカードは推論機能が導入されるとモデルの機能が格段に向上するが、危険性も大きく増大することを示している。兵器開発スキルだけでなく、目的を完遂するために人間を欺くスキルも増大した。これらフロンティアモデルを安全に運用するためにはリスクを査定する試験技術と、リスクを低減する安全技術が求められる。2025年は各社からフロンティアモデルの出荷が始まるが、AIセーフティに関する研究開発が最重要テーマとなる。

Alibabaは生成AI推論モデル「QwQ」をオープンソースとして公開、ベンチマークでOpenAIを上回る、AI開発で米中間のギャップが縮まる

Alibabaは推論モデル「QwQ」をリリースしこれをオープンソースとして公開した。推論モデルはと論理的な思考ができるAIで、指示されたタスクを分類整理して筋道を立てて結論を導く。インファレンスのプロセスでは複数の考え方を実行し、その中から最も確からしい結果を回答として出力する。OpenAIは推論モデル「o1」をリリースしたが、その直後に、AlibabaはQwQを公開し、OpenAIの性能を上回る実力を示した。中国企業は推論モデルの分野で高い実力を示しており、AI開発で米中間のギャップが縮まっている。

出典: Alibaba

QwQの概要

Alibabaは11月28日、推論モデル「QwQ-32B-Preview」をリリースした。Alibabaは大規模言語モデル「Qwen」を開発しており、この部門が研究開発のプロジェクトとして推論エンジンQwQ (Qwen with Questions) を開発した。QwQはオープンソースとして公開され、誰でも自由にこのモデルを利用することができる。QwQ-32B-Previewは製品化前のプレビュー版で、機能に制約があるものの、実際に使ってみて推論機能の完成度を検証することができる。

モデルの構成

QwQ-32B-PreviewはAlibabaの大規模言語モデル最新版「Qwen2.5」(下の写真)をベースに構築された推論モデルとなる。パラメータの数は32.5Bで、プレ教育されたQwen2.5をポスト教育のプロセスで推論機能を付加した構造となる。QwQは回答を提示する前に、深い考察を実行し、問われたことに対し最適な解を選ぶ。実際に、QwQはインファレンスのプロセスで、複数の推論を設定し、それらをステップごとに考察を進め結論を導く。最終的に、複数の結論を検証して、問われたことに対しベストな解答を選び、これを出力する。

出典: Alibaba

実際に使ってみると

QwQのインターフェイスが公開されており、実際に使って推論機能を検証できる。推論モデルを試験する典型的な質問は「”Strawberry”という単語に”r”はいくつあるか」で、実際に、QwQにこの問題を質問した。QwQは問われたことを整理して、筋道を立てて検証を進め、正しい結論を引きだした。QwQは単語の文字を一つずつ検証し、これが”r”かどうかを判定し、答えは「3」と回答した(下の写真)。

出典: Alibaba

推論のループ

上記の質問は代表的なベンチマークで、多くのモデルはこれを解くことができる。今度は、単語のスペルを間違えたケースでQwQに質問した。「”Strrawberrry”という単語に”r”はいくつあるか」という問いを入力した(下の写真)。QwQは上述の論旨を適用し、答えは「5」であると正しい回答を引き出した(左側)。しかしこのケースでは、その他の推論法式を導入し、この答えが正しいかどうかを検証する作業を始めた。検証プロセスでも答えは「5」であるとの結論に到達した。しかし、QwQは更に、別の考え方を導入し、答えが正しいかどうか、再度検証を進めた。最終的には、検証プロセスがループ状態となり(右側)、最終解を提示することができなかった。途中経過では正しい答えを算出したが、これを確認するプロセスで“考えすぎ”により解を生成できなかった。この状態は「Recursive Reasoning Loops」と呼ばれ、AlibabaはQwQの制限事項として説明している。

出典: Alibaba

ベンチマーク結果

AlibabaはQwQの性能についてそのベンチマークテストの結果を公開している(下のテーブル)。これによると、四種類のベンチマークテストのうち二つの種目で、QwQがOpenAI o1-previewを上回っている。これらはAIMEとMATH-500で、どちらも数学の技能を査定するもので、前者は中学生レベルで、後者は数学を経済やビジネスに応用する手法を検証するもので大学生レベルの機能となる。QwQは推論モデルであるが特に数学の機能に特徴がある。OpenAIはo1-previewを9月にリリースしており、Alibabaは二か月ほどでこれを上回ったことになる。

出典: Alibaba

プレ教育からポスト教育に

OpenAIを筆頭に多くのAI企業は開発戦略を見直し、AIモデルの規模の拡大から推論機能の強化に重点を移している。推論機能とは人間のように論理的な思考ができるモデルで、コーディングや数学など科学技術の分野で威力を発揮する。開発技法の観点からは、大規模言語モデルの開発で、プレ教育からポスト教育に比重が移っている。プレ教育はインターネット上のデータでアルゴリズムを教育する手法であるが、モデルの規模を拡大しても性能が上がらないという問題に直面している。このため、ポスト教育でモデルを再教育することで、アルゴリズムをインテリジェントにし、推論機能を強化する手法が取られている。大規模言語モデルの開発はポスト教育が技術競争の主戦場となった。

OpenAIは推論モデル「o1」をリリース、GPTシリーズとは異なる製品ラインを形成、論理的な思考ができるモデルで知能が大きく向上

OpenAIは推論モデル「o1」をリリースし新たな市場を切り開いている。推論モデルとは人間のように論理的な思考ができるAIで、与えられたテーマを分類整理して、筋道を立てて結論を導く機能を持つ。科学や数学やコーディングで高度な機能を発揮するが、政治や経済など社会生活に関連する分野でも論理的な議論を展開する。GPT-4oなどGPTシリーズは汎用的な機能を提供するが、o1は複雑なタスクを実行でき科学技術分野に強みを発揮する専用モデルとなる。実際に使ってみると両者の違いが際立ち、o1はインテリジェンスが強化されていることを実感する。

出典: OpenAI

製品概要

OpenAIは推論モデル「o1-preview」とその小型版「o1-mini」をリリースした。これらは製品化前のプレビュー版で、未完成のモデルであるが推論機能を体験することができる。「o1」はGPTシリーズとは異なる新たな製品ラインを形成する。o1はインファレンスのプロセスを強化したモデルで、問われたことを即座に回答するのではなく、熟慮して最適な解を生成する。o1は複雑な問題を解決することに強みを発揮し、科学、数学、コーディングで高度な機能を示す。

推論機能を理解する

o1の基本機能は推論(Reasoning)で、問われたことを整理して、筋道を立てて解釈を進め、結論を引き出す。実際に、物理に関する問題を問うと、o1はこれを順序立てて考え解を導き出した(下の写真)。「カップにイチゴを入れて、これをひっくり返し、カップを電子レンジに入れると、イチゴはどこにあるか」との質問に、o1はこの質問をステップごとに解析し、回答にたどり着いた:

ステップ1:初期状態、カップにイチゴを入れる

ステップ2:カップをひっくり返す、イチゴはテーブルと接触

ステップ3:カップを取り上げる、イチゴはテーブルに留まる

結論:イチゴはテーブルの上にあり、電子レンジには入らなかった

o1はプロセスを順序立てて考察することで解を引き出すことができた。

出典: OpenAI

他のモデルはこの問題を解けない

この問題は人間にとっては常識であるが、大規模言語モデルはこれを解くことができない。OpenAIを含む主要企業のハイエンドモデルにこの問題を質問したが、どのモデルも正解を導くことができなかった。モデルの回答を纏めると:

  • OpenAI GPT-4:イチゴはひっくり返したカップの中にある (下の写真)
  • Google Gemini 1.5 Pro:カップをひっくり返すとイチゴはカップ内に留まる
  • Anthropic Claude 3 Opus:イチゴは重力で下に落ちるが、カップをひっくり返すとイチゴはカップ内に留まる

これらのモデルの推論の過程を検証すると、どのモデルも物理法則を理解しているが、これを実際のモデルに適用することができない。論旨は事実ではなくハルシネーションで、大規模言語モデルの限界を示している。

出典: OpenAI

言葉でコーディング

o1はコーディング機能が大きく進化し、言葉だけでプログラムを生成することができる。o1にビデオゲーム「Snake Game(ヘビゲーム)」をコーディングするよう命令すると、これに従ってプログラムを生成する。その際に、プログラム言語やゲームの仕様を指示すると、これらを正確に反映する。「Snake GameをHTMLをベースにJSとCSSでコーディングし、カーソルの操作をWASDキーで行う」と指示すると、ブラウザーで稼働するHTMLベースのゲームを生成した(下の写真上段)。これを実際にブラウザーで稼働させるとSnake Gameが起動した(下段)。

出典: OpenAI

トランプ政権の関税政策についてアドバイスを求めると

o1は政治経済に関する政策を論理的に解析する機能があり、経済政策を評価するツールとして使うことができる。トランプ次期大統領は中国からの輸入品に40%の関税を上乗せするとしており、この政策についてo1に意見を求めた(下の写真)。o1は関税の仕組みを説明し、この政策のメリットとデメリットについて評価し、結論を導き出した。米国が関税を中国との交渉の手段として使うことで、有利な条件を引き出せるが、国内で輸入品の価格が上がり、また、報復関税などデメリットが大きいと解析。o1は、関税を上乗せすることは実質的にマイナス面が大きいとして、この政策を見直すよう提言している。

出典: OpenAI

トランプ政権の関税政策に日本はどう備える

トランプ次期大統領は同盟国からの輸入品に10%から20%の関税を上乗せするとしており、o1に日本が取るべき対策について尋ねた(下の写真)。o1はアメリカの関税引き上げに対する日本が取るべき政策を10項目示し、これらのオプションを検討し多角的なアプローチが必要であると提言した。特に、外交による交渉を進めながら、他国と連携して世界貿易機関(WTO)に提訴する準備を推奨。また、(トランプ政権により日米関係は抜本的に変わるので)、新しい市場の開拓や貿易相手国を模索することも必要と助言した。

出典: OpenAI

o1の使い方

o1を使ってみると今までの大規模言語モデルとは特性が大きく異なる。従来モデルであるGPT-4oは、テキストやイメージやオーディオを生成するマルチモダルで、汎用的なプロセッサとなる。これに対し、o1は極めて高度な専門性を持ち、量子力学、遺伝子工学、ヘルスケア、経済学などの分野で複雑なタスクを実行できる。人間に例えると、GPT-4oは大学生のレベルで、o1は大学教授に匹敵し、専門分野の共同研究者として使うことができる。

推論機能を強化する手法

o1はGPT-4oなど他の言語モデルと同様にプレ教育されたモデルであるが、実行時に計算資源がアサインされ、インファレンスのプロセスを強化したモデルとなる。インファレンスの処理で即座に回答を生成するのではなく、与えられたタスクを解決するために熟慮するプロセスが追加された。具体的には、複数の解を生成し、これを検証して最適な解を選ぶ方式となる。実際に、「Snake Game」のコーディングでは、インファレンスに33秒の時間が費やされた。この方式は「Test Time Compute」と呼ばれ、実行時のプロセスが強化され、これにより高度な推論機能を得た。

大規模言語モデルの開発ペースが大幅にスローダウン!!OpenAIの次期モデルの性能が上がらない、開発戦略の見直しを迫られる

OpenAIは次期フラッグシップモデルを開発しているが、性能が上がらないという問題に直面した。次期モデルのコードネームは「Orion」といわれ、GPT-4の後継機種となる。当初は今年末までにリリースされるといわれてきたが、これが来年にスリップした。Orionは巨大なモデルであるが、規模を拡大してもそれに応じて性能が伸びない。生成AIモデルの性能が限界に達したという解釈もあり、この壁を乗り越えるためのイノベーションが求められる。

出典: Adobe Stock

OpenAIの次期フラッグシップモデル

OpenAIは次期モデルについて何も発表していないが、CEOのSam Altmanはこのモデルを近いうちにリリースすると示唆している。Xに「冬の星座が近いうちに上昇する」と書き込んだ(下の写真)。冬の星座は「Orion(オリオン座)」(上の写真)であり、そのリリースが近いことを暗示している。次期モデルのコードネームは「Orion」といわれ、今年中に公開されるとみられてきた。

出典: Sam Altman

性能が上がらない

Altmanは次期モデルは博士号取得者に相当する知能を持ち、現行のGPT-4から機能が大きく飛躍すると述べてきた。しかし、次期モデルの開発は9月に完了したが、目標の性能に到達することはできず、OpenAIはこのモデルの出荷を見合わせた。アメリカのメディアが報道した。GPT-3とGPT-4の間には大きな性能差があるが、GPT-4から次期モデルの間では大きな性能の伸びを達成できなかった。

性能が伸びない原因

次期モデルの性能が上がらない原因はアルゴリズムを教育するデータといわれている。モデルのプレ教育では、ソーシャルメディアや書籍やウェブページなどをインターネットからスクレイピングして使っている。しかし、公開されているデータの量や質には限りがあり、次期モデルの開発では高品質なデータを充分収集することができなかった。特にプログラムのコーディング機能に関しては問題は深刻で、次期モデルの性能はGPT-4と大きな違いはない。インターネット上のデータを使い尽くしたとも解釈される。

研究テーマ1:教育データ

OpenAIはこの問題を解決するためチームを創設し、性能向上のための技法を検討している。最大の原因が教育データの不足で、高品質なデータを取り揃えるための技法を模索している。その一つがデータを人工的に生成する手法で、合成データ(Synthetic Data)と呼ばれる。AIモデルでデータを生成し、これを次期モデルの教育で利用する。これからのAIモデル開発では合成データが主流になるとの予測もある(下のグラフ)。また、OpenAIは主要な出版社とライセンス契約を締結しており、これらの企業から高品質なデータの供給を受ける。

出典: Gartner

研究テーマ2:ポスト教育

OpenAIはプレ教育したモデルをファインチューニング(Fine-Tuning)することで性能を改良するアプローチを研究している。これはポスト教育と呼ばれ、プレ教育されたモデルを高品質なデータで再教育することで性能を上げる。また、人間がインストラクターとなり、モデルに正しい回答を教える。この手法は「Reinforcement learning from human feedback(RLHF)」と呼ばれ、現行モデルに適用されているが、このプロセスを強化する。

ベンチャーキャピタルの評価

OpenAIだけでなく他社モデルも含めて、大規模言語モデルの性能が限界に到達したとの解釈が広がっている。大手ベンチャーキャピタルAndreessen HorowitzのBen Horowitzは大規模言語モデルがスケーリングの限界(point of diminishing returns)に到達したと述べている。プロセッサGPUの性能は定常的に向上しているが、ここで開発されるモデルの性能が伸びないことは、原因はアルゴリズムにあるとの解釈を示している。

Googleのアプローチ

この問題に関し、言語モデル開発企業はAIモデルのボトルネックを考察し、これを改良する研究を進めている。Googleはモデルがデータから学習するメカニズムを解析し、人間のように少ないデータで効率的に学習する手法を研究している。アルゴリズムを最適化する手法は「ファインチューニング(Fine-Tuning)」と呼ばれ、プレ教育したモデルを再教育して、特定のタスクを効率的に実行させるために実施される。これに対し、Googleはプレ教育を効率的に行うため、モデルの構造自体を最適化するアプローチを取る。これは「ハイパーパラメータ・チューニング(Hyperparameter Tuning)」といわれ、トランスフォーマの構造を改良する作業となる。(下の写真、トランスフォーマの基本構造)

出典: AIMultiple

スケーラビリティの壁を乗り越える

大規模言語モデルはスケーラビリティを示してきたが、2024年は規模を拡大しても性能が伸びないポイントに差し掛かっている。この状況を打開するには、規模拡大というアプローチだけでなく、モデルの構造を最適化する手法や、ファインチューニングの新技術を模索するなど、新たな研究開発が求められる。スケーラビリティの壁を乗り越えるため、2025年はAI開発でイノベーションが求められる年となる。