カテゴリー別アーカイブ: 人工知能

Google「Gemini 3」はベンチマークテストで他社を圧倒!!AI市場で独走態勢に突入、マルチモダル推論機能が格段に向上しAGIに向けて大きく前進

Googleは11月18日、最新モデル「Gemini 3」を発表し、同日に製品をリリースした。Gemini 3はベンチマークテストでトップの性能を示し他社を圧倒した。AI開発競争でGoogleがOpenAIやAnthropicを大きく引き離し独走態勢に突入した。Gemini 3はマルチモダルと推論機能が格段に強化され、高度なAIエージェントを構築するベースとなる。DeepMindのCEOであるDemis Hassabisは「AGI開発に向けた大きな一歩となる」と述べた。実際に使ってみると、Gemini 3は高度なインテリジェンスを発揮し、AGIエージェント時代に突入したとの印象を受けた。

出典: Generated with Google Gemini 3 Pro

製品構成

Googleは二つのモデル、「Gemini 3 Pro」と「Gemini 3 Deep Think」、をリリースした。前者はベースモデルで日々の業務やAIエージェントの基盤技術となる。後者は推論機能を強化したモデルで、長時間にわたる考察を通し極めて複雑なタスクを実行する。Googleは検索エンジンの「AI Mode」にGemini 3 Proを導入しサーチ機能が大きく向上した。

Gemini 3 Proの性能

Gemini 3 Proは業界の標準ベンチマークテスト「LMArena Leaderboard」で二位を大きく引き離しトップの性能をマークした(下のグラフ)。xAI Grok-4.1がトップであったがGemini 3 Proが1501をマークし大きく躍進した。LMArena Leaderboardは利用者のフィードバックで性能を決めるベンチで世論調査による性能評価となる。これは利用者の実感を反映したもので、Gemini 3は大きなメリットを感じるモデルとなる。

出典: LMArena Leaderboard / Generated with Google Gemini 3 Pro

Gemini 3 Deep Thinkの性能

Gemini 3 Deep Thinkはベースモデルを拡張したもので、推論機能とマルチモダルを理解する能力が大きく向上した。Gemini 3 Deep Thinkは極めて複雑な問題を解決するために使われる。Gemini 3 Deep Thinkは最も難解なベンチマーク「Humanity’s Last Exam」でGPT-5 Proを引き離してトップの成績をマークした(下のグラフ、左側)。また、AIモデルの知能指数を測定するベンチマーク「ARC-AGI-2」では、Gemini 3 Deep ThinkはGPT-5.1の2.5倍の性能をマークし、インテリジェンスの高さを示した(下の写真、右側)。また、前世代モデルGemini 2.5から性能が10倍近く向上し、Gemini 3 Deep Thinkは推論機能が格段に向上したことが分かる。

出典: Google

コア機能#1:理解能力

Gemini 3はマルチモダルの推論機能がエンハンスされ、マルチメディアのコンテンツを理解する能力が格段に進化した。イメージやビデオを読み込みその内容を理解する。ピックルボール(Pickleball)の試合のビデオを入力し(下の写真、左側)、Gemini 3に「右手前のプレーヤの動きを解析し、スキルを向上するためのアドバイス」を求めると、モデルは「パドル(ラケット)の位置が下がる傾向にあり、常にお腹の高さに構えておくこと」と助言した(右側)。Geminiがスポーツ競技のコーチとなり、プレーヤに的確なアドバイスを行う。

出典: Google

コア機能#2:開発能力

Gemini 3の最大の特徴はプログラム・コーディングなど開発能力が格段に向上したことにある。これは「バイブコーディング(Vibe Coding)」とも呼ばれ、シンプルなプロンプトでGemini 3がホームページを開発し、ビデオゲームを生成する。Gemini 3に「レトロなイメージの3D宇宙船ゲームを開発しブラウザーに展開」と指示すると、それを開発しそれをHTMLファイルに格納する。ゲームはJavaScriptベースのWebGLで可視化され、これをブラウザーに展開してゲームをプレーする(下の写真)。ゲームボーイ(Game Boy)などに搭載されているゲームはバイブコーディングで生成できる。

出典: Google

コア機能#3:計画能力

計画能力とは複雑なタスクを完遂するために長期レンジのプランを策定しこれを実行する機能となる。AIエージェントのコア技術でGemini 3は計画機能が大きく向上した。計画能力を査定するベンチマークの代表が「Vending-Bench 2」で、AIエージェントが人間に代わり自動販売機の管理を司り、指定された期間の収入を比較するものとなる(下の写真)。

出典: Andon Labs

Vending-Bench 2で、主要モデルをAIエージェントとして360日間稼働させると、Gemini 3 Proがトップの性能をマークした(下のグラフ)。収入額は5,462ドルで二位のClaude Sonnet 4.5の3,840ドルを大きく上回った。Gemini 3はAIエージェントのコア技術としてデザインされているがその実力を発揮した。

出典: Google

実際に使ってみると:Google AI Studio

Gemini 3 Proはアプリとクラウド「Google AI Studio」(下の写真)で使うことができる。実際に使ってみると、Gemini 3 Proはコーディング能力が大きく進化したと感じる。バイブコーディングを体験でき、本当に言葉だけでプログラムを開発できる。Gemini 3 Proに「会社が主催するダンスパーティーのイベントに関するホームページを生成」するよう指示すると(下の写真、中央部)、ウェブサイトのランディングページを生成した。

出典: Google Gemini 3 Pro

実際に使ってみると:ホームページ

ホームページはHTMLで記述されそれをブラウザーで閲覧するとデザインを見ることができる(下の写真)。ここでは「未来志向のデザイン」とプロンプトで指示しており、その命令が反映されたページが生成された。このページでイベントの概要を読み、RSVPボタンをクリックして、チケットを購入する。プログラミングの知識がなくてもプロンプトで本格的なウェブサイトやコードを生成することができ、ソフトウェア開発は新たな時代を向けたことを実感する。

出典: Google Gemini 3 Pro

AGIに向けた大きな一歩

三年前にChatGPTがリリースされ、生成AIブームが起こり、OpenAIがAI市場をリードしてきた。その後、Googleは「Google Brain」と「DeepMind」を統合し、AI研究所「Google DeepMind」を創設し、基礎研究と製品開発を一本化した。GPTシリーズの対抗モデルとしてGeminiシリーズを投入し、OpenAIを追いかけてきた。ついに、Gemini 3で順位が逆転し、GoogleがAI市場のトップに立った。GoogleはGeminiをAIエージェントのプラットフォームと位置付け、Gemini 3はAGI開発に向けた大きな一歩をしるした。

【捕捉情報:Gemini 3 Proのベンチマークテスト結果】

推論機能・一般知識

Gemini 3は推論機能が大幅に強化され、全てのベンチマークテストで競合他社のモデルの性能を上回った。最難関のベンチマークテスト「Humanity’s Last Exam」でGemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

数学・ロジック

AGIの達成度を査定するベンチマークテスト「ARC-AGI-2」で、Gemini 3 Deep ThinkだけでなくGemini 3 Proもトップの性能をマーク(下のグラフ、左端)。

出典: Google / Generated with Google Gemini 3 Pro

ビジョン・マルチモダル

Gemini 3はマルチモダル機能が強化され全てのベンチマークテストで競合他社のモデルの性能を上回った。PC画面のGUIを理解する機能を査定するベンチマークテスト「ScreenSpot-Pro」で他社を大きく上回り、AIエージェントとしてツールを使う機能の高さが示された。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

コーディング・エージェント

Gemini 3はコーディング機能で他社を上回ったが、「SWE-Bench」でClaude Sonnet 4.5に及ばなかった。SWE-BenchはAIエージェントのエンジニアリング機能を査定するベンチマークテスト。(下のグラフ、左から二番目)。

出典: Google / Generated with Google Gemini 3 Pro

Teslaは自動車メーカーからロボティックス企業に転身!!ヒューマノイドとロボタクシーが中核技術、半導体ファブを建設しAIチップを製造

Teslaは11月6日、株主総会を開催しElon Muskへの1兆ドルの報酬パッケージが承認された。これを受けて、Muskは規定されたゴール(Trench)を達成するために、企業の新たなビジョンを解説した。Muskは、Teslaは “サステイナブル・アバンダンス(Sustainable Abundance)”企業に転身した、と宣言した。コアビジネスはヒューマノイド・ロボットと自動運転で、高度なAIをフィジカル社会に展開する。このために膨大な量のAIチップが必要となり、Teslaは半導体ファブを建設し自社でAIチップを製造する。会場ではロボットがダンスし、参加者が歓声をあげ、ロックコンサートのようなバイブで株主総会が進んだ(下の写真)。

出典: Tesla

サステイナブル・アバンダンス

Muskは、Teslaは新たなチャプターに足を踏み入れたのではなく、全く新しい会社に転身したと説明した。また、Teslaの社是は「サステイナブル・アバンダンス(Sustainable Abundance)」で、自然や社会環境を保全しながら、テクノロジーの恩恵を幅広く消費者に届ける(下の写真)。サステイナブル・アバンダンスは持続可能な豊かさを意味し、AIやロボティックスにより商品やサービスの価格が劇的に下がり、万人が豊かな生活ができる社会が到来する。

出典: Tesla

ヒューマノイド・ロボット

Teslaはヒューマノイド・ロボット「Optimus」(下の写真)を開発しており、Muskはロボットが会社の最重要製品になるとのビジョンを示した。消費者向けには、各人が1台のロボットを所有する時代が始まる。企業向けには、社員が3-5台のロボットを使って業務を実行する形態になる。報酬パッケージのゴールの一つがOptimusを100万台販売することで、Muskはヒューマノイド・ロボットの販売台数はスマートフォンを上回るとの見通しを示した。

出典: Tesla

ヒューマノイド・ロボットの開発状況

Teslaは自動運転車を開発しており、クルマを四輪ロボットとして捉えることができる。これをヒューマノイド・ロボットに展開することになり、Teslaは既存技術を活用でき有利なポジションにいる。Teslaはシリコンバレーの製造施設で、ヒューマノイド・ロボットの製造開発を進めている(下の写真)。現行のOptimusは「V 2.5」であり、2026年にはこれを「V3」のアップグレードする。更に、2027年には「V4」を2028年には「V5」を開発し、ロボットは人間レベルに急成長する。

出典: Tesla

自動運転技術

Teslaは自動運転技術「Full Self-Driving (FSD)」を開発しており、カメラをセンサーとしクルマが自律的に走行する。現行モデルは「V14.1」で「FSD Supervised」と呼ばれ、人間のスーパービジョンのもとで自動走行する。次期モデルは「V14.2」と「V14.3」で、技術が大きく進化し、人間が監視する必要は無く、クルマが完全自動で走行する。これは「FSD Unsupervised」と呼ばれ、ドライバーは運転中にスマホでテキストメッセージを送信できる。「V14.3」は2025年末までにリリースされる。

出典: Drive Tesla

サイバーキャブ

Teslaはロボタクシー「サイバーキャブ(Cybercab)」の開発を進めており、クルマはステアリングやペダルの無い専用モデルとなる(下の写真)。クルマは完全自動運転でドライバーの介在なく目的地まで走行する。

出典: Tesla

サイバーキャブ製造

サイバーキャブは2026年4月からテキサス州の製造施設「Giga Texas」で生産が始まる(下の写真)。サイバーキャブはクルマより電化製品に近い構造で、生産プロセスを自動化し大量生産する。初期の生産台数は年間200万台から300万台で、最終ゴールは年間500万台となる。

出典: Tesla

AIチップ

Teslaはクルマやロボットに搭載するAIチップを自社で開発している。次世代モデルは「AI5」と呼ばれ、現行モデルから性能が50倍向上する(下の写真)。AI5はインファレンス専用チップで、開発されたAIモデルを実行するために使われる。更に、トランスフォーマの重みの計算では浮動小数点ではなく整数が使われる。これにより演算速度が大きく向上し、AI5はNvidia Blackwellに匹敵する性能を1/10のコストで実現した。但し、AI5とBlackwellはアーキテクチャが大きく異なり、対等に比較することは難しい。AI5はTeslaが開発したAIモデルだけに適用される専用プロセッサで、これに対し、Blackwellは広範囲なAIモデルを稼働させることができる汎用プロセッサとなる。

出典: Tesla

半導体製造ファブ

MuskはAI5など自社製AIプロセッサを製造するためのファブを建設することを明らかにした。これは「Terafab」と呼ばれテキサス州オースティンに建設される。TeslaはAIプロセッサの製造をTSMCやSamsungに委託しているが、新たなロードマップでは大量のAIチップが必要となり、アウトソーシングだけではこの需要を満たすことができない。このため、Muskによると、Intelと提携してファブを建設する。製造量は月産10万ウェーファで、AIチップをクルマ、ロボタクシー、ヒューマノイド・ロボットに搭載する。(下の写真、Terafabの想像イメージ)

出典: Google Gemini 2.5 Flash Image

分散コンピューティング

この構想によりTesla車両には最新のAIチップが搭載され、100万台を超えるクルマが高速プロセッサを運用する。これらのAIチップを連結すると100ギガワット相当の巨大なデータセンタとなる。Muskこれを「Distributed AI Inference Fleet」と呼び、AIモデルを実行するための分散コンピューティング環境となる。ギガワットクラスのデータセンタの建設が進むが、テスラ・フリートが新方式のデータセンタとなる。

サプライチェーンの強化

Teslaはバッテリーのコアコンポーネントであるリチウムの精錬施設の建設を開始した。この施設は「Lithium Refinery」と呼ばれ、テキサス州コーパスクリスティに建設され、リチウムの原料となる鉱石からバッテリーで使う高純度なリチウムを抽出する。また、Teslaはバッテリーのカソードを製造するための工場を建設している。この施設はクルマを製造している「Giga Texas」(テキサス州オースティン)の施設内に建設される。これにより、レアアースを輸入に依存することなく、自社で製造することでサプライチェーンを強化する。(下の写真、Teslaが運用するバッテリー製造工場)

出典: Tesla

Teslaの企業価値

Muskは基調講演の冒頭でTeslaは「サステイナブル・アバンダンス(Sustainable Abundance)」企業に転身したと宣言した。AIやロボティックスや自動運転技術で、製品やサービスの価格が劇的に低下し、Teslaは技術の恩恵を幅広く提供する。Muskはこれにより社会から貧困を撲滅できるとの見解を示した。Teslaのコア技術がロボティックスで、Optimusが企業価値の80%を担うことになる。(下の写真、太陽光発電の電力を貯蔵する大規模バッテリーアレイ)

出典: Tesla

米国で家庭向けヒューマノイド・ロボットの販売開始、価格は2万ドルで家事をこなす、AIフロンティアモデルがロボットの頭脳となり自動でタスクを実行する能力を獲得

シリコンバレーのスタートアップ企業1Xはヒューマノイド・ロボット「NEO」の販売を開始した。NEOは家庭向けのロボットでお手伝いさんとして掃除や洗濯などの家事を実行する(下の写真)。NEOの価格は2万ドルで来年から出荷が始まる。NEOは大規模AIモデルを搭載し、汎用的にタスクを実行するスキルを獲得した。AIの進化でロボティックスが急進し、ヒューマノイド・ロボットが生活の一部となる。一方、難しいタスクは人間がテレオペレーションで実行する仕組みで、全自動で家事をこなすまでには時間を要す。

出典: 1X

NEOの主要機能

NEOは人間の形状を模したヒューマノイド・ロボットで、二足で歩行し、二本の腕と五本の指を持つ手から構成される。NEOはセーターを着装し温かみを演出する。NEOは言葉を理解し、口頭での指示に従ってタスクを実行する(下の写真)。ドアの開閉、電灯の消灯、部屋の片づけ、植物への水やりなどをこなす。一方、洗濯、食器洗い、ペットへの餌やりなど複雑なタスクは、自動で実行することができず、人間のエキスパートがこれを支援する。これはテレオペレーション(Tele-Operation)と呼ばれ、専門スタッフがVRヘッドセットを着装し、NEOを遠隔で操作する。

出典: 1X 

ハードウェアの構造

安全を最優先とするコンセプトで、NEOの表面は3Dラティスのポリマーで覆われている。また、NEOはセーターを着装し、これらがクッションの役割を果たし、接触した際の衝撃を吸収する。NEOの駆動系はハーネスが使われ、モーターの動力をワイヤを介して手足を動かす(下の写真)。これにより、低消費電力で静かな動きを実現する。

出典: 1X

ブレイン:VLAモデル

NEOの最大の特徴は高度なAIモデルをロボットのブレインとして搭載していることにある。このAIモデルは「Redwood AI」と呼ばれ、フロンティアモデルのコア技術であるトランスフォーマを利用している(下の写真、プロセッサ)。AIはセンサーからの視覚情報と人間の言葉を理解し、これをAIモデルで処理し、ロボットのハードウェアを制御する命令(アクション)を生成する。このタイプのAIモデルは「VLA (Vision-Language-Action)」モデルと呼ばれ、これが汎用的なスキルを修得するコア技術となる。

出典: 1X

米国で販売を開始

1Xは今週から米国においてNEOの販売を開始した(下の写真)。価格は2万ドルで2026年から初期アクセス顧客向けに出荷される。また、サブスクリプション方式では月額499ドルでNEOをレンタルできる。ロボットの身長は5’6”(168センチ)で重量は66ポンド(30キロ)と、大人の形状であるが軽量なモデルとなる。NEOは家庭において人間とインタラクションすることを前提にデザインされている。

出典: 1X

テレオペレーションとプライバシー保護

NEOは5Gネットワークや家庭のWi-Fiを通して1Xの監視センタとリンクする。オペレータがNEOの稼働状態をモニターし、複雑なタスクを実行するためのテレオペレーションを実行する。オペレータが屋内の映像を見ることになり、プライバシー保護が重要な要件となる。NEOは目の部分にカメラを搭載し、その画像がセンタに送信されるが、人間の顔の部分はマスクされ、プライバシーを保護する。また、利用者は立ち入り禁止区域「Geo-Fencing」を設定でき、プライバシーを確保する。NEOが収集したデータは、利用者の許諾のもと1Xに送信され、これがロボットの教育データとなる。1Xは初期ユーザと共同でアルゴリズムを開発する戦略を取る。

高齢化社会とヒューマノイド・ロボット

NEOは人間に代わり家事を代行するロボットとして開発されているが、高齢化に向かう米国でシニアの介護を重要な応用分野と位置付ける(下の写真)。多くの高齢者は介護施設に入居する代わりに、自宅で独立した生活を送ることを望んでいる。NEOはこれら高齢者の日常生活を支援することを大きな目的に技術開発を進めている。高齢化が進む日本においても、NEOのシニア介護のソリューションは重要な役割を果たすと考えられる。

出典: 1X

家庭環境が最後の難関

ヒューマノイド・ロボットは企業の製造施設に導入されトライアルが進んでいる。BMWはクルマの製造ラインにヒューマノイド・ロボットを投入しその性能を評価している。これに対し、家庭向けのヒューマノイド・ロボットはNEOが最初のケースとなる。家庭環境で稼働するロボットは遥かに高度なスキルが求められる。製造施設はタスクが綿密に定義されクリーンな環境であるが、家庭においては床に様々なオブジェクトが置かれ、子供やペットなどが動き回り、掃除や炊事や洗濯など、広範なスキルが求められる(下の写真)。ヒューマノイド・ロボットにとって最難関の環境で、ロボットのブレインであるフィジカルAIの能力が試される。

出典: 1X

OpenAIはAGIを2028年3月に出荷!! AGIを研究エージェントとして実現、AGI開発のために30GWのデータセンタを建設し総工費は1.4兆ドル

OpenAIは10月29日、AGI開発に向けた企業の将来像を明らかにした(下の写真)。OpenAIは一般市民がAGIの恩恵を享受できるシステムを提供することをミッションとする。AGIは超人的なシステムではなく、OpenAIはこれをエージェントとして実現する。また、OpenAIはAGIを提供するプラットフォーム企業に転身する。開発者はこの基盤の上でAGIアプリケーションを開発する。AGIの開発と運用のために30ギガワットのデータセンタを建設し、総工費は1.4兆ドルとなる。

出典: OpenAI

AGIに関する理解と出荷時期

OpenAIはAGIの恩恵を万人が享受できる技術を提供することをミッションとする。AGIに関する共通の理解が確立されていない中、OpenAIはAGIをエージェントやツールとして提供し、そのメリットを可視化する開発戦略を取る。OpenAIはAI研究を自動化するモデル「Automated AI Research」の出荷時期を明らかにした。これは科学研究のエージェントで、ベータモデルと最終モデルのロードマップを公表した(下の写真)。これは、次世代モデル”GPT-6”を2026年9月に、”AGI”を2028年3月に出荷する、と解釈できる。

出典: OpenAI

プラットフォーム企業

OpenAIはChatGPT企業からAGIプラットフォーム企業に転身すること表明した。OpenAIはAGIプラットフォームのフルスタックを開発し(下の写真)、AIモデルだけでなくハードウェアの開発に着手する。具体的には、半導体、データセンタ、発電などハードウェアから、AIモデル(GPT-5)、ブラウザ(Atlas)、アプリケーション(ChatGPT)までを垂直統合する。キーポイントはユーザインタフェースで、OpenAIはAIブラウザ「ChatGPT Atlas」を投入し、また、スマホに代わるAIデバイスを開発している。これらがAGIを利用するポータルとなる。更に、提携企業はこのプラットフォームでアプリケーションを開発し広大なエコシステムを構築する。

出典: OpenAI

データセンタの建設

OpenAIは半導体やデータセンタなどハードウェア階層をパートナ企業と共同で開発する戦略を取る(下の写真)。半導体開発ではBroadcomと提携し独自のAIプロセッサを開発する。AIクラウドではMicrosoftとの関係を維持し、新規にOracleやGoogleと提携しリソースを利用する。これらに加え、OpenAIは独自のデータセンタを建設しており、ここでNvidiaやAMDのプロセッサを利用する。

出典: OpenAI

Project Stargate

OpenAIはデータセンタプロジェクト「Stargate」を起動し、テキサス州アビリーンに巨大な施設を建設している(下の写真)。第1期の工事が完了し、OpenAIはOracle Cloud経由で計算環境にアクセスする。この施設は建設中のサイトを含め1ギガワットの計算能力を持つ。テキサス州以外にも、ウィスコンシン州など全米5か所にメガセンタを建設する。

出典: OpenAI

データセンタの規模

OpenAIはAGIの開発と運用には膨大な計算量が発生し、そのために巨大なデータセンタを建設する(下の写真)。現時点で、OpenAIは30ギガワット超のデータセンタを建設する計画で、総コストは1.4兆ドルとなる。更に、長期ビジョンとして、建設したデータセンタを定常的に拡張し、そのペースは毎週1ギガワットの計算機を増設する。そのコストは1ギガワットあたり200億ドルを目指している。更に、データセンタの建設はロボットを使い、プロセスを自動化しスケーラビリティを上げる。

出典: OpenAI

1ギガワットのサイズ

データセンタの計算容量はプロセッサの消費電力ギガワットで表示される。1ギガワットのデータセンタとは、設置しているプロセッサや冷却装置の消費電力が1ギガワットとなる。新設のデータセンタはNvidiaの最新GPU「Blackwell」が使われる。製品としては「GB200 NVL72」ラックで、72個のGPUが搭載され、消費電力は120 kWとなる。1ギガワットの電力消費量は8,300ラックに相当し、GPUの数では60万個となる。 (下の写真、GB200 NVL72で構成するデータセンタ、32,000GPU構成。1ギガワットのデータセンタにはこのシステムが18ユニット設置される) 因みに、1ギガワットとはサンフランシスコ市の電力消費量に匹敵する。

出典: Nvidia

組織構造を改定

OpenAIはこれに先立ち組織再編を完了した。新組織は非営利団体「OpenAI Foundation」がパブリック・ベネフィット・コーポレーション「OpenAI Group」を統括する構造となる(下の写真)。パブリック・ベネフィット・コーポレーションは営利団体であるが、同時に、公益を実現するハイブリッドな構成となる。これにより、OpenAI Groupは資金を調達し、株式を公開し、事業を遂行することができる。一方、OpenAI FoundationはOpenAI Groupの26%を保有し、会社運営を統括する。OpenA FoundationはOpenAI GroupがAGIを安全に開発し運用するのを監視する役割を担う。また、OpenAI FoundationはヘルスケアとAI安全性に関し資源を拠出し、これらの研究推進を支援するとしている。

出典: OpenAI

AGIの応用分野

OpenAIはAGIをサイエンス研究エージェントとして実現し、科学技術開発を加速することを目指している。具体的には、新薬開発、ヘスケア、ロボティックス、核融合発電、個人に特化した教育、新素材開発などを対象とする。新薬開発ではガンの治療薬の開発などがターゲットで、20年かかる研究を2年に圧縮する。これにより、ここ数年で人間の寿命が75歳から150歳になると期待されている。

出典: OpenAI

データセンタ建設ラッシュ

OpenAIはAGIという用語の代わりに「AI研究自動化(Automated AI Research)」を使い、人間レベルの研究エージェントがAGIに匹敵すると説明する。更に、このエージェントが2028年3月にリリースされるとピンポイントでスケジュールを示した。このゴールを達成するためにはアルゴリズムのブレークスルーに加え、大規模なデータセンタが必要になる。AGIは思考時間を長くすることで高度なタスクを実行する。これは「Inference Computing」と呼ばれ、長時間にわたり思考することで機能が向上する。 (下のグラフ、現在、思考時間は5時間程度であるが、これが5日・5週間・5か月・5年に伸びる。) 思考時間が延びるにつれGPUの稼働時間が長くなり、大規模なデータセンタが必要となる。

出典: OpenAI

GPT-5はAGI完成度が58%、読み書き数学は人間に匹敵するが長期記憶・学習能力が決定的に劣る、AGI規制に向けた基礎研究が進む

大学の研究グループはAGIに関する科学的な定義を制定する試みを進めており、今週、その成果を公開した。この定義をOpenAI GPT-5に適用すると、モデルはAGIである要件の58%を満たし、人間の知能の半分程度を実現していることが判明した。GPT-5は言葉の理解や数学の問題を解く能力は人間レベルに到達したが、長期的な記憶や、新しいスキルを学ぶ能力はゼロで、AIモデルは機能が偏っていることが明らかになった。AGIは来年にも登場すると言われているが、現行モデルが人間レベルの知能を実現するには多くの課題を解決する必要があることが明瞭になった。

出典: Dan Hendrycks et al.

A Definition of AGI」とは

この研究は非営利団体「Center for AI Safety」を中心に、カリフォルニア大学バークレー校など全米の主要大学が共同で、AGIを定義しそれを測定する技術を開発した。これによるとAGIを「高等教育を受けた成人の知能レベル」と定義し、それを人間の知能特性と結び付けて評価した。この定義に基づき実際にAIモデルを評価したところ、OpenAI GPT-5は58%の、また、GPT-4は27%のAGI要件を満たすとしている。

AGIを構成する10の要件

研究グループは、AGIは10の要素で構成されると考える。AIモデルがAGIとなるためには、これら10の要件を満たす必要がある。これら10の要件は4つのグループに分類される(下の写真)。

出典: Dan Hendrycks et al.
  • グループ1:知識(Acquired Knowledge)
    • 汎用知識(General Knowledge):成人レベルの知識読み書き能力(Reading and Writing Ability):言語を理解し生成する能力
    • 数学能力(Mathematical Ability):数学に関する知識と解法能力
  • グループ2:思考回路(Central Executive)
  • 推論能力(On-the-Spot Reasoning):新たな問題を解く能力
  • ワーキングメモリ(Working Memory):問題解決時に記憶を維持する能力
  • 長期記憶(Long-Term Memory Storage):新情報を整理して記憶する能力
  • 長期記憶読み出し(Long-Term Memory Retrieval):長期記憶を読み出す能力
  • グループ3:知覚(Perception)
  • 視覚能力(Visual Processing):イメージを理解し、イメージを生成する能力
  • 聴覚能力(Auditory Processing):音声を認識、記憶、処理する能力
  • グループ4:出力(Output)
  • 処理速度(Speed):検索、比較、発言、筆記、読書などのスピード

AGIのシステム構造

AGIを構成する4つのグループと10の要素技術は連携して動作しインテリジェンスを構成する。研究グループはAGIのシステム構成とその内部構造を次のように考える(下の写真):

  1. AGIは入力された情報を「知覚(Perception)」で処理し、それらの意味を理解し、情報を凝縮(Attention)する。
  2. 「思考回路(Central Executive)」はこの情報を受け取り、推論などの処理を実行する。このプロセスで長期記憶を読み出し、また、処理結果を長期記憶に格納する。
  3. 「長期記憶(Long-Term Memory Storage)」には学習した知識が保存され、また、読み書き数学などの基本機能を持つ。
  4. 「出力(Output)」は処理された情報を言葉や音声などで出力する。
出典: Dan Hendrycks et al.

現行AIモデルの評価

研究グループはこの定義に基づき、現行のAIモデルを評価し、AGIの要件を満たす度合いを測定した(下のグラフ)。ベンチマークではOpenAI GPT-5(赤線)とGPT-4(青線)が使われた。GPT-5はGPT-4から格段に技術が進化しているが、AGIの要件の58%を満たし、人間のインテリジェンスへの道半ばであると評価した。AGIを構成する10要件については、項目ごとに性能が大きく異なり、現行AIモデルは偏った特性を持つ構造となる。

出典: Dan Hendrycks et al.

AIモデルの評価:長期記憶

GPT-5のAGI要件を評価すると「長期記憶(Long-Term Memory Storage)」の機能(下の写真)がゼロで、これがAGIとなるための最大のネックとなる。これは新しい情報を整理して記憶する能力と、処理しているタスクに関連する情報を記憶から引き出す能力となる。この代表が連想記憶(Associative Memory)で、独立した情報から、関連する他の情報を思い出す能力となる。この他に、意味のある記憶(Meaningful Memory)と逐語記憶(Verbatim Memory)から構成される。

出典: Dan Hendrycks et al.

AIモデルの評価:読み書き数学

一方で、GPT-5は言語を理解し生成する能力「読み書き能力(Reading and Writing Ability)」と数学に関する知識と解法能力「数学能力(Mathematical Ability)」(下の写真)は人間に匹敵すると評価され、この二つの構成要素についてはAGIの要件を満たす。数学能力は算術(Arithmetic)、代数(Algebra)、幾何学(Geometry)、確率論(Probability)、微積分(Calculus)で構成されるが、これらの分野で人間に匹敵するスキルを示した。

出典: Dan Hendrycks et al.

AGI規制の基礎データ

市場ではAGIの規制政策について議論が広がっている。AGIは人間レベルのインテリジェンスを持ち、科学技術が格段に進化すると期待されるが、その危険性について重大な懸念が示されている。AGIの規制法を準備するための最初のステップがAGIに関する理解で、業界で統一した定義を確立する必要がある。今回の研究成果はこれに向けた第一歩となり、これを契機に議論が深まると期待される。