カテゴリー別アーカイブ: 人工知能

トランプ大統領のAIアクションプランで米国AI産業が激変!!OpenAIはGPT-5を連邦政府に無償で提供、モデルをオープンソースとして公開

ホワイトハウスは2025年7月、AI基本政策「AIアクションプラン(AI Action Plan)」を公表し、トランプ大統領は三つの大統領令に署名した。AIアクションプランと大統領令は三つの指針から構成され、AI開発の加速、インフラの整備、技術の標準化で、これを達成するためのアクション項目を規定する。OpenAIはAIアクションプランに沿って新たな事業戦略を相次いで発表した。GPT-5を連邦政府に無償で提供し、モデルをオープンソースとして公開した。米国AI企業はAIアクションプランに準拠するため事業戦略を大きく転換し、トランプ大統領の影響力の甚大さを映し出した。

出典: Generated with OpenAI GPT-5

AIアクションプランと大統領令

AIアクションプランはトランプ政権のAI基本政策を規定したもので、AI技術革新の加速、AI開発のためのインフラ整備、技術の標準化の三つの基軸からなる。トランプ大統領はAI基本政策に関する三つの大統領令に署名し、米国政府の新たなAI政策が起動した。AIアクションプランを制定した背景には中国との技術競争がある。トランプ政権はAI開発を1960年代の宇宙開発競争に例え、米国が勝利しなければならないとしている。

出典: Generated with OpenAI GPT-5 

連邦政府にAI導入を指示

トランプ政権はAIアクションプランで連邦政府に最新のAIモデルを導入することを求めた。AIによりワークフローを自動化し、内部プロセスを効率的に運用し、事務処理を軽減することを目的とする。これを受けて、General Services Administration (GSA)が連邦政府の窓口となり、このプログラムを実行する。GSAは連邦政府の独立機関で物品やサービスの調達など総務の業務を担う。

OpenAIの新戦略

トランプ政権のAIアクションプランに沿って、OpenAIは8月6日、AIモデルを連邦政府に無償で提供することを発表した。OpenAIはGSAと提携し「ChatGPT Enterprise」を来年一年間1ドルで提供する。ChatGPT Enterpriseは企業向けのライセンスで、チャットモードでAIモデルを使うサービスとなる。OpenAIは最新モデル「GPT-5」をリリースしており、連邦政府はこのモデルを無償で使うことができる。OpenAIとしては、フリーミアムのモデルで、無償でChatGPTを導入し、その後、有償モデルに切り替える狙いがある。

出典: Generated with OpenAI GPT-5

AIモデルの安全基準

AIアクションプランは連邦政府がAIモデルを導入する際に守るべき安全基準を規定している。AIモデルが安全基準に準拠していることを条件に導入を認める構造となる。具体的には、AIモデルは「Truth-Seeking(真実を探求)」し、「Ideological Neutrality(イデオロギーに中立)」であることが要件となる。前者は、モデルの出力が正確で事実に基づいており、意図的にミスリードしないことを規定する。後者は、モデルが政治的にまた文化的に特定の方向に偏らないことを求めている。リベラルにバイアスするAIは「Woke AI」と呼ばれ、安全基準は中立なポジションを取ることを求めている。

出典: Generated with OpenAI GPT-5

調達規定の制定

大統領令は連邦政府がAIモデルを購入する際の調達規定「Procurement Rule」を制定することを求めている。調達規定には上述の安全基準が含まれ、また、モデルのセーフティ規格などが設定される。大統領令は行政管理予算局(Office of Management and Budget 、OMB)に対し、具体的な調達規定を120日以内(2025年11月まで)に制定することを求めている。更に、国立標準技術研究所(National Institute of Standards and Technology 、NIST)に対して、モデルの安全性を評価する技法の開発を求めている。これは国家安全保障の観点から、CBRNE(下の写真)やサイバー攻撃に関する危険性評価技法の開発を求めている。

出典: Generated with OpenAI GPT-5 

OpenAIがテストケース

OpenAIがAIアクションプランに沿って連邦政府にAIモデルを提供する最初のケースとなり、業界から注目されている。OpenAIはOMBにより制定される調達規定に従って安全なモデルを納入することが求められる。具体的には、OpenAIは調達規定に従ってAIモデルを検証し、その結果をドキュメントにまとめて提出し、OMBによる評価を受けるプロセスとなる。

規制緩和と安全規格

トランプ政権はAIモデルの安全評価に関する規制を緩和したが、実際には独自のルールに従って安全性を確認する作業が求められる。OMBの調達規定がリリースされるまでは安全評価のプロセスは不明であるが、バイデン政権から制約が大きく緩和されるわけでは無い。AIモデルの出力精度が問われ、CBRNEやサイバー攻撃などモデルの安全性を検証する義務が課される。

オープンソース

AIアクションプランはAI開発企業にモデルをオープンソースとして公開することを求めている。スタートアップ企業やアカデミアはオープンソースを使うことで研究開発を加速する。また、オープンソースは米国の価値を内包するシステムで、これをグローバルに展開することで、”アメリカンAI”の普及を目指す。具体的には、ビジネスや基礎研究における国際標準規格をアメリカの技術で構築し、トランプ政権はグローバルな覇権を握ることを目論んでいる。

OpenAI gpt-oss

これに呼応してOpenAIは8月5日、オープンソースモデル「gpt-oss」を公開した。OpenAIはこれを「Open-Weight Reasoning Model (オープンウェイトの推論モデル)」と呼び、「gpt-oss-120b」と「gpt-oss-20b」の二つのモデルを投入した。オープンソースであるが性能は「o3」レベルで高機能なオープンソースとなる。OpenAIはビジネスモデルを大転換し、クローズドソースとオープンソースのハイブリッドな事業戦略を取る。

出典: OpenAI

トランプ政権のAI規制

OpenAIに続き、GoogleとAnthropicも行政管理予算局のベンダーリストに追加され、AIモデルを連邦政府に供給することが認められた。これら企業はAIモデルを倫理的に運用することを誓約し、また、連邦政府の安全基準に準拠することを確約した。OMBのルールブックが安全審査のガイドラインとなり、これに準拠することが求められる。OMBのルールブックは120日後にリリースされる予定で、これが米国の事実上の安全基準となり、トランプ政権下でAI規制の条件が確定する。

OpenAIは最新モデル「GPT-5」を投入、AGIではなくコスパを極めた先端モデル、コーディングとAIエージェントがキラーアプリ

OpenAI は8月7日、最新モデル「GPT-5」をリリースした。GPT-5は高度な機能を持つAGIではなく、コストパフォーマンスを重視する実用的なモデルとなった。GPT-5は言語モデルと推論モデルが統合され、統合インテリジェンス(Unified Intelligence)を構成する。GPT-5は推論機能が大きく進化し、コーディングとエージェント機能が突出したモデルとなる。コーディング機能は業界トップの性能を持ち、プロンプトだけでソフトウェアを開発でき、GPT-5がオンデマンドでアイディアを製品にする。

出典: OpenAI

GPT-5の概要

GPT-5はOpenAIのフラッグシップモデルで高度な機能を搭載し業界トップの性能を実現した。アーキテクチャの観点からはGPT-5は単一のシステム「Unified System」でプロンプトの内容に応じて最適なモジュールが選択され回答を生成する。具体的には、ChatGPTインターフェイス(ブラウザー)においては、ルーター(Router)が入力されたプロンプトを解析し、「GPT-5」か「GPT-5 Thinking」のモジュールを選択する。前者はチャットモデルで高速で回答を生成し、後者は推論モデルで思考を重ねて回答を生成する。

モデルの選択

実際に、GPT-5を使う際にマニュアルでモデルを選択するオプションが提供されている(下の写真)。ChatGPTの初期画面で「GPT-5」か「GPT-5 Thinking」を選択する。使ってみると、GPT-5はチャットモードで瞬時に回答を生成する。GPT-5 Thinkingは考察を重ね高品質な回答を生成する。GPT-5 Thinkingを標準的に使っているが、使用量に制限があり(200メッセージ/週、Plusユーザ)、上限に達するとGPT-5 Thinkingの小型モデル(Mini)にダウングレードされるので注意を要する。

出典: OpenAI

開発者向けの機能

OpenAIは開発者向けにAPIを公開しており、プログラムからAPI経由でGPT-5の機能を呼び出す。上述のChatGPTのインターフェイスとは異なり、開発者向けには四種類のモデルを提供している。推論モデルがベースで三つのサイズから成り(下の写真)インテリジェンスを提供する。APIはモデルの規模で区分され、標準モデル「gpt-5」から中型モデル「gpt-5-mini」から小型モデル「gpt-5-nano」となる。また、GPT-5チャットモードは「gpt-5-chat」として提供されている。プログラムからこれらのAPIにアクセスしGPT-5の機能を利用する。

出典: OpenAI

パフォーマンス

OpenAIはGPT-5の性能を公表し前世代モデル「GPT-4o」や「o3」から数学や科学やコーディングの性能が大きく向上したことをアピールした。一方、OpenAIはGPT-5と他社製品の比較については発表しておらず、業界での位置づけを掴むことができない。一方、AI解析企業が主要各社のベンチマーク結果を統合して公開している(下のグラフ)。これによるとGPT-5はxAI Grok 4を抜いてトップの成績となった。これに、Google Gemini 2.5 ProとAlibaba Qwen 3が追随する構図となる。

出典: Artificial Analysis

コスト

OpenAIはGPT-5の利用価格を低く設定し業界を驚かせた。GPT-5は業界でトップの性能を持つが、価格は極めて低く設定され(下の写真、API使用料金、100万トークン当たりの価格)、コストパフォーマンスを重視した製品となった。コーディング機能においてはAnthropic Claude 4.1が対抗機種となるが、GPT-5の価格はこのモデルの1/10に設定されている。

出典: OpenAI

コーディング

OpenAIは発表イベントにおいて、GPT-5は極めて高度なコーディング機能を持つことをデモで実演した。GPT-5にメールアプリを制作するよう指示すると、AIがプログラミングを実行し、メールアプリを開発した。プロンプトでメールアプリのワイヤーフレーム(下の写真)を入力し、「このデザインに従ってメールアプリを開発」と指示すると、GPT-5はコーディングを開始した。

出典: OpenAI

ソフトウェア・オンデマンド

ここでは、一番人気のAI開発環境「Cursor」が使われ、この背後でGPT-5がプログラミングを実行した。上述のプロンプトの指示に従って、メールアプリが生成された(下の写真)。GPT-5はシンプルなモデルだけでなく、フロントエンドとバックエンドにまたがる、複雑なプログラムを生成することができることが示された。GPT-5は言葉だけでアプリを生成することができ、Sam Altmanはこの手法を「Software on Demand(ソフトウェア・オンデマンド)」と命名した。

出典: OpenAI

エージェント

GPT-5はエージェント機能が拡張されベンチマークで高い性能を示した。エージェント機能においては、インストラクションに従う機能やツールを使う機能が格段に向上した。OpenAIはエージェントモデル「GPT Agent」をリリースし利用が広がっている。また、スタートアップ企業はGPT-5をエージェントのエンジンとして採用し高度なモデルを開発している。(下の写真、AIエージェントのトップ企業Manusの事例、背後でGPT-5が稼働している)

出典: Manus

進化を感じにくい製品

GPT-5はコーディングやエージェントの機能が格段に進化しこれらの製品のエンジンとして利用が急拡大している。また、GPT-5はバイオサイエンスやファイナンスにおけるバックボーンとなり新薬開発などで活躍が期待される。GPT-5はPhDクラスのインテリジェンスを持ち、研究者やエンジニアにとって同僚のような存在となる。しかし、一般消費者はコーディングやバイオサイエンスの研究とは縁遠く、GPT-5に大きなメリットを感じることができないことも事実である。GPT-5は産業向けAIシステムとしての色彩が濃厚になり、一般消費者から遠ざかりつつある。

OpenAIのAIエージェント「ChatGPT Agent」は一般社員レベルのスキルを持つ!!LAオリンピックの旅行計画を指示すると結果をスライドに纏めて報告

OpenAI は7月17日、高度なAIエージェント「ChatGPT Agent」をリリースした。AIエージェントはツールを使う機能と高度な推論機能を搭載し、人間に代わり複雑なタスクを実行する。会社においては、企業の財務分析を実行し、その結果をエクセルシートに纏めて報告する。実際に使ってみると、ChatGPT Agentは汎用性が高く使いやすいインターフェイスとなっている。LAオリンピックの旅行計画の立案を指示すると、ChatGPT Agentは関連情報を収集し、その結果をパワーポイントのスライドに纏めて報告した。今年はAIエージェントの技術が格段に進化し、ついに人間のレベルに到達した。

出典: Generated with OpenAI DALL·E

ChatGPT Agentの概要

市場で多くのAIエージェントが開発されているが、ChatGPT Agentは最も高機能なモデルとなる。複数の機能を統合した構成で、指示されたタスクを実行するために、ウェブサイトを閲覧する。高度な推論機能を持ち、収集したコンテンツを解析し、分析結果を報告する。企業の事務職のような存在で、エントリレベルの仕事を自律的に実行する。

システム構成

ChatGPT Agentは、言語機能「ChatGPT」と推論機能「Deep Search」とツールを使う機能「Operator」が融合したモデルとなる。推論機能「Deep Search」は人気の機能であるが、ウェブサービスにアクセスすることができず、活動範囲が限定されていた。これに、ツールを使う機能「Operator」を融合することで、汎用性の高いAIエージェントが生まれた。

ChatGPTを使ってみると

ChatGPT AgentはChatGPTにAIエージェント機能が付加された形で、初期画面で「Agent」のボタンをオンにして使う(下の写真、最下部)。タスクをプロンプトとして入力し、AIエージェントに仕事の内容を指示する。タスクが起動すると仮想マシンのモニターが表示され、AIエージェントの仕事のステップを見ることができる(下の写真、青枠の部分)。ここでは「LAオリンピックの旅行計画書の立案」を指示した事例で、AIエージェントがオリンピック公式サイトなどにアクセスし、その内容を読んでいることが分かる。

出典: VentureClef

報告書の作成

ChatGPT Agentは指示されたタスクを実行し、処理が完了するとスマホアプリにその旨を通知する。このケースでは完了までに1時間を要し、その結果をブラウザーに表示した。処理結果をパワーポイントに纏めて報告するよう指示したので、LAオリンピックの旅行計画をスライド形式で表示した(下の写真)。グラフィックスやグラフなどを含めビジュアルな報告書となった。

出典: VentureClef

報告書を読むと

ChatGPT AgentはLAオリンピック旅行計画書を8ページのスライドに纏めて報告した。プロンプトで「日本チームがメダルを獲得する試合を中心にプランを作成」と指示したので、野球やゴルフやスケートボードなどを中心に日程が組まれた。また、ホテルの推奨や移動手段に関するアドバイスを求めたので、AIエージェントは「LA市内では交通渋滞が予想され、レンタカーではなく公共交通機関を利用するよう」回答した。この報告書は旅行計画の枠組みとして使うことができ、これをベースに最終スケジュールを纏め、フライトやホテルやオリンピックのチケットを予約する手順となる。(下の写真、報告書の纏めのページ、試合や移動手段に関する推奨)

出典: VentureClef

企業における利用形態:データサイエンス

ChatGPT Agentは企業におけるデータ解析で高い能力を発揮する。ChatGPT Agentは企業の財務分析を実行し、その結果をエクセルシートに纏めて報告する。実際に、ChatGPT Agentにサンフランシスコ市の5年間の財務状況を分析するよう指示すると、AIエージェントは市が公開している様々なドキュメントを探し出し、これらの情報を解析する。実行過程はChatGPT Agentの仮想コンピュータの中で実行され、利用者はAIエージェントの作業進捗状況を把握できる。(下の写真、青色のボックス)

出典: OpenAI

解析結果をスプレッドシートに纏める

ChatGPT Agentは長時間、自律的に稼働し、利用者はタスクを指示した後は、パソコンから離れ別の仕事をすることができる。作業が完了すると、ChatGPT Agentはその旨をChatGPTアプリに表示する。上述のケースでは、ChatGPT Agentは解析したデータをスプレッドシートの形に纏めて報告する(下の写真)。利用者はこれをそのままダウンロードして利用することができる。

出典: OpenAI

企業における利用形態:オフィスの開設

ChatGPTは指示されたタスクを実行し、その結果をパワーポイントのスライドに纏めて報告する。このケースでは、シンガポールにオフィスを開設する際のプロセスを考察したもので、ChatGPT Agentは解析結果をプレゼン形式で提示する。ChatGPT Agentはシンガポールのオフィスの空き物件を検索し、最適なものを推奨する。また、シンガポール政府の助成制度や税制など事業に関連する要件を検討し、オフィス開設計画書をマルチメディアで提示する(下の写真)。

出典: OpenAI

制御の受け渡し

ChatGPT Agentはクリティカルな操作については、その制御を人間に返す設計となっている。例えば、サンフランシスコからニューヨークのフライトを検索し予約する際に(下の写真)、ChatGPT Agentは支払いのプロセスでは、処理を停止し人間の判断を仰ぐ。ここで、利用者は制御を受け取り、マニュアルでクレジットカードの決済処理を実行する。同様に、送金処理などではChatGPT Agentは処理を中断し、人間がトランザクションを実行する。

出典: OpenAI

リスクとセキュリティ

ChatGPT Agentは自律的に稼働するモデルで、それに伴いリスクの度合いが拡大する。特に、プロンプトインジェクション(Prompt Injection)という危険性が課題となる。プロンプトインジェクションとは、特殊な言葉の列でAIモデルを誤作動させる手口を指す。AIモデルをサイバー攻撃するために悪用されるが、AIエージェントでは特に問題となる。AIエージェントにおいては、参照するウェブサイトに悪意ある命令を埋め込み、ChatGPT Agentを誤作動させるリスクが発生する。ウェブサイトに「クレジットカード情報を入力」などとの命令を埋め込み、機密情報を盗用するなど、新たな手口が生まれている。

エンタープライズAIエージェント

OpenAIはChatGPT Agentの発表イベントをストリーミングで配信した(下の写真)。AIエージェントは多くの企業から提供されており、開発競争が白熱している。ChatGPT Agentはコーディングなど特定のタスクに特化した仕様ではなく、会社業務や日常生活において広範なタスクを実行する。一方、AIエージェントは黎明期の技術であり、企業が導入するには解決すべき課題は少なくない。今年後半は、エンタープライズ品質のAIエージェントの開発に向けて、各社が技術力を競うことになる。

出典: OpenAI

トランプ大統領は「AIアクションプラン」を発表、AI開発とインフラ整備を加速、企業にAIモデルをオープンソースとして公開することを求める、”アメリカンAI”を国際標準技術として輸出し世界で覇権を握る

ホワイトハスは7月23日、トランプ政権のAI基本政策「AI Action Plan」を公開した。これは米国連邦政府のAIに関する基本指針と計画書で、各省庁にこれに沿ったアクションを求める構造となる。AI活動指針は三つの柱から構成され、AI開発の加速、インフラの整備、技術の標準化で、これを達成するための活動項目を定めている。トランプ大統領はAI基本政策に関する基調講演を行い、アクションプランに関する大統領令に署名した(下の写真)。

出典: White House

トランプ政権のビジョン

活動指針「AI Action Plan」(下の写真)はAI開発を1960年代の宇宙開発競争に例え、米国が勝利しなければならないとしている。また、スタートアップ企業や大学研究機関の技術革新を支援するため、巨大テックはAIモデルをオープンソースとして公開することを求めている。更に、“アメリカンAI”を同盟国に輸出し、これをグローバル・スタンダードとすることで、米国が世界で覇権を握る構想を打ち出した。

出典: White House

バイデン政権からの転換

トランプ大統領は就任直後、大統領令「Executive Order 14179」に署名し、AI政策に関する新たな指針を明らかにした。これはバイデン政権のAI規制を撤廃し、AI開発を推進するための基本機軸を提唱したもので、90日以内に具体的なアクションプランを制定することを求めた。AI Action Planはこれに従って策定され、AI技術革新の加速、AI開発のためのインフラ整備、“アメリカンAI”のグローバル展開の三つの基軸からなる。

基本指針1:AI技術革新の加速

アクションプランはAI規制を緩和することでAI技術開発を加速することを基本指針とする。また、AIがバイアスすることなく公正であることを求め、NISTに対しこれを検証するための評価技法の開発を求める。更に、アクションプランはAI開発企業にモデルをオープンソースとして公開することを求める。これにより、スタートアップ企業は技術革新を生み出し、また、米国が標準技術を提供することで世界におけるAI開発のリーダのポジションを維持する。

基本指針2:AI開発のためのインフラ整備

アクションプランはAI開発のためのインフラ整備にかかる認可のプロセスを簡素化し短期間で施設建設できるよう求めている。これにより、データセンタの建設、半導体工場の建設、及び、送電網の整備における認可の手順が簡素化され、短期間で開発インフラを整備する。また、セキュリティの強化を求めており、AIのインシデントを管理する組織「AI ISAC」を創設し、情報を連邦政府で一元管理する体制の構築を求めている。

基本指針3:アメリカンAIのグローバル展開

アクションプランは米国がアメリカ製AI「American AI」を同盟国に提供し、国際社会で連携することを求めている。中国がAIモデルをオープンソースとして公開し、国際社会で存在感を拡大している。これに対抗する政策で、米国がAIプロセッサやAIモデルなど「AIスタック」を同盟国に輸出することでリードを維持する戦略となる。また、米国政府は民間企業と共同で、フロンティアモデルが内包するリスクを検証する。具体的には、サイバー攻撃への脆弱性やCBRNE兵器製造の危険性を査定する。

出典: Generated with Google Imagen 4

オープンソース

アクションプランはAI開発企業にモデルをオープンモデル(オープンソース及びオープンウエイト)として公開することを求めている。スタートアップ企業やアカデミアはオープンモデルを使うことで、技術革新を加速する。また、連邦政府はオープンモデルを導入することで、機密データを組織内で処理することで、安全にAIモデルを運用する。また、オープンソースモデルは米国の価値観を内包するシステムで、これをグローバルに展開することで、ビジネスや基礎研究における国際標準規格を構築し、グローバルな覇権を握る。

モデル評価技法

アクションプランはAIモデルの性能と機能を評価する技術の開発を求めている。バイデン政権はAI開発企業にモデルの安全評価を実施することを義務付けたが、トランプ政権はこの規制を撤廃した。アクションプランは連邦政府がモデルを評価するためのガイドラインの策定を求めている。また、コンソーシアム「NIST AI Consortium」を設立し、ここで測定科学に関する技法の開発を求めている。更に、長期的な視点では、アクションプランは連邦議会がAIモデルの性能や機能を測定する法令の制定を求めている。

著作権とフェアユース

トランプ大統領はアクションプランの発表イベントで講演しAIの基本指針を明らかにした(下の写真)。その冒頭で大統領はAIモデルの開発と著作権の関係についての解釈を示した。AIモデルの開発で教育データとして様々なコンテンツを読み込むが、これはフェアユースであり著作権を侵害するものではないとの見解を明らかにした。AIモデルは著作物をコピーするのではなく、その意味を学習するもので、常識的な解釈が必要になると述べた。

出典: White House

バイアスに関する解釈

アクションプランはバイアスについてトランプ大統領のビジョンを反映した解釈を示している。バイデン政権ではAIモデルのバイアスは消費者を差別する判断など個人の権利の保護を指標とした。これに対し、トランプ政権ではバイアスとは「Woke AI」を指し、リベラルなAIを廃絶する指針を示した。多様性・公平性・包括性を評価するAIは過度にリベラルとし、これを制限し中立なAIモデルの開発を求めている。

中国とのAI競争に勝利する

トランプ大統領はグローバルなAI開発競争で中国に勝利し主導的な立場を維持することを最重要指針とする。AI市場で覇権を握るためには、エコシステムを拡大し、米国がAIにおける標準技術を定め、これを世界市場に提供する戦略を取る。これにより国内では、経済効果を高め防衛能力を拡大する。米国が宇宙開発競争で勝利したように、AI開発において同盟国と提携し、この競争を勝ち抜く。アクションプランが勝利のための戦略を規定し、米国は官民が連携しAI技術革新を加速する。

xAI最新モデル「Grok-4」は破格の性能で他社を圧倒!!推論機能が10倍向上、マスクはこのモデルをヒューマノイドロボットに適用する構想を発表

xAIは7月9日、最新モデル「Grok-4」をリリースした。発表イベントはX Spacesでストリーミングされ、イーロン・マスクと開発者がモデルの機能や性能を解説した。Grok-4は性能が格段に向上し、他社を大きく引き離しトップの座を占めた。特に、AIのインテリジェンスを測定する試験では、他社モデルの二倍の性能をマークし、AGIに一番近い製品となった。マスクはGrok-4をTeslaとヒューマノイドロボット「Optimus」に適用する計画を明らかにした。xAIはGrok-4をクルマやロボットなどの物理社会に展開することで、モデルが世界感「World Models」を理解し、AGI開発で他社との差別化を図る。

出典: xAI

Grok-4の概要

Grok-4はxAIのフロンティアモデルで第四世代の製品となる。xAIは2023年から開発を開始し、マスクの指揮の下で、短期間で急速に性能を伸ばした。Grok-4は世界最大のAIスパコン「Colossal」で開発され、このデータセンタが巨大モデルの開発を支えている。AIモデルを評価するベンチマークではGrok-4は、OpenAI o3-proとGoogle Gemini 2.5 proを抜いてトップの成績をマークした(下のグラフ、左端の棒グラフ)。

出典: Artificial Analysis

AGIの性能を測定するベンチマーク

Grok-4はインテリジェンスを測定するベンチマーク「ARC-AGI-2」で他社の性能を二倍上回り、トップの成績を達成した。これは、AGIの性能を測定するもので、モデルのIQ(知能指数)を査定する指標となる。Grok-4は16%を超える性能を示し、それまでトップであったAnthropic Claude Opus 4の二倍の性能を示した(下のグラフ)。

出典: xAI

推論機能が格段に向上

この背景にはGrok-4の推論機能が大きく向上したことがある。Grok-4はGrok-3に比べ、言語機能の性能の伸びはほぼフラットであるが、推論機能が10倍向上した。また、Grok-4の推論機能の教育では、教育時間に比例して性能が向上する特性「スケーリング(Scaling)」を示した(下のグラフ)。また、実行時には、計算時間を長くすると、これに応じて性能が向上した。この事実は、Grok-4はこれからも性能が伸び続ける可能性を示している。

出典: xAI

AIエージェントの機能

Grok-4はAIエージェントとして高い機能を備えていることを示した。人間に代わりAIエージェントが自動販売機を管理運用するベンチマーク「Vending-Bench」でトップの性能をマークした。この試験は自動販売機をAIエージェントで運用し、その事業成績を競うもので、Grok-4の売り上げ高は4694.15ドルで、今までトップであったAnthropic Claude Opus 4の二倍の成績を達成した。

出典: xAI

本当に性能が高いのか

Grok-4はベンチマークで驚異的な性能を示しAI業界にショックを与えた。市場では研究者や開発者が独自の手法でGrok-4の性能を検証しているが、推論機能の高さが追認されている。研究者や著名人がGrok-4をベンチマークした結果が数多く「X」に掲載されている。Grok-4で物理現象をシミュレーションする試験「Hexagon Vibe Check」では一回のトライアルで合格した(下の写真)。

出典: Flavio Adamo

説明資料が殆ど無い

一方で、Grok-4に関する技術資料は公開されてなく、モデルの構成や開発手法などは明らかにされていない。また、Grokシリーズは「究極の真実を探求するモデル」として開発されているが、ガードレールなどセーフティ技術に関する情報も開示されていない。マスクはオープンな手法でAIを開発すると宣言したが、開示されている情報は限られ、Grok-4のシステム構成や教育手法などを把握することができない。

ヒューマノイドロボット

マスクは発表イベントの中でGrok-4をTeslaが開発しているヒューマノイドロボット「Optimus」(下の写真)に適用する構想を明らかにした。Teslaがロボットのハードウェアを開発し、xAIがロボットのブレインとしてGrok-4を開発する。具体的には、Teslaはロボットのセンサーやアクチュエータなどを開発し、Grok-4はロボットを制御する言語機能や推論機能を提供する。Grok-4の言語機能でロボットは言葉による指示を理解し、人間との対話を通して仕事をこなす。ロボットはコンピュータビジョンで周囲のオブジェクトを認識し、Grok-4の推論機能でその意味を把握し、次のアクションを生成する。

出典: xAI

世界モデル

Grok-4は実社会とのインタラクションを通して、世界モデル「World Models」を学習する。Grok-4はサイバー空間だけでなく物理社会で稼働することで、3D空間における物理現象を学ぶ。更に、これに基づき新たな仮説を生み出し、仮説が正しいかどうかを検証することで、新しい法則を生み出す。これは、ロボティックスだけでなく、AGIの基礎技術となり、Grok-4がAGI開発の重要なステップとなる。

マスクの人気が上昇中

発表イベントは深夜に行われ、マスクと開発者がスライドを説明する形で進行した。マスクはトランプ政権のDOGE(政府効率化省)を退き、政界から遠ざかっていたが、今では政治新党「America Party」を設立すると表明し、再度、政治に関与している。マスクはDOGEにおいて過激な手法で予算を削減し、アメリカ社会で信頼が急落した。一方、新党結成では多くの有権者がこれに賛同しており人気が上昇傾向にある。マスクはX、xAI、Tesla、SpaceXの事業経営と政治活動を掛け持ちしており、AGI開発で成果を上げることができるのか、手腕が試されている。

出典: xAI