月別アーカイブ: 2025年3月

Googleは最もインテリジェントなモデル「Gemini 2.5」を公開、推論機能が 強化され業界トップの性能をマーク、中国企業を大きく引き離す

Googleは最新モデル「Gemini 2.5」をリリースし、ベンチマークテストで二位に大きく差を付け、業界トップとなった。GoogleはGemini 2.5を最もインテリジェントなモデルと呼び、推論機能が強化され、プログラミングや複雑なタスクの実行で実力を発揮する。Gemini 2.5はDeepSeek R1の性能を大きく上回り、米国企業が再び実力を示した。

出典: Generated with Google ImageFX

推考モデル

Gemini 2.5はGoogle DeepMindが開発した最新モデルで、推論機能が強化され、最もインテリジェントなモデルとなった。Google DeepMindはGemini 2.5を「Thinking Model(推考モデル)」と呼び、推考を重ね複雑な問題を解く構造となる。プログラミング機能が高く、複雑なコードをエラー無く生成することができる。

主要機能と開発手法

Gemini 2.5は高度な推論機能を持ち、情報を解析し、論理的な帰結を導き、情報に基づく意思決定を行う。Googleは推論機能の開発で、強化学習「Reinforcement Learning」や思考連鎖「Chain-of-Thoughts」の手法を用いてきた。この結果が前世代モデル「Gemini 2.0 Flash Thinking」に反映された。Gemini 2.5はこれをベースにポスト教育で機能が強化され、インテリジェンスが大きく向上した。

ベンチマーク結果

Googleはこのモデルを「Gemini 2.5 Pro Experimental」として製品化しこれを公開した。また、GoogleはGemini 2.5 Proのベンチマーク結果示し、高い性能をマークしたことをアピールした(下のグラフ)。これによると、Gemini 2.5 Proはコーディング、数学、科学など、推論機能が問われるタスクで高度な成績を示した。Gemini 2.5 Proの対抗機種はOpenAI 03-miniであるが、ほぼすべての項目で性能が上回った。また、DeepSeek R1に対しては全ての項目で性能が大きく上回った。

出典: Generated with Google Gemini 2.5 Pro

利用環境

Gemini 2.5 ProをGoogleのAIスタジオ「Google AI Studio」で利用することができる(下の写真)。Google AI Studioは最新モデルGemini 2.5の他に、Gemini 2.0やGemini 1.5などを提供している。また、GoogleのオープンソースモデルGemma 3とGemma 2を使うことができる。AI StudioはAIモデルのサンドボックスで、ここでモデルを試験し、機能や性能を検証することができる。またGoogleは、AIクラウド「Vertex AI」でGemini 2.5を近日中に提供するとしている。

出典: Google

プログラミング性能

実際にGemini 2.5 Proを使ってみるとプログラミングの機能が極めて高いことが分かる。プログラムを作成するにあたり、コーディングする必要は無く、Gemini 2.5 Proに言葉で指示するだけでコードを生成できる。例えば、人気ゲーム「テトリス」をJavaScriptでコーディングするよう指示すると、Gemini 2.5 Proはコードを生成し、その機能や使い方を説明する(上の写真)。生成されたコードを何も修正することなく、そのままJavaScript開発環境「p5.js」で実行することができる(下の写真)。

出典: p5.js

ソフトウェア開発機能

Gemini 2.5 Proはソフトウェア開発における強力なツールとなり、ウェブアプリケーションやAIエージェントの開発で威力を発揮する。Gemini 2.5 Proはグラフィカルなインターフェイスのプログラムを得意とし、ウェブサイトやウェブゲームの開発で使われる(下の写真、Gemini 2.5 Proで簡単にインタラクティブなグラフを生成できる)。また、AIエージェントの開発が急速に進んでおり、Gemini 2.5 Proは人間に代わり複雑なプログラミングを実行する。Gemini 2.5 Proは実社会のエンジニアリングで役に立つモデルとして設計された。

出典: Google

コーディングの品質

Gemini 2.5 Proを使うと、最低限のプログラミングのスキルで、コードを生成できる。プロンプトにプログラムの概要や使用する言語を入力するだけで、Gemini 2.5はコードを出力する。多くの推論モデルがコーディング機能を備えているが、Gemini 2.5の機能が最も洗練されているように感じる。Gemini 2.5はワンショットでエラーの無い高品質なコードを生成する。

バイブコーディング

言葉だけでAIモデルを使ってコーディングする手法は「バイブコーディング(Vibe Cording)」と呼ばれ話題となっている。いま、必要なプログラム言語は「Python」ではなく「英語(普通の言葉)」であるといわれている。コンピュータの知識が無くてもプログラミングできる時代が到来したとも言われている。しかし、実際にGemini 2.5 Proなどを使って言葉でコーディングしてみると、コードは自動で生成されるが、それを編集し運用するためには、それなりのスキルが求められる。コードの位置づけや、開発環境、実行環境など、プログラミングに関する基礎知識が必須となる。バイブコーディングはトレンディなコンセプトであるが、企業のプログラム開発で使うことができるのか、実社会でのベンチマークが必要となる。

Nvidia開発者会議レポート:推論コンピューティングの需要が爆発!!「AIファクトリ」でインテリジェンスを製造、100倍高性能なプロセッサが必要

Nvidiaは開発者会議「GTC 2025」を開催し、CEOのJensen Huangは基調講演で、「AIファクトリ」の構想を明らかにした。AIモデルの主流は言語モデルから推論モデルに移り、推論モデルを稼働させるために大規模な計算環境が必要になる。推論モデルの実行に特化したデータセンタをAIファクトリと呼び、ここでの処理量が100倍拡張する。言語モデルが性能の限界に達したとの議論があるが、推論コンピューティングで性能は伸び続け、データセンタの拡張が続くとの見通しを示した。

出典: Nvidia

AIの基本単位

AIの基本単位はトークン「Token」で、言語モデルでは言葉の単位(単語など)を表現する用語となる。トークンは言葉だけでなく、イメージを構成する最小単位となり、AIが写真や動画を生成する。科学技術の分野においては、トークンがイメージを物理情報に変換し、気象予報などで使われている(下の写真、ロスアンゼルスの大火災の解析)。トークンがデータをインテリジェンスに変換し、新薬の開発や、自動運転車の開発や、ロボットの教育で使われる。

出典: Nvidia

スケーリングの法則

言語モデルの開発では拡張性が限界に達し性能の伸びが鈍化したとの議論がある。これはスケーリングの法則(Scaling Law)と呼ばれ、言語モデルの規模を拡大しても、それに従って性能が伸びないポイントに達した。これに対し、Huangはスケーリングの法則を三段階に分割し、性能は伸び続けていることを解説した。プレ教育とポスト教育のあとに、インファレンス(モデル実行)のプロセスが続くが、ここで計算需要が急速に拡大している(下の写真、右上の部分)。

出典: Nvidia

推論モデルの実行

AIモデルは言語モデルから推論モデルが主流となり、推論モデルの実行で性能が伸び続けている。推論モデルの実行は「Long Thinking」という方式で処理が進み、問われたことにワンショットで回答を生成するのではなく、問題を考察し異なる思考法を試し、最適な解答を生成する。これは「Chain-of-Thoughts」など推論技法で、このプロセスを経ることでモデルはインテリジェンスを向上させる。このプロセスでは大量のトークンを生成し、大規模なプロセッサが必要となる。実際に、言語モデルに比べ推論モデルでは、生成するトークンの数が20倍となり、150倍高速なプロセッサが使われる(下の写真)。

出典: Nvidia

推論モデルが注目される

DeepSeekショックで推論モデルへ注目が集まった。DeepSeekは高度な推論モデル「DeepSeek R1」を低コストで開発し、AI開発競争の軸が米国から中国に広がった。OpenAIは推論モデル「o1」を公開し、最新モデル「o3」を開発している。推論モデルは言語モデルを強化学習の手法でポスト教育したもので、論理的な思考機構を搭載し性能が格段に向上した。推論モデルがこれからの基軸モデルとなり、モデルを実行するために大規模な計算機環境が必要となる。

AIファクトリのミッション

Nvidiaは推論モデルを実行するためのデータセンタを「AIファクトリ(AI Factory)」と命名し、ここでインテリジェンスを製造する。AIファクトリは、クルマを生産する工場とは異なり、「トークン」を製造する施設となる。言語モデルでは文章やイメージなどのトークンを生成するが、推論モデルでは思考過程とその結果のトークンを生成する。推論モデルではリアルタイムに大量のトークンが生成され、これは「Inference Problem」と呼ばれ、この需要を満たす大規模なデータセンタが必要となる。上述の通り、インファレンスのプロセスでは、推論モデルは言語モデルに比べ100倍の処理量が要求される。(下の写真、AIファクトリのイメージ、推論モデルの実行でBlackwellはHopperに比べ40倍の性能をマーク)

出典: Nvidia

AIファクトリのシステム構成

AIファクトリはプロセッサだけでなくそれを制御するソフトウェアなどで構成される。NvidiaはAIファクトリのテンプレートとして、必要なハードウェアやソフトウェアをパッケージしたモデルを公開した(下のグラフィックス)。主な構成要素は:

  • プロセッサ:Blackwellと Hopper
  • ネットワーキング:NVLinkとQuantum InfiniBand
  • ソフトウェア:TensorRT、NIM、Dynamoなど
出典: Nvidia

ソフトウェア構成

NvidiaはAIモデルの実行を効率的に行うソフトウェアの開発に重点を置いている。Nvidiaの特徴はツールやライブラリが充実しおり、開発したモデルをGPUで容易に稼働させることができる。AIファクトリの主要ソフトウェアは:

  • TensorRT:AIモデルをGPUで実行する環境、PyTorchやTensorFlowで開発されたAIモデルを稼働させる環境
  • NIM (NVIDIA Inference Microservices):AI実行のマイクロサービス、AIモデルと実行環境を統合したパッケージ
  • Dynamo:AIモデルの最適化エンジン、実行時にAIモデルを動的に最適化するツール

プロセッサのロードマップ

大規模AIファクトリを「Gigawatt AI Factory」と呼び、これに向けたプロセッサのロードマップを公開した。今年から2028年までのレンジをカバーし、毎年新たなアーキテクチャのプロセッサが投入され、機能と性能が伸び続けることを明らかにした(下の写真)。同時に、AIモデルを異なるアーキテクチャで稼働させるためのプラットフォーム「CUDA」についても、対象分野を拡大することを明らかにした。プロセッサのアーキテクチャは:

  • Blackwell:2025年、208B トランジスタ、20 PFLOPSの性能
  • Rubin:2026年、50 PFLOPSの性能、288GB HBM4メモリ
  • Rubin Ultra: 2027年、Rubinの強化モデル
  • Feynman:2028年、その次のモデル
出典: Nvidia

トークンの爆発

推論モデルのインファレンスでは言語モデルと比べ格段に多くのトークンが生成され、大規模な計算環境が必要になる。AIファクトリはトークンの製造工場となる。トークンがAIの基本単位で、膨大なデータをインテリジェンスに変換する。推論モデルをベースにAIエージェントが開発され、更に、ヒューマノイド・ロボットなどフィジカルAIに繋がる。基調講演の最後にはディズニーのロボット「Newton」が登場し、フィジカルAI技術の進化を示した(下の写真)。

出典: Nvidia

OpenAIはトランプ政権にAI政策を提言、AI開発を促進するため規制の緩和と著作物のフェアユースを求める、中国企業の追い上げを脅威と認識し連邦政府に開発の後押しを要求

OpenAIは今週、トランプ政権にAI政策に関する提言書を提出した。この中でOpenAIは、AI規制を緩和し開発を促進する政策を導入することを求めた。特に、AIモデルを教育する著作物の使用に関し、これをフェアユースと解釈し、企業がこれらを使用できることを要求した。OpenAIは、DeepSeekなど中国企業が米国企業キャッチアップした現状を指摘し、米国がAI技術で世界をリードするために、トランプ政権に技術革新を後押しすることを要請した。

出典: OpenAI

AIアクションプラン

トランプ政権は米国のAI政策「AI Action Plan」の制定に向けて準備を進めている。これはバイデン政権のAI政策を置き換えるもので、新たなAI指針が制定される。この目標に向かって、ホワイトハウスはAI政策に関し、業界からのパブリックコメントを集約しており、OpenAIなど主要企業は意見書を提出した。

OpenAIの基本指針

OpenAIは提言書の中でAIと経済の関係など基本指針を示した。AIは米国経済を振興するための基幹技術であり、同時に、国家安全保障の防衛技術となる。中国共産党は2030年までにAI技術で米国を追い抜き、世界のリーダーとなることを目標としている。独裁国家がAIを制御することを防ぐため、米国がAI市場のリーダーとなり、民主主義を守ることがAIアクションプランの基軸となる。

出典: Generated with Grok

OpenAIの提言

この基本指針に沿って、OpenAIはAI政策について、五つの項目を提言した:

  • 規制緩和:AIに関する制約を緩和し、州政府では無く連邦政府が規制を統括する
  • 輸出規制:AIを同盟国に提供し、同時に、中国への輸出を制限する
  • 著作権:AI教育で著作物の使用をフェアユースとして認める
  • インフラ整備:AI開発のインフラ整備を支援し、また、経済特区を設立する
  • 政府のAI導入:連邦政府や軍事機関AIを導入しモデルケースになる

規制緩和:イノベーションの自由

米国では連邦政府によるAI規制法は制定されておらず、州政府がAI規制を進めるという構図となっている。このため、AI開発企業は州ごとに異なる規制法に準拠することを求められ、法令準拠の負担が増加している。このため、OpenAIは連邦政府がAI規制を統括し、米国内で共通のフレームワークを制定することを求めている。一方、このフレームワークは法令ではなく、連邦政府と民間企業の自主的な協定「voluntary partnership」とする。法令による規制ではなく、企業の自主的な規制を尊重する。

出典: Generated with Grok

輸出規制:民主的なAIをグローバルに展開

米国で開発したAIを同盟国に提供し、高度なAIがグローバルに利用されることを促進する。同時に、高度なAIが中国などで使われることを防ぐため、AI技術の輸出を三段階に分けて規制する。米国と同じレベルの輸出管理を導入している国々にはAI技術を制限なく提供する。一方、中国やその同盟国に対しては、AI技術へのアクセスを禁止する。その中間の国々には、AI技術へアクセスするために、強固なセキュリティを求める。

著作権:自由に学習する権利

企業がAI教育で著作物を利用することを許諾するよう求めている。著作物でアルゴリズムを教育することはフェアユースであるとの解釈を求め、米国がAI技術で世界のリーダーとなることを支援するよう要請している。また、欧州の著作権法がAI開発で大きな支障になると警告している。更に、DeepSeekなど中国企業が先進モデルを開発できた理由は、著作権物を含むデータを自由に使うことができたためとの解釈を示している。米国がAI開発で世界をリードするためには、著作物をモデル教育で利用できることが重要な要件となる。

出典: Generated with Grok

インフラ整備:経済振興の基盤

米国はAI開発のインフラを大規模に整備する必要がある。このためにインフラ整備法令「National Transmission Highway Act」を提唱。この法令は、データ通信、ファイバーネットワーク、天然ガスのパイプラインを整備し、データセンタの通信を強化し、発電所の能力を拡大する。また、連邦政府が保有している情報をデジタル化し、これを公開することを求めている。政府が保有している大量の情報がモデルを開発するための教育データとなる。また、AI開発のための経済特区「AI Economic Zones」を設立し、優遇税制などの制度を導入するよう求めている。経済特区においてスタートアップ企業の技術開発や事業化を支援する。

出典: Adobe Stock

政府のAI導入:ベストプラクティスを示す

連邦政府が率先してAIを導入し、国家のモデルケースになることを求めている。特に、安全保障部門で、サイバーセキュリティの法令を改定し、民間企業が連邦政府と協業できることを求めている。また、防衛部門や諜報部門はAIの導入を進め、国立研究機関を中心に機密情報を統合したAIを開発することを提言している。軍事部門でのAI導入はタブーとされてきたが、敵対国に対峙するため、安全保障の観点から開発を加速する必要がある。

出典: Adobe Stock

OpenAIは規制緩和に傾く

OpenAIは従来から、連邦政府によるAI規制を求めてきたが、今回の提言書では一転して、トランプ政権にAI規制の緩和を求めた。AIのイノベーションを重視し、緩やかな規制を導入し、法令ではなく企業による自主管理を提唱した。この背景には、DeepSeekなど中国企業が技術開発のペースを上げ、OpenAIに急接近している事実がある。中国企業が予想を上回るペースでAI技術を伸ばしており、米国企業は連邦政府と連携してこれに対抗する姿勢を示している。DeepSeekの登場が米国のAIアクションプランの構造に大きな影響を及ぼしている。

中国アリババ・ショック!!推論モデル「QwQ-32B」を投入、小型モデルで「OpenAI o1」の性能を凌駕、中国企業はモデルを改良し効率化を探求

Alibabaは最新の推論モデル「QwQ-32B」を公開した。このモデルは32B(320億)のパラメータを持つ小型モデルであるが、その性能はOpenAIの「o1-mini」を凌駕し、「DeepSeek R-1」に匹敵する。DeepSeek R-1のパラメータの数は671B(6710億)で、20倍小さなモデルで同等の性能を達成した。中国企業はモデルを改良して、小型モデルで高性能な性能を達成する、効率性を探求する道を歩んでいる。(下の写真、Alibabaのシリコンバレーオフィス)

出典: Google

QwQ-32Bの概要

QwQ-32Bは32Bのパラメータで構成される小型の推論モデルで、問題解決の機能が大きく向上した。QwQは「Qwen-with-Questions」の略称で、Alibabaの言語モデル「Qwen」をベースに、強化学習の手法で推論機能が強化された。QwQ-32Bはオープンソースとして公開されており、これをダウンロードしてローカルで運用できる。また、Alibabaのチャットサイト「Qwen Chat」でこのモデルを利用することができる。

Qwenの製品体系

QwenはAlibabaの大規模言語モデルのシリーズ名で、このアーキテクチャーをベースに様々なモデルが開発されている。Qwen Chatのサイトで、Alibabaが提供する複数のモデルを利用することができる(下の写真)。Qwenの主力モデルは:

  • Qwen2.5-Plus:Qwenシリーズのベースモデルで高度な言語機能を持つ
  • Qwen2.5-Max:Qwenシリーズのフラッグシップモデルでトップレベルの性能を持つ。Mixture of Experts(MoE)というアーキテクチャを採用。DeepSeek V3やAnthropic Claude 3.5 Sonnetなどフロンティアモデルの対抗製品
  • QwQ-32B:今回発表されたQwenをベースとする推論モデル。DeepSeek R-1やOpenAI o1-miniの対抗製品
出典: Alibaba

QwQ-32Bの開発手法

QwQ-32Bは大規模言語モデル「Qwen2.5-32B」をベースとし、これを強化学習の手法で機能をエンハンスしたモデルとなる。Qwen2.5-32Bは汎用の言語モデルで、この基盤に推論機能を付加したモデルがQwQ-32Bとなる。強化学習は二つのステップで構成される:

  • ステップ1:Pure Reinforcement Learning  純粋な強化学習の手法でモデルを教育。数学やコーディングの問題が教育データとして使われた
  • ステップ2:General Reward Models  汎用的な推論機能を学習した。人間のフィードバック「Reinforcement Learning with Human Feedback (RLHF)」などの手法が使われた

これにより、QwQ-32Bは人間の指示を正しく理解し、人間の価値観に沿った出力をする機能を獲得した。また、モデルが自律的に稼働するAIエージェントの機能を得た。

ベンチマーク

AlibabaはQwQ-32Bのベンチマークテスト結果を公表し、モデルは数学やコーディングやツールを使う機能で高い性能を示した。数学の問題を論理的に解く機能を測定する試験「AIME24」でQwQ-32BはDeepSeek R-1(671B)に対して、それぞれ、79.5と79.8と同等レベルの性能をマークした(下のグラフ左端)。QwQ-32BのサイズはDeepSeek R-1の1/20で、小型モデルが大規模モデルの性能レンジに到達した。

出典: Alibaba

知識の移転

興味深いのはAIME24で「DeepSeek-R1-Distilled-Qwen-32B」の性能(72.6)がDeepSeek R-1の性能(79.8)の90%をマークした点である。DeepSeek-R1-Distilled-Qwen-32Bは大規模言語モデル「Qwen2.5-32B」をベースとし、DeepSeek R-1の知識を転移(Knowledge Distillation)する手法で開発された。Alibabaが推論機能を独自に開発するのではなく、競合機種DeepSeek R-1から知識を抜き取った形となる。

出典: Generated with Qwen2.5-Max

中国と米国の開発手法

Knowledge DistillationはAIモデルを開発する際に幅広く使われている技法であるが、国により法的な解釈が異なる。米国においては、自社内で大型モデル(OpenAI o1)の知識を小型モデル(OpenAI o1-mini) に移転するために使われる。一方、中国市場では、企業を跨って大型モデル(DeepSeek R-1)の知識を小型モデル(Qwen2.5-32B) に移転するために使われている。米国企業はAIモデルを利用する条件として、Knowledge Distillationを禁止しているが、中国市場ではこの手法に関する制約はなく、米中間で法的な解釈が分かれている。

実際に使ってみると

QwQ-32BはAlibabaのチャットサイト「Qwen Chat」でホスティングされており、実際にモデルを使うことができる(下の写真)。QwQ-32B使ってみると、モデルは高度な推論機能を備えており、数学や物理などの問題に正確に回答する。一方で、QwQ-32Bは一般的な事項の質問に対しては、学習した知識が限られているのか、回答の精度が高くないように感じる。正確な情報が求められる際には、モデルの出力を検証する必要がある。QwQ-32Bを含めQwenシリーズは、モデルが回答を生成するプロセス「Chain-of-Thoughts」を出力する点に特徴がある。モデルがプロンプトを解釈し、利用者の意図を把握して、それに最適な解答を生成するプロセスを見ることができ、アルゴリズムの可視化に役立つ。

出典: Alibaba

コストパフォーマンスの戦い

QwQ-32Bは高機能で低コストで極めてコストパフォーマンスの高い製品となっている。DeepSeekショックが続く中、Alibabaは更に低コストのモデルを開発し、再び市場を驚かせた。AlibabaやDeepSeekなど中国企業は、既存のAIモデルを改良するスキルは極めて高く、米国企業がフロンティアモデルを投入し、これを中国企業が追随する構造が定着した。チャイナショックはアメリカに波及し、米国企業は先端モデルを開発するだけでなく、これを低価格で提供することを迫られている。

出典: Generated with Qwen2.5-Max