月別アーカイブ: 2025年2月

OpenAIは最新モデル「GPT-4.5」を公開、世界の知識を集約した巨大な汎用モデル、スケーラビリティの限界に近づき性能の伸びは緩やか

OpenAIは最新モデル「GPT-4.5」をリリースした。GPT-4.5は「Orion」というコードネームで開発され、言語モデルの最後の製品となる。GPT-4.5は巨大なモデルで、大量のデータ教育され、蓄積した知識量は世界最多となる。GPT-4.5は大規模言語モデルで、汎用的な機能を備えるベースモデルとなる。GPT-4.5は「Chain-of-Thoughts (CoT)」と呼ばれる推論機能を搭載しておらず、GPT-4oの後継機種として位置付けられる。

出典: OpenAI

GPT-4.5の機能概要

GPT-4.5はGPT-4oをベースとするモデルで、これを教師無し学習「Unsupervised Learning」の手法で拡張したモデルとなる。GPT-4.5は高度な言語機能を獲得し、人間の価値観に沿って稼働し、また、利用者の感情を知覚し、対人関係のスキルが格段に向上した。これにより、GPT-4.5は文章を作成する能力が向上し、また、プログラミングスキルが進化した。更に、GPT-4.5は安全性が強化され、ハルシネーションが減り、公平性が高いモデルとなった。(下のテーブル、GPT-4.5はGPT-4oと比較して、回答精度が向上し(左側)、ハルシネーションが低下した(右側))

出典: OpenAI

GPT-4.5の特性:EQが高いモデル

GPT-4.5は世界最大規模の知識を蓄えたモデルで、人間の言葉の機微を理解し、欲していることを的確に把握し、これに回答するモデルとなった。GPT-4.5は人間のように言葉の端々から感情を察し、これに沿った回答を生成する。いわゆる感情指数(Emotional Quotient、EQ)が高く、相手の感情を認識し理解する能力が高い。また、GPT-4.5はハルシネーションの発生率が低く、正確な情報を提供する。更に、簡潔な表現でポイントを分かりやすく示し、レポート形式ではなく対話形式で情報を提示する(下の写真左側)。

出典: OpenAI

利用料金が極めて高い

GPT-4.5はウェブサイトとAPI経由で利用することができる。ウェブサイトではChatGPT ProとChatGPT Plusのサブスクライバーに提供される。API経由で利用する場合は使用量に応じて課金される。100万件のトークンに対し、入力料金は75ドルで出力料金は150ドルとなる。GPT-4oと比べると、入力料金は30倍となり、出力料金は15倍となり、利用料金が急騰した(下のグラフ)。GPT-4.5の性能はGPT-4oから大きな飛躍は無いが、料金が最大で30倍となり、コストパフォーマンスに関する議論が広がっている。

出典: OpenAI

教育プロセスと教育データ

GPT-4.5はプレ教育(pre-training)とポスト教育(post-training)のプロセスを経て開発された。プレ教育はインターネット上の大量のデータで教育され、GPT-4oから規模が拡大した。ポスト教育では「教師ありチューニング(supervised fine-tuning (SFT))」と「人間のフィードバックによる強化学習(reinforcement learning from human feedback (RLHF))」によりモデルの機能を強化した。これにより、GPT-4.5は人間の機微を理解し、求められていることに適切に回答するモデルとなった。また、教育データの整備を進め、個人情報や有害な情報を取り除き、データの品質を向上させ、これにより回答の精度が向上した。

推論機能はない汎用モデル

GPT-4.5は言語機能やコーディングに関するベンチマークでは好成績をマークするが、数学や科学に関する性能評価では状況は一転する(下のグラフ)。GPT-4.5はGPT-4oの性能を上回るものの、推論モデルであるo3-mini (high)の性能には届かない。GPT-4.5は汎用的な言語モデルで、Chain-of-Thoughtsなど推論機能は搭載していない。GPT-4.5は世界の知識を蓄えた基礎モデルで、これをベースに次期モデルが開発される中継ぎの役割を担う。

出典: OpenAI

スケーリング:規模の拡大と性能向上

GPT-4.5はGPT-4oと比べて性能が向上したが、その幅は緩やかで劇的な性能ブレークスルーは無かった。モデルのスケーリングが頭打ちになり、規模を拡大してもそれに見合った性能ゲインは達成できない領域に入った。これは「Scaling Laws」と呼ばれ、大規模言語モデルの限界を示している。一方で、推論機能は規模を拡大するとそれに応じた性能の伸びを示しており、主要企業は一斉に、推論モデルの開発に比重をシフトした。これは「Test Time Computing」とも呼ばれ、モデルを実行する際に処理時間を長くすることで、回答精度を大きく向上できる。

安全性評価:Preparedness Evaluation

OpenAIはフロンティアモデルの危険性を評価するフレームワーク「Preparedness Framework Evaluations」を制定しており、これに沿って出荷前に安全試験を実施し、モデルの危険性を評価する。GPT-4.5は「CBRN(兵器製造スキル)」と「Persuasion(説得力)」のリスクは中程度で、「Cybersecurity(サイバー攻撃のスキル)」と「Autonomy(自律性)」のリスクは低いと評価され、OpenAIはGPT-4.5を出荷することができると判定した(下の写真)。

出典: OpenAI

安全性評価項目

評価項目は四つの分野から成り、完全試験の結果に従って、リスクレベルが格付けされる。

  • CBRN(兵器製造スキル):モデルが兵器生成をアシストするリスク
  • Cybersecurity(サイバー攻撃のスキル):モデルがサイバー攻撃で悪用されるリスク
  • Autonomy(自律性):モデルが人間を説得・誘導するリスク
  • Persuasion(説得力) :モデルが自身を複製し機能を向上するリスク

下のグラフ左側:Persuasion(説得力)を評価した結果で、犯罪者が相手を騙してお金を送金させるスキルを評価したもの。GPT-4.5のスキルが一番高く、成功率は57%。OpenAIはこのリスクは中程度(Medium)と判定し、GPT-4.5を出荷できると判定。

出典: OpenAI

GPT-5に向けた準備

OpenAIは先月、次世代モデル「GPT-5」の概要を公開した。GPT-5は言語モデルと推論モデルを統合したUnified Intelligence(統合インテリジェンス)となる。言語モデルはGPT-4.5の後継モデルとなり、また、推論モデルは「o」シリーズの次世代モデルとなる。GPT-4.5はGPT-5に向けた重要なマイルストーンとなり、モデルの基礎を担う汎用機能を提供する。OpenAIはGPT-5のリリース時期は数か月後となることを示唆している。

xAIは世界最先端のモデル「Grok 3」をリリース、ゼロから出発し1年半でOpenAIに追い付く、マスク氏のビジョンを反映したモデルで真実を探求 (危険なプロンプトに率直に回答)する

Elon Muskが創設したAI企業xAIは今週、最新モデル「Grok 3」をリリースした。発表イベントにマスク氏も参加し、開発者と共にモデルの機能や性能を説明した。Grok 3はシリーズの最新モデルで、機能が大幅に強化されOpenAIなど先頭集団に追い付いた。Grok 3は高度な推論機能を持ち、実行時の考察力が高いという特性を持つ。また、Grok 3はマスク氏のビジョンを内包するモデルで、リベラルにバイアスすることなく、政治的に中立な立場を取る。危ういプロンプトに対しても回答し、不都合な真実を率直に出力する。

出典: xAI

短時間で他社をキャッチアップ

xAIは2023年の中旬にGrokシリーズの開発を始め、2023年11月にGrok 1を、2024年8月にGrok 2を公開した。2025年2月に最新モデルGrok 3を公表し、その性能はGoogleの最新モデル「Gemini 2.0 Pro」を追い越し、業界トップに到達した。開発を始めてから1年半で業界トップとなり、開発のスピードが速いことをアピールした。(下のグラフ、OpenAIはこの性能を達成するまでに5年を要した)

出典: xAI

スーパーコンピュータ「Colossal」

Grok 3はxAIの第三世代のモデルで世界最大規模のスーパーコンピュータ「Colossal」で開発された。プロセッサはNvidia GPU (H100)を20万台搭載する世界最大の構成となる。データセンタはケンタッキー州メンフィスに建設され、既存施設を使い、そこにプロセッサなどIT機器を設置した。第一期の工事は、122日でGPUを10万台設置し、第二期の工事では92日間でこれを20万台に拡張した。GPU H100は空冷で稼働するプロセッサであるが、xAIは冷却効果を向上させるため、プロセッサを水冷方式で冷却した。Supermicroが水冷式のGPUサーバを提供し、Dellがこれらの機器をインテグレーションした。(下の写真、データセンタの外観)

出典: xAI

ベンチマーク結果

Grok 3は世界で最も高度なAIモデルとなった。xAIはベンチマーク結果を公表し、Grok 3は数学(AIME’24)、科学(GPQA)、コーディング(LiveCodeBench)でGoogle Gemini 2.0 ProやClaude Sonnet 3.5やOpenAI GPT-4oなど他社のフラッグシップモデルの性能を上回った。Grok 3は世界最大規模のモデルで、パラメータの数は2.7兆個で、GPT-4の2倍の規模となる。

出典: xAI

Grok 3を使ってみる: 政治的なバイアス

Grok 3の特性はリベラルではなく保守にバイアスしているといわれるが、実際に使ってみると、中立なポジションを取っていることが分かる。マスク氏はGrokを「最大限に真実を探求するモデル」にするとのビジョンを掲げている。Grokはこの考え方を実現し、モデルは政治的に正しい解を生成するのではなく、真実を出力する構成となっている。政治的に答えにくい質問にも回答を出力し、大胆なモデルとの印象を受ける。

トランプ大統領はアメリカにとって良いことか

Grokにトランプ大統領の政策やマスク氏のDOGE(政府効率化プロジェクト)の評価を尋ねると、モデルの政治的な志向を理解することができる。Grok 3の「Think」オプション(深い考察)」をオンにして、「トランプ大統領はアメリカにとって良い政治家か」と聞くと、モデルはプラス面とマイナス面を示し、「個人の視点により評価が異なる」と回答した(下の写真)。Grokはトランプ政権を擁護するポジションは取らず、客観的にこれを検証している。一方、GoogleのGemini 2.0 Flash Thinkingに同じ質問をしたが、回答できないと返答し、出力を抑制していることが分かった。Googleは政治的に微妙な質問については回答を控えるが、Grok 3は危ういプロンプトにも率直に回答する設計となっている。

出典: xAI

イメージ生成:ガードレールが低い

Grok 3はプロンプトに従ってイメージを生成する機能がある。これは、「Aurora」というモジュールの機能で、Grok 3と連携して写真のような高精度なイメージを生成する。ただし、Grok 3のガードレールは緩やかで、著名人のイメージの生成を規制しておらず、フェイクイメージを簡単に生成できる(下の写真)。画像右下に「Grok xAI」というウォータマークが入っており、AIモデルにより生成されたことを表示している。しかし、ソーシャルメディア「X」はこれら著名人のフェイクイメージの掲載を認めており、どれが真実の写真なのか見分けがつかない状態となっている。

出典: xAI

発言の自由と危険性のバランス

xAIはGrok 1とGrok 2をリリースしたが、その性能や機能は十分でなく、メディアで話題になることは無かった。しかし、Grok 3は前世代のモデルから格段に進化し、一挙に業界のトップ集団に加わった。Gemini 2.0やClaude Sonnet 3.5やGPT-4oに十分対抗できる製品で、利用者の選択肢が拡大した。一方、Grok 3はマスク氏のビジョンを反映し、発言の自由を探求したモデルとなり、危ういプロンプトに対してもテキストやイメージを生成する。Grok 3はガードレールを下げたモデルとなり、発言の自由と社会に及ぼす危険性のバランスが問われている。(下の写真、Grok 3の発表イベント、マスク氏も参加してビジョンを説明)

出典: xAI

OpenAIは次世代モデル「GPT-5」の概要を発表、言語モデルと推論モデルを統合し「Unified Intelligence」を構成する

OpenAIのSam Altmanは次期製品「GPT-4.5」と「GPT-5」についてロードマップを公表した。GPT-4.5はGPT-4シリーズの最新モデルで、言語モデルとしての最後の製品となる。GPT-5は次世代モデルで、言語モデルと推論モデルを統合したUnified Intelligence(統合インテリジェンス)を構成する。OpenAIは推論モデルとして「o3」を開発しているが、このモデルはGPT-5に組み込まれ、単独製品として出荷する計画は中止された。リリース時期は、GPT-4.5は数週間後で、GPT-5は数か月後となる、と解釈されるコメントを公表した。

出典: Adobe Stock

GPT-4.5:言語モデル最後の製品

GPT-4.5は「Orion」というコードネームで開発され、言語モデルの最後の製品となる。GPT-4.5は「Chain-of-Thoughts (CoT)」と呼ばれる推論機能を搭載しておらず、GPT-4シリーズの最後のモデルとなる。OpenAIは推論モデルについては、「o1」と「o3 mini」を公開しており、言語モデルと推論モデルの二つの製品ラインを運用している。GPT-4.5のリリース時期は数週間後と解釈される。

GPT-5:統合インテリジェンス

GPT-5は言語モデルと推論モデルを統合した「Unified Intelligence」(統合インテリジェンス)というシステム構成となる。推論モデルの最新版「o3」がGPT-5に統合され、o3は単独製品として出荷する計画は中止された。OpenAIは統合インテリジェンスを生成する理由として、製品ラインが増え、利用者がモデルの選択で混乱しており、インターフェイスをシンプルにするためと説明している。現在は、GPT-4oを中心に、四つの言語モデルと三つの推論モデルが運用され(下の写真)、タスクに対しどのモデルを選択すべきか利用者の間で混乱が広がっている。GPT-5では製品ラインが一つに集約され、入力されたプロンプトに対し、システムが自動で最適なモジュールを選択する仕組みとなる。

出典: OpenAI

言語モデルと推論モデルの選択

OpenAIは言語モデル「GPT-4シリーズ」と推論モデル「oシリーズ」を運用しているが、モデルの選択基準については明確なルールを公表していない。一般に、言語モデルは言葉を処理するためのシステムで、文章の生成、記事の要約、質疑応答などに適している。一方、推論モデルは演繹的な考察や数学における推論や意思決定などの機能を持ち、難解な問題を解くために使われる。具体的には、数学の問題の解法、プログラムのコーディング、科学や医療データの解析などに使われる。また、最近ではAIエージェントのコア技術として実装され、複雑なタスクを完遂するための計画立案や意思決定のために威力を発揮すると期待されている。

GPT-5のシステム概要 (推定)

OpenAIはGPT-5のシステム構成などについては公表していないが、ソーシャルメディアで研究者グループがモデルの構造について意見を交わしている。これらを集約すると、GPT-5の構造が浮かび上がる。GPT-5の規模(パラメータ数)は52兆個で、GPT-4の1.76兆個の約30倍の規模となる。また、GPT-5はMoE(Mixture of Experts)というアーキテクチャを取り、200ユニットの エキスパートから構成される。OpenAIは、GPT-4は高校生レベルの知能を持つが、GPT-5は博士課程修了者レベルと説明している。GPT-5は巨大なシステムで、200の専用モデルから構成され、インテリジェンスが劇的に進化する。

出典: OpenAI DALL・E

スーパーボウルで広告ビデオ放映

OpenAIは、ChatGPTが科学技術の進化における最新のブレークスルーであるとして、スーパーボウルでビデオ公告を放映した。スーパーボウルはアメリカン・フットボールの決勝戦で、米国における最大のスポーツイベントとなる。今年はカンザスシティ・チーフスとフィラデルフィア・イーグルスが対戦し、イーグルスが大勝した。ビデオ公告は「Sora」で制作され、テクノロジーの遷移を白黒のピクセルで表現している(下の写真)。歴史を遡ると、人類は火の使用を始め、車輪を生み出し、馬による輸送が始まり、近年では、宇宙探査を始め、高度な半導体を開発した。これに続きChatGPTを開発し、人類の歴史を変える技術革新の最新事例であるというストーリーとなっている。

出典: OpenAI

Intelligence Age

OpenAIは高度なAIモデル「Artificial General Intelligence(AGI)」を開発することをミッションとしており、GPT-5はこれに向けた大きなステップとなる。蒸気機関を原動力とする機械制工場が出現し、これが英国における産業革命をもたらした。AGIによる高度なインテリジェンスが生まれることで、新しい可能性が生まれ、社会の生産性が向上する。Altmanはこの時代を「Intelligence Age」と命名し、インテリジェンスの機能が向上し、コストが激減し、社会がこれをふんだんに使える時代となると予測する。スーパーボウルでの広告ビデオは、OpenAIがこれに向かって開発を進めており、社会に役立つシステムを生み出すために尽力しているので、会社を信頼してほしい、とのメッセージが込められている。

スタンフォード大学は推論モデル「s1」を開発、性能はOpenAI「o1-preview」を超えた、言語モデルを推論モデルに強化する「知識抽出技術 (Distillation)」の詳細を公開

スタンフォード大学の研究グループは推論モデル「s1」を開発し、その性能はOpenAIの「o1-preview」を超えたと発表した。開発費は極めて低く、高品質な教育データを使うだけで、高度な推論モデルを開発できることを証明した。低価格で高度な推論モデルを開発できた理由は、「知識抽出技術(Distillation)」にあり、GoogleのGemini 2.0の知識をs1に移転した。Distillationは合法的な手法かどうか議論が続いているが、s1は簡単に推論モデルを開発できる手法を開発し、これをオープンソースとして公開した。

出典: San Francisco Peninsula

推論モデルの開発

スタンフォード大学は他の研究機関と共同で推論モデル「s1」を開発し、これをオープンソースとして公開した。言語モデルの性能が頭打ちになるなか、研究グループは実行時のプロセスを改良することで性能を向上させる「Test-time scaling」の手法でs1を生み出した。この手法で開発されたAIは推論モデルと呼ばれ、OpenAIの「o1」がその先駆けとなり、AI開発の新しいルートを切り開いた。一方、o1はクローズドソースで、モデルの構成などを理解することができない。このため、スタンフォード大学はオープンソースの手法で推論モデルを開発し、その技法を一般に公開し、研究成果をコミュニティと共有している。

出典: Adobe Generated with AI

s1の構造と開発手法

s1はオープンソースの言語モデルをベースに、これを独自に開発したデータセットで教育することで、推論モデルを生成した。具体的には、Alibabaが開発した言語モデル「Qwen2.5-32B-Instruct」をベースとし、これをスタンフォード大学が開発したデータセット「s1K」で教育することで、推論モデル「s1」を生成した。「s1K」はタグ付きの教育データセットで、1,000のデータから構成される。僅か1,000件のデータで高度な推論モデルを生成した。また、教育の過程では「Budget Forcing」という手法を導入し推論機能を向上した。Budget Forcingとは、s1に、“しっかり考察することを指示”する機能で、モデルは回答を再考することで、正解の確度を高める。また、反対に、推論を打ち切る機能としても使われる。教育データ「s1K」と教育方法「Budget Forcing」がこの研究のイノベーションとなり、OpenAIのo1-previewの性能を上回った(下のグラフ)。

出典: Niklas Muennighoff et al.

推論モデル教育データ

スタンフォード大学は推論モデルを教育するデータセット「s1K」を開発した。言語モデルの教育とは異なり、推論モデルを教育するデータは「Triplets」と呼ばれ、三つの要素から構成される。三要素を含むデータが基本単位となり、言語モデルをファインチューニングし、推論モデルを生成する。s1Kの構成要素は(下の写真):

  • 質問(Question):モデルに入力する質問や命令 (例:Raspberryに含まれるrの数は)
  • 推論過程(Reasoning Trace):質問に対するモデルの考察過程を出力したもの (回答を検証する過程など)
  • 回答(Response):モデルが考察の結果導き出した最終回答 (例:3)
出典: Niklas Muennighoff et al.

推論モデルの開発方法

スタンフォード大学は教育データセット「s1K」を知識抽出技術「Distillation」の手法で生成した。教育データは、数学の問題を中心に、生物学や物理学など幅広い領域をカバーし(下の写真)、59,029の事例を収集した。これを、品質や難度などに応じて、1,000件に絞り込んだ。これが「s1K」で、精選された教育データが生成された。このs1Kをファインチューニングの手法(Supervised fine-tuning)でモデルを教育しs1を生成した。その際に、「Budget Forcing」の手法を導入し、モデルに解を再考させる命令(Wait、上の写真、赤字の部分)を挿入し、回答の品質を向上した。

出典: Niklas Muennighoff et al.

Distillationの技法

スタンフォード大学は教育データを生成するためにGoogleの推論モデル「 Gemini 2.0 Flash Thinking Experimental」を使った。このモデルはGoogleの推論モデル最新版で、クラウド経由でAPIからアクセスした。このモデルに質問を入力し、その推論過程(Reasoning Trace)と最終回答(Response)を記録し、これを教育データとして利用した。これはDistillationという手法で、Gemini 2.0 Flash Thinking Experimentalの知識を収集し、これをs1に転移することで、短時間で高度な推論モデルを生成した。(下の写真、実際にGemini 2.0 Flash Thinking Experimentalに質問「How many r in raspberry?」を入力すると、推論過程と最終回答が示される。s1のケースではこれを教育データとして使用した。)

出典: Google

Distillationの手法に関する議論

GoogleのGemini 2.0 Flash Thinking Experimentalを使うことで、短時間に高品質な教育データを整備することができた。一方、GoogleはGemini 2.0 Flash Thinking Experimental などAIモデルを使って競合モデルを生成することを禁止している。企業はDistillationを禁止するものの、その検知は難しく、この手法で多くのモデルが生まれている。スタンフォード大学は論文の中でGemini 2.0 Flash Thinking Experimentalを使ったことを明示しているが、モデルの殆どはその開発手法を明らかにしていない。Distillationは知的財産のコピーなのか、法的解釈がグレイなエリアであるが、この手法により推論モデルの開発が急進していることも事実である。