カテゴリー別アーカイブ: OpenAI

人間の知能に匹敵するAGIの登場!?OpenAIは推論モデル「o3」と「o4-mini」を公開、o3は天才レベルのIQに到達、マルチモダル機能を備えイメージ解析能力が劇的に向上

OpenAIは最新の推論モデル「o3」と「o4-mini」をリリースした。OpenAIは言語モデル「GPTシリーズ」と推論モデル「oシリーズ」を運用しているが、「o3」と「o4-mini」は後者の最新製品となる。最新モデルは推論機能が大幅に強化され複雑なタスクを実行する。推論機能では思考の鎖「Chain of Thought」という方式で教育され、複雑な問題をステップごとに思考し最終解を導き出す。最新モデルは、思考の過程にテキストだけでなくイメージを組み込むことができ、インテリジェンスが格段に向上した。

出典: Generated with OpenAI o3

推論モデル製品ライン

OpenAIは推論モデル「o3」と「o4-mini」をリリースした。o3はフルサイズのモデルで推論機能が極めて高く、難解な問題を解決するために使われる。o4-miniは小型の推論モデルで、実行時間が短く、プログラミングなどで実力を発揮する。両者は性能が拮抗しているが、難解な問題を解く技能についてはo3が高い能力を発揮する。(下のグラフ右側、業界で最難関のベンチマーク試験でo3は高度な能力を発揮)

出典: OpenAI 

マルチモダルな推論機能

OpenAIが公開したモデル情報を読むと推論機能が強化されたことが分かるが、実際に、モデルを使ってみるとそのインテリジェンスの高さに驚愕する。特に、推論機能をイメージに適用したケースでは、想像以上の機能を発揮し、マルチモダルの推論機能の高さを実感する。推論モデルが視覚を持ち、人間のインテリジェンスに最接近した。

o3を使ってみる:次の停車駅は

o3はChatGPTのインターフェイスでブラウザーから利用できる。o3はマルチモダルの機能と外部ツールを使用する機能が搭載され、回答できる範囲が広がった。イメージに関する解析機能が格段に向上し、入力した写真について難しい問いに回答することができる。o3にサンフランシスコ市内で撮影した路面電車の写真をアップロードし、「次の停車駅はどこか」と質問すると、これに正確に答えることができた(下の写真)。

出典: OpenAI

イメージ解析の手法

o3は思考の過程を「Chain of Thought」として出力し、解析の手法を理解することができる(下の写真)。これによると、o3は写真の中で路面電車の背後に写っているホテル(Hotel Zelos)から、ここはサンフランシスコのマーケットストリートであると判断。マーケットストリートを走る路面電車の路線は「Route F」で、南向きに走行しており、次の停車駅は「Market & 5th (Powell)」と判定した。o3は推論の過程で、インターネット上の20のサイトにアクセスし、必要な情報を取集した。その中で、サンフランシスコ運輸局(San Francisco Municipal Transportation Agency)のサイト(右カラム)で路線に関する情報を収集し停車駅を特定した。

出典: OpenAI

o3を使ってみる:このレストランは

o3にレストランで撮影した料理の写真を入力し、この場所を質問すると、o3はこれも正しく回答した(下の写真)。レストランの料理の写真から、想定されるレストランを特定し、それを絞り込んで最も確からしい候補を回答した。このケースでも、o3の思考の鎖(Chain of Thought、右側のカラム)を読むと、問題解決の手順を理解することができる。

出典: OpenAI

レストランを特定する

o3はテーブルに並べられた料理の写真から、これは「地中海・中近東料理」であることを特定した。また、料理のスタイルから、中近東のグリル形式の料理に絞り込んだ。更に、o3は旅行ガイドサイト「Tripadvisor」などにアクセスして、候補のレストランを複数提示した。そのトップが正解の「Café Baklava」でo3は正しく回答にたどり着いた。

出典: OpenAI

o3を使ってみる:フェイクイメージの検知

o3はフェイクイメージを検知するスキルを持っていることが分かった。o3にxAI Grok 3で生成したフェイクイメージを入力し、その真偽を判定するよう指示すると、正しく回答することができた。トランプ大統領と大谷選手が談話している合成写真に関し、o3はこれはフェイクイメージであると結論付けた(下の写真)。従来のイメージ判定AIは、ビジュアルな側面からイメージが改造された手掛かりを見つけるが、o3は多角的なアプローチを取り、FBIの捜査官ののように、ビジュアルな観点と論理的な考察を重ね総合的に判定する。

出典: OpenAI

フェイクを見分ける技法

このケースでは、イメージ解析の側面からは、トランプ大統領がビール瓶を握っている指の形が不自然で、o3はAIで生成する際の特性であると判定した。また、トランプ大統領のライフスタイルを解析し、大統領はアルコールを飲まないことを公表しており、このイメージはこのシナリオに反していると判断。また、ホワイトハウスのビジネス慣習の観点からは、重要なイベントはプレスリリースとして公開され、複数の写真が添付されるが、写真が単独で公開されている点や、主要メディアがこれを報道していないなど、不自然な点が多いとし、総合的な見地からフェイクイメージと断定した(下の写真)。

出典:OpenAI

IQテスト

o3はリリースされているAIモデルの中で最も高いIQ(Intelligence Quotient、知能指数)をマークした。AIの技術動向をモニターする団体「Maximum Truth」はAIモデルのIQ試験を実施し、その結果を公表している(下のグラフ)。それによると、o3のIQは136で業界トップの成績を達成した。二位はGoogle Gemini 2.5 Proで128をマークした。同時に発表されたo4-miniは118で五位の成績となる。このIQテストは「Mensa Norway」という方式で、人間の平均的なIQは85から114のレンジとなる。o3のIQが136とは、人間の上位1%の知能を持つことを意味し、天才(Moderately Gifted)であると定義される。AGIの定義は確定していないが、o3はこのレンジに入っているとの解釈もある。

出典:OpenAI

インファレンス・コンピューティング

o3は言語モデルとは異なり、推論機能を実行するためには、計算時間が長くなる。上述の路面電車の停車駅を判定するケースでは、計算時間は9分20秒を要した。言語モデルはほぼリアルタイムで回答を生成するが、推論モデルでは計算時間が20倍から100倍長くなる。これはインファレンス・コンピューティングと呼ばれ、実行時のプロセスで計算資源が必要となる。

スケーリング

OpenAIなど開発企業の観点からは、インファレンス・コンピューティングで大規模な計算環境が必要となり、運用コストが増大する。利用者の観点からは、AIモデルの使用料が上がり、出費が増大することになる。o3は「ChatGPT Plus(月額20ドル)」のサブスクリプションが必要で、かつ、利用件数は50件/週に限定される。制限なしに利用するためには「ChatGPT Pro(月額200ドル)」のサブスクリプションを購入する必要がある。利用者としては負担が増えるが、AIビジネスの観点からは、推論モデルの性能がスケーリングし、事業拡大が見込まれる。市場が再び大きく拡大するチャンスとなる。

OpenAIはトランプ政権にAI政策を提言、AI開発を促進するため規制の緩和と著作物のフェアユースを求める、中国企業の追い上げを脅威と認識し連邦政府に開発の後押しを要求

OpenAIは今週、トランプ政権にAI政策に関する提言書を提出した。この中でOpenAIは、AI規制を緩和し開発を促進する政策を導入することを求めた。特に、AIモデルを教育する著作物の使用に関し、これをフェアユースと解釈し、企業がこれらを使用できることを要求した。OpenAIは、DeepSeekなど中国企業が米国企業キャッチアップした現状を指摘し、米国がAI技術で世界をリードするために、トランプ政権に技術革新を後押しすることを要請した。

出典: OpenAI

AIアクションプラン

トランプ政権は米国のAI政策「AI Action Plan」の制定に向けて準備を進めている。これはバイデン政権のAI政策を置き換えるもので、新たなAI指針が制定される。この目標に向かって、ホワイトハウスはAI政策に関し、業界からのパブリックコメントを集約しており、OpenAIなど主要企業は意見書を提出した。

OpenAIの基本指針

OpenAIは提言書の中でAIと経済の関係など基本指針を示した。AIは米国経済を振興するための基幹技術であり、同時に、国家安全保障の防衛技術となる。中国共産党は2030年までにAI技術で米国を追い抜き、世界のリーダーとなることを目標としている。独裁国家がAIを制御することを防ぐため、米国がAI市場のリーダーとなり、民主主義を守ることがAIアクションプランの基軸となる。

出典: Generated with Grok

OpenAIの提言

この基本指針に沿って、OpenAIはAI政策について、五つの項目を提言した:

  • 規制緩和:AIに関する制約を緩和し、州政府では無く連邦政府が規制を統括する
  • 輸出規制:AIを同盟国に提供し、同時に、中国への輸出を制限する
  • 著作権:AI教育で著作物の使用をフェアユースとして認める
  • インフラ整備:AI開発のインフラ整備を支援し、また、経済特区を設立する
  • 政府のAI導入:連邦政府や軍事機関AIを導入しモデルケースになる

規制緩和:イノベーションの自由

米国では連邦政府によるAI規制法は制定されておらず、州政府がAI規制を進めるという構図となっている。このため、AI開発企業は州ごとに異なる規制法に準拠することを求められ、法令準拠の負担が増加している。このため、OpenAIは連邦政府がAI規制を統括し、米国内で共通のフレームワークを制定することを求めている。一方、このフレームワークは法令ではなく、連邦政府と民間企業の自主的な協定「voluntary partnership」とする。法令による規制ではなく、企業の自主的な規制を尊重する。

出典: Generated with Grok

輸出規制:民主的なAIをグローバルに展開

米国で開発したAIを同盟国に提供し、高度なAIがグローバルに利用されることを促進する。同時に、高度なAIが中国などで使われることを防ぐため、AI技術の輸出を三段階に分けて規制する。米国と同じレベルの輸出管理を導入している国々にはAI技術を制限なく提供する。一方、中国やその同盟国に対しては、AI技術へのアクセスを禁止する。その中間の国々には、AI技術へアクセスするために、強固なセキュリティを求める。

著作権:自由に学習する権利

企業がAI教育で著作物を利用することを許諾するよう求めている。著作物でアルゴリズムを教育することはフェアユースであるとの解釈を求め、米国がAI技術で世界のリーダーとなることを支援するよう要請している。また、欧州の著作権法がAI開発で大きな支障になると警告している。更に、DeepSeekなど中国企業が先進モデルを開発できた理由は、著作権物を含むデータを自由に使うことができたためとの解釈を示している。米国がAI開発で世界をリードするためには、著作物をモデル教育で利用できることが重要な要件となる。

出典: Generated with Grok

インフラ整備:経済振興の基盤

米国はAI開発のインフラを大規模に整備する必要がある。このためにインフラ整備法令「National Transmission Highway Act」を提唱。この法令は、データ通信、ファイバーネットワーク、天然ガスのパイプラインを整備し、データセンタの通信を強化し、発電所の能力を拡大する。また、連邦政府が保有している情報をデジタル化し、これを公開することを求めている。政府が保有している大量の情報がモデルを開発するための教育データとなる。また、AI開発のための経済特区「AI Economic Zones」を設立し、優遇税制などの制度を導入するよう求めている。経済特区においてスタートアップ企業の技術開発や事業化を支援する。

出典: Adobe Stock

政府のAI導入:ベストプラクティスを示す

連邦政府が率先してAIを導入し、国家のモデルケースになることを求めている。特に、安全保障部門で、サイバーセキュリティの法令を改定し、民間企業が連邦政府と協業できることを求めている。また、防衛部門や諜報部門はAIの導入を進め、国立研究機関を中心に機密情報を統合したAIを開発することを提言している。軍事部門でのAI導入はタブーとされてきたが、敵対国に対峙するため、安全保障の観点から開発を加速する必要がある。

出典: Adobe Stock

OpenAIは規制緩和に傾く

OpenAIは従来から、連邦政府によるAI規制を求めてきたが、今回の提言書では一転して、トランプ政権にAI規制の緩和を求めた。AIのイノベーションを重視し、緩やかな規制を導入し、法令ではなく企業による自主管理を提唱した。この背景には、DeepSeekなど中国企業が技術開発のペースを上げ、OpenAIに急接近している事実がある。中国企業が予想を上回るペースでAI技術を伸ばしており、米国企業は連邦政府と連携してこれに対抗する姿勢を示している。DeepSeekの登場が米国のAIアクションプランの構造に大きな影響を及ぼしている。

OpenAIは最新モデル「GPT-4.5」を公開、世界の知識を集約した巨大な汎用モデル、スケーラビリティの限界に近づき性能の伸びは緩やか

OpenAIは最新モデル「GPT-4.5」をリリースした。GPT-4.5は「Orion」というコードネームで開発され、言語モデルの最後の製品となる。GPT-4.5は巨大なモデルで、大量のデータ教育され、蓄積した知識量は世界最多となる。GPT-4.5は大規模言語モデルで、汎用的な機能を備えるベースモデルとなる。GPT-4.5は「Chain-of-Thoughts (CoT)」と呼ばれる推論機能を搭載しておらず、GPT-4oの後継機種として位置付けられる。

出典: OpenAI

GPT-4.5の機能概要

GPT-4.5はGPT-4oをベースとするモデルで、これを教師無し学習「Unsupervised Learning」の手法で拡張したモデルとなる。GPT-4.5は高度な言語機能を獲得し、人間の価値観に沿って稼働し、また、利用者の感情を知覚し、対人関係のスキルが格段に向上した。これにより、GPT-4.5は文章を作成する能力が向上し、また、プログラミングスキルが進化した。更に、GPT-4.5は安全性が強化され、ハルシネーションが減り、公平性が高いモデルとなった。(下のテーブル、GPT-4.5はGPT-4oと比較して、回答精度が向上し(左側)、ハルシネーションが低下した(右側))

出典: OpenAI

GPT-4.5の特性:EQが高いモデル

GPT-4.5は世界最大規模の知識を蓄えたモデルで、人間の言葉の機微を理解し、欲していることを的確に把握し、これに回答するモデルとなった。GPT-4.5は人間のように言葉の端々から感情を察し、これに沿った回答を生成する。いわゆる感情指数(Emotional Quotient、EQ)が高く、相手の感情を認識し理解する能力が高い。また、GPT-4.5はハルシネーションの発生率が低く、正確な情報を提供する。更に、簡潔な表現でポイントを分かりやすく示し、レポート形式ではなく対話形式で情報を提示する(下の写真左側)。

出典: OpenAI

利用料金が極めて高い

GPT-4.5はウェブサイトとAPI経由で利用することができる。ウェブサイトではChatGPT ProとChatGPT Plusのサブスクライバーに提供される。API経由で利用する場合は使用量に応じて課金される。100万件のトークンに対し、入力料金は75ドルで出力料金は150ドルとなる。GPT-4oと比べると、入力料金は30倍となり、出力料金は15倍となり、利用料金が急騰した(下のグラフ)。GPT-4.5の性能はGPT-4oから大きな飛躍は無いが、料金が最大で30倍となり、コストパフォーマンスに関する議論が広がっている。

出典: OpenAI

教育プロセスと教育データ

GPT-4.5はプレ教育(pre-training)とポスト教育(post-training)のプロセスを経て開発された。プレ教育はインターネット上の大量のデータで教育され、GPT-4oから規模が拡大した。ポスト教育では「教師ありチューニング(supervised fine-tuning (SFT))」と「人間のフィードバックによる強化学習(reinforcement learning from human feedback (RLHF))」によりモデルの機能を強化した。これにより、GPT-4.5は人間の機微を理解し、求められていることに適切に回答するモデルとなった。また、教育データの整備を進め、個人情報や有害な情報を取り除き、データの品質を向上させ、これにより回答の精度が向上した。

推論機能はない汎用モデル

GPT-4.5は言語機能やコーディングに関するベンチマークでは好成績をマークするが、数学や科学に関する性能評価では状況は一転する(下のグラフ)。GPT-4.5はGPT-4oの性能を上回るものの、推論モデルであるo3-mini (high)の性能には届かない。GPT-4.5は汎用的な言語モデルで、Chain-of-Thoughtsなど推論機能は搭載していない。GPT-4.5は世界の知識を蓄えた基礎モデルで、これをベースに次期モデルが開発される中継ぎの役割を担う。

出典: OpenAI

スケーリング:規模の拡大と性能向上

GPT-4.5はGPT-4oと比べて性能が向上したが、その幅は緩やかで劇的な性能ブレークスルーは無かった。モデルのスケーリングが頭打ちになり、規模を拡大してもそれに見合った性能ゲインは達成できない領域に入った。これは「Scaling Laws」と呼ばれ、大規模言語モデルの限界を示している。一方で、推論機能は規模を拡大するとそれに応じた性能の伸びを示しており、主要企業は一斉に、推論モデルの開発に比重をシフトした。これは「Test Time Computing」とも呼ばれ、モデルを実行する際に処理時間を長くすることで、回答精度を大きく向上できる。

安全性評価:Preparedness Evaluation

OpenAIはフロンティアモデルの危険性を評価するフレームワーク「Preparedness Framework Evaluations」を制定しており、これに沿って出荷前に安全試験を実施し、モデルの危険性を評価する。GPT-4.5は「CBRN(兵器製造スキル)」と「Persuasion(説得力)」のリスクは中程度で、「Cybersecurity(サイバー攻撃のスキル)」と「Autonomy(自律性)」のリスクは低いと評価され、OpenAIはGPT-4.5を出荷することができると判定した(下の写真)。

出典: OpenAI

安全性評価項目

評価項目は四つの分野から成り、完全試験の結果に従って、リスクレベルが格付けされる。

  • CBRN(兵器製造スキル):モデルが兵器生成をアシストするリスク
  • Cybersecurity(サイバー攻撃のスキル):モデルがサイバー攻撃で悪用されるリスク
  • Autonomy(自律性):モデルが人間を説得・誘導するリスク
  • Persuasion(説得力) :モデルが自身を複製し機能を向上するリスク

下のグラフ左側:Persuasion(説得力)を評価した結果で、犯罪者が相手を騙してお金を送金させるスキルを評価したもの。GPT-4.5のスキルが一番高く、成功率は57%。OpenAIはこのリスクは中程度(Medium)と判定し、GPT-4.5を出荷できると判定。

出典: OpenAI

GPT-5に向けた準備

OpenAIは先月、次世代モデル「GPT-5」の概要を公開した。GPT-5は言語モデルと推論モデルを統合したUnified Intelligence(統合インテリジェンス)となる。言語モデルはGPT-4.5の後継モデルとなり、また、推論モデルは「o」シリーズの次世代モデルとなる。GPT-4.5はGPT-5に向けた重要なマイルストーンとなり、モデルの基礎を担う汎用機能を提供する。OpenAIはGPT-5のリリース時期は数か月後となることを示唆している。

OpenAIは次世代モデル「GPT-5」の概要を発表、言語モデルと推論モデルを統合し「Unified Intelligence」を構成する

OpenAIのSam Altmanは次期製品「GPT-4.5」と「GPT-5」についてロードマップを公表した。GPT-4.5はGPT-4シリーズの最新モデルで、言語モデルとしての最後の製品となる。GPT-5は次世代モデルで、言語モデルと推論モデルを統合したUnified Intelligence(統合インテリジェンス)を構成する。OpenAIは推論モデルとして「o3」を開発しているが、このモデルはGPT-5に組み込まれ、単独製品として出荷する計画は中止された。リリース時期は、GPT-4.5は数週間後で、GPT-5は数か月後となる、と解釈されるコメントを公表した。

出典: Adobe Stock

GPT-4.5:言語モデル最後の製品

GPT-4.5は「Orion」というコードネームで開発され、言語モデルの最後の製品となる。GPT-4.5は「Chain-of-Thoughts (CoT)」と呼ばれる推論機能を搭載しておらず、GPT-4シリーズの最後のモデルとなる。OpenAIは推論モデルについては、「o1」と「o3 mini」を公開しており、言語モデルと推論モデルの二つの製品ラインを運用している。GPT-4.5のリリース時期は数週間後と解釈される。

GPT-5:統合インテリジェンス

GPT-5は言語モデルと推論モデルを統合した「Unified Intelligence」(統合インテリジェンス)というシステム構成となる。推論モデルの最新版「o3」がGPT-5に統合され、o3は単独製品として出荷する計画は中止された。OpenAIは統合インテリジェンスを生成する理由として、製品ラインが増え、利用者がモデルの選択で混乱しており、インターフェイスをシンプルにするためと説明している。現在は、GPT-4oを中心に、四つの言語モデルと三つの推論モデルが運用され(下の写真)、タスクに対しどのモデルを選択すべきか利用者の間で混乱が広がっている。GPT-5では製品ラインが一つに集約され、入力されたプロンプトに対し、システムが自動で最適なモジュールを選択する仕組みとなる。

出典: OpenAI

言語モデルと推論モデルの選択

OpenAIは言語モデル「GPT-4シリーズ」と推論モデル「oシリーズ」を運用しているが、モデルの選択基準については明確なルールを公表していない。一般に、言語モデルは言葉を処理するためのシステムで、文章の生成、記事の要約、質疑応答などに適している。一方、推論モデルは演繹的な考察や数学における推論や意思決定などの機能を持ち、難解な問題を解くために使われる。具体的には、数学の問題の解法、プログラムのコーディング、科学や医療データの解析などに使われる。また、最近ではAIエージェントのコア技術として実装され、複雑なタスクを完遂するための計画立案や意思決定のために威力を発揮すると期待されている。

GPT-5のシステム概要 (推定)

OpenAIはGPT-5のシステム構成などについては公表していないが、ソーシャルメディアで研究者グループがモデルの構造について意見を交わしている。これらを集約すると、GPT-5の構造が浮かび上がる。GPT-5の規模(パラメータ数)は52兆個で、GPT-4の1.76兆個の約30倍の規模となる。また、GPT-5はMoE(Mixture of Experts)というアーキテクチャを取り、200ユニットの エキスパートから構成される。OpenAIは、GPT-4は高校生レベルの知能を持つが、GPT-5は博士課程修了者レベルと説明している。GPT-5は巨大なシステムで、200の専用モデルから構成され、インテリジェンスが劇的に進化する。

出典: OpenAI DALL・E

スーパーボウルで広告ビデオ放映

OpenAIは、ChatGPTが科学技術の進化における最新のブレークスルーであるとして、スーパーボウルでビデオ公告を放映した。スーパーボウルはアメリカン・フットボールの決勝戦で、米国における最大のスポーツイベントとなる。今年はカンザスシティ・チーフスとフィラデルフィア・イーグルスが対戦し、イーグルスが大勝した。ビデオ公告は「Sora」で制作され、テクノロジーの遷移を白黒のピクセルで表現している(下の写真)。歴史を遡ると、人類は火の使用を始め、車輪を生み出し、馬による輸送が始まり、近年では、宇宙探査を始め、高度な半導体を開発した。これに続きChatGPTを開発し、人類の歴史を変える技術革新の最新事例であるというストーリーとなっている。

出典: OpenAI

Intelligence Age

OpenAIは高度なAIモデル「Artificial General Intelligence(AGI)」を開発することをミッションとしており、GPT-5はこれに向けた大きなステップとなる。蒸気機関を原動力とする機械制工場が出現し、これが英国における産業革命をもたらした。AGIによる高度なインテリジェンスが生まれることで、新しい可能性が生まれ、社会の生産性が向上する。Altmanはこの時代を「Intelligence Age」と命名し、インテリジェンスの機能が向上し、コストが激減し、社会がこれをふんだんに使える時代となると予測する。スーパーボウルでの広告ビデオは、OpenAIがこれに向かって開発を進めており、社会に役立つシステムを生み出すために尽力しているので、会社を信頼してほしい、とのメッセージが込められている。

スタンフォード大学は推論モデル「s1」を開発、性能はOpenAI「o1-preview」を超えた、言語モデルを推論モデルに強化する「知識抽出技術 (Distillation)」の詳細を公開

スタンフォード大学の研究グループは推論モデル「s1」を開発し、その性能はOpenAIの「o1-preview」を超えたと発表した。開発費は極めて低く、高品質な教育データを使うだけで、高度な推論モデルを開発できることを証明した。低価格で高度な推論モデルを開発できた理由は、「知識抽出技術(Distillation)」にあり、GoogleのGemini 2.0の知識をs1に移転した。Distillationは合法的な手法かどうか議論が続いているが、s1は簡単に推論モデルを開発できる手法を開発し、これをオープンソースとして公開した。

出典: San Francisco Peninsula

推論モデルの開発

スタンフォード大学は他の研究機関と共同で推論モデル「s1」を開発し、これをオープンソースとして公開した。言語モデルの性能が頭打ちになるなか、研究グループは実行時のプロセスを改良することで性能を向上させる「Test-time scaling」の手法でs1を生み出した。この手法で開発されたAIは推論モデルと呼ばれ、OpenAIの「o1」がその先駆けとなり、AI開発の新しいルートを切り開いた。一方、o1はクローズドソースで、モデルの構成などを理解することができない。このため、スタンフォード大学はオープンソースの手法で推論モデルを開発し、その技法を一般に公開し、研究成果をコミュニティと共有している。

出典: Adobe Generated with AI

s1の構造と開発手法

s1はオープンソースの言語モデルをベースに、これを独自に開発したデータセットで教育することで、推論モデルを生成した。具体的には、Alibabaが開発した言語モデル「Qwen2.5-32B-Instruct」をベースとし、これをスタンフォード大学が開発したデータセット「s1K」で教育することで、推論モデル「s1」を生成した。「s1K」はタグ付きの教育データセットで、1,000のデータから構成される。僅か1,000件のデータで高度な推論モデルを生成した。また、教育の過程では「Budget Forcing」という手法を導入し推論機能を向上した。Budget Forcingとは、s1に、“しっかり考察することを指示”する機能で、モデルは回答を再考することで、正解の確度を高める。また、反対に、推論を打ち切る機能としても使われる。教育データ「s1K」と教育方法「Budget Forcing」がこの研究のイノベーションとなり、OpenAIのo1-previewの性能を上回った(下のグラフ)。

出典: Niklas Muennighoff et al.

推論モデル教育データ

スタンフォード大学は推論モデルを教育するデータセット「s1K」を開発した。言語モデルの教育とは異なり、推論モデルを教育するデータは「Triplets」と呼ばれ、三つの要素から構成される。三要素を含むデータが基本単位となり、言語モデルをファインチューニングし、推論モデルを生成する。s1Kの構成要素は(下の写真):

  • 質問(Question):モデルに入力する質問や命令 (例:Raspberryに含まれるrの数は)
  • 推論過程(Reasoning Trace):質問に対するモデルの考察過程を出力したもの (回答を検証する過程など)
  • 回答(Response):モデルが考察の結果導き出した最終回答 (例:3)
出典: Niklas Muennighoff et al.

推論モデルの開発方法

スタンフォード大学は教育データセット「s1K」を知識抽出技術「Distillation」の手法で生成した。教育データは、数学の問題を中心に、生物学や物理学など幅広い領域をカバーし(下の写真)、59,029の事例を収集した。これを、品質や難度などに応じて、1,000件に絞り込んだ。これが「s1K」で、精選された教育データが生成された。このs1Kをファインチューニングの手法(Supervised fine-tuning)でモデルを教育しs1を生成した。その際に、「Budget Forcing」の手法を導入し、モデルに解を再考させる命令(Wait、上の写真、赤字の部分)を挿入し、回答の品質を向上した。

出典: Niklas Muennighoff et al.

Distillationの技法

スタンフォード大学は教育データを生成するためにGoogleの推論モデル「 Gemini 2.0 Flash Thinking Experimental」を使った。このモデルはGoogleの推論モデル最新版で、クラウド経由でAPIからアクセスした。このモデルに質問を入力し、その推論過程(Reasoning Trace)と最終回答(Response)を記録し、これを教育データとして利用した。これはDistillationという手法で、Gemini 2.0 Flash Thinking Experimentalの知識を収集し、これをs1に転移することで、短時間で高度な推論モデルを生成した。(下の写真、実際にGemini 2.0 Flash Thinking Experimentalに質問「How many r in raspberry?」を入力すると、推論過程と最終回答が示される。s1のケースではこれを教育データとして使用した。)

出典: Google

Distillationの手法に関する議論

GoogleのGemini 2.0 Flash Thinking Experimentalを使うことで、短時間に高品質な教育データを整備することができた。一方、GoogleはGemini 2.0 Flash Thinking Experimental などAIモデルを使って競合モデルを生成することを禁止している。企業はDistillationを禁止するものの、その検知は難しく、この手法で多くのモデルが生まれている。スタンフォード大学は論文の中でGemini 2.0 Flash Thinking Experimentalを使ったことを明示しているが、モデルの殆どはその開発手法を明らかにしていない。Distillationは知的財産のコピーなのか、法的解釈がグレイなエリアであるが、この手法により推論モデルの開発が急進していることも事実である。