月別アーカイブ: 2026年5月

緊急修正:米国政府はDeepSeek-V4を徹底検証、ベンチマーク手法に不備がありDeepSeekはモデルの性能を過大評価、米中間の技術ギャップは2か月ではなく8か月と判定

国立標準技術研究所(NIST)はDeepSeek-V4について多角的な分析を行いその結果を発表した。DeepSeek-V4はOpenAI GPT-5に匹敵する性能で、両者の技術ギャップは8か月と判定した。(DeepSeekは技術ギャップは2か月と発表)。また、DeepSeek-V4の運用コストはGPT-5.5 Miniの半分程度で、コストパフォーマンスが優れている事実を確認した。(DeepSeekはコストは米国モデルの1/10と発表)。 NISTはDeepSeekのベンチマーク手法に不備があり、モデルの性能が過大評価されていると判定した。NISTのミッションは中国モデルのモニターにあり、DeepSeek以外にも主要モデルを検証し技術進展状況をトラックしている。

出典: OpenAI GPT-5.5 Image

NISTとCAISIの役割

国立標準技術研究所(National Institute of Standards and Technology, NIST)は商務省配下の組織で米国の計量技術標準化の研究を推進する。NISTがAI技術の標準化や開発推進を担い、連邦政府のAI技術ハブとなる。トランプ政権はNIST配下にAI推進室「Center for AI Standards and Innovation (CAISI)」を開設した(上の写真、イメージ)。CAISIはAIモデルを評価しその安全性を査定する任務を担う。更に、CAISIは敵対国のAI開発状況を監視する役割があり、DeepSeekなど中国の主要モデルを評価し開発状況をトラックしている。

DeepSeek-V4の評価結果

CAISIは最新モデル「DeepSeek-V4」を検証しその結果を公表した(下のグラフ)。それによると、DeepSeek-V4は中国モデルの中で最も高い性能をマークした。一方、DeepSeekはモデルの性能を実際より高く評価していると結論付けた。DeepSeekは、DeepSeek-V4はOpenAI GPT-5.4に匹敵すると評価し、両者のギャップは2か月と発表した。CAISIは、DeepSeek-V4はOpenAI GPT-5に相当し、両者のギャップは8か月と判定した。

出典: CAISI 

ベンチマーク方式

CAISIの評価手法は5つのドメインで9のベンチマークテストを実施し、それを標準化する手法でモデルを評価した。5つのドメインは、サイバー、ソフトウェア・エンジニアリング、科学、推論機能、数学でこれらを統合してモデルを総合的に評価した。この手法は「Item Response Theory (IRT)」と呼ばれ、隠れた能力(人間の知能や特性など)を評価する手法で、これをAIモデルのベンチマークテストに適用した。

インファレンスコストの試験

CAISIはDeepSeek-V4をクラウドベースのGPUプロセッサ「H200」と「B200」 で実行しそのコストを比較した。この際に、DeepSeek-V4はOpenAI GPT-5.4 Miniと同等の性能であることから、両者のインファレンスコストを比較した(下のテーブル)。その結果、中国モデルが格段に低コストではなく、測定項目により大きな差異がある。GPQA DiamondではDeepSeek-V4のコストが高く、GPT-5.4 Miniの1.4倍となった。その他のケースではDeepSeek-V4のコストが安く、GPT-5.4 Miniの0.47倍から0.83倍となった。

出典: CAISI 

ベンチマーク・コンタミネーション

CAISIはDeepSeekのベンチマーク手法は公正ではないと結論付けた。この根拠が「Benchmark Contamination(ベンチマーク・コンタミネーション)」で、モデルを教育するデータセットに試験データが混入していると判定した。モデルがベンチマークテストのデータで教育され、これらの試験項目で実力以上に高度な性能を発揮する問題となる(下のグラフ左側、モデルは事前に試験問題を知りテストで高性能を発揮)。CAISIはDeepSeek-V4を非公開のベンチマークテストで検証した。この結果、モデルの性能は大きく下がることを確認した。(下のテーブル右側、非公開のベンチマーク「ARC-AGI-2 Semi-Private」、「PortBench」、「CTF-Archive-Diamond」でDeepSeek-V4は事前に試験問題を知ることができず、性能は極端に低下した。) これらのデータからCAISIはDeepSeek-V4の評価手法は公正ではないと結論付けた。

出典: CAISI 

競争はコストパフォーマンス

CAISIはDeepSeek-V4のインファレンス・コストを比較し、対抗モデルGPT-5.4 Miniより格安で実行できることを確認した(下のテーブル)。トップレベルの性能ではDeepSeek-V4は米国モデルに及ばないが、そこそこの性能を極めて低価格で提供し、コストパフォーマンスの競争ではDeepSeek-V4が大きく先行している事実を明らかにした。米国ではコストパフォーマンスを考慮して、GPTやClaudeを使う代わりにDeepSeekやQwenを利用する流れが広がっているが、CAISIの報告書はこれを追認した形となった。

出典: CAISI 

中国製AIプロセッサ

DeepSeek-V4の衝撃はモデルの性能ではなく、中国製のAIプロセッサで開発されたことにある。DeepSeek-V4はHuaweiのAIプロセッサ「Huawei Ascend 950」で開発された。DeepSeek-V4の実行ではインファレンス・プロセッサ「Ascend 950PR」が使われ、教育プロセスの一部でトレーニング・プロセッサ「Ascend 950DT」が使われた。中国企業はNvidia GPUへの依存の度合いを下げ、国産プロセッサでAIモデルを開発する流れを加速している。

出典: OpenAI GPT-5.5 Image

DeepSeekは最新モデル「DeepSeek-V4」を投入、性能でサプライズ無し、モデルを中国製チップで開発、ソフトウェアを劇的に改良、コスパで米国モデルを凌駕する戦略

DeepSeekは最新モデル「DeepSeek-V4」をリリースし、これをオープンソースとして公開した。DeepSeek-V4の性能は米国フロンティアモデルに迫るものの、想定された範囲でサプライズは無かった。しかし、DeepSeek-V4はNvidia GPUではなく、中国製チップ「Huawei Ascend」で開発され、技術独立戦略が着実に進行していることが明らかになった。ソフトウェアではアグレッシブな手法でモデルの効率性を極限まで探求した。コストパフォーマンスで米国モデルを格段に上回り、オープンソースの普及モデルとして、AI市場を席巻する勢いとなった。

出典: DeepSeek

DeepSeek-V4の概要

DeepSeek-V4はオープンソースのフロンティアモデルで米国モデルに迫る高度な性能を持つ。最大の特徴はコンテクスト・ウィンドウ(入力データの容量)が100万トークンとなり、大量のデータを処理できるモデルとなった。モデルは「Mixture of Experts(MoE)」というアーキテクチャを踏襲し、ハイエンドモデル「DeepSeek-V4-Pro」と軽量モデル「DeepSeek-V4-Flash」から構成される(下のテーブル)。DeepSeek-V4-Proのパラメータ数は1.6兆で、規模の面からも米国モデルに匹敵する。

出典: DeepSeek

ベンチマークテスト

DeepSeek-V4の性能がOpenAIやAnthropicやGoogleなど米国モデルに肉薄した(下のグラフ)。ベンチマークテスト性能は米国モデルに迫り、平均するとDeepSeek-V4の性能は米国トップモデルから13%劣る位置付けとなる。ただ、注目すべき点は「SWE Verified」で、コーディング・エージェント性能では米国モデルを完全にキャッチアップした。DeepSeek-V4はAIエージェントのエンジンとして設計されている。

出典: DeepSeek 

中国製AIプロセッサ

DeepSeekはAIプロセッサとしてNvidia GPUとHuawei Ascend NPUを使い、モデルの検証試験を実行した。同時に、HuaweiはDeepSeek-V4はAIプロセッサ「Huawei Ascend 950」シリーズで開発されたと公表した(下の写真)。Ascend 950はインファレンス・プロセッサ「Ascend 950PR」とトレーニング・プロセッサ「Ascend 950DT」から構成される。DeepSeek-V4の実行ではAscend 950PRが使われ、教育プロセスの一部でAscend 950DTが使われた。中国企業はNvidia GPUへの依存の度合いを下げ、国産プロセッサでAIモデルを開発する流れを加速している。

出典: Huawei 

アルゴリズムの改良

DeepSeekはDeepSeek-V4のアーキテクチャやアルゴリズムの改良を極限まで探求し効率的なモデルを構築した。これにより、限られたAIプロセッサで高度な性能を発揮し、メモリの使用量を大幅に削減し、効率的なモデルを生み出した。アルゴリズムの改良では「Compressed Sparse Attention (CSA)」という方式を取る。CSAはトランスフォーマのアテンションのメカニズムを改良し、KVキャッシュの容量を劇的に縮小し、大規模データ(1Mのコンテキスト・ウィンドウ)の計算を効率化した。(下の写真、CSAのメカニズム、過去のデータ全てを参照するのではなく、これを圧縮し、必要な部分だけを参照する。一方、直近のデータは圧縮することなく、そのまま参照する)。

出典: DeepSeek 

AIエージェント

DeepSeek-V4はAIエージェント向けのAIモデルとして開発され、自律的にタスクを実行する機能に特徴がある。DeepSeek-V4はAIエージェント・フレームワークと連携してシステムを構成する。AIエージェント・フレームワークとしては、Claude CodeやOpenClawなどがその代表で、ここに組み込まれAIエージェントのブレインとなる。(下の写真、スーパーマーケットのキャンペーンの企画をAIエージェントで実行した結果)

出典: DeepSeek 

激安価格

DeepSeek-V4は効率を探求したモデルで、DeepSeekはこれを低価格で提供している(下のテーブル、上段)。米国のフロンティアモデル(Claude Opus 4.6)と比べると(下段)、API利用価格は29%から14%で、同じレベルの性能を激安価格で利用できる。DeepSeekは米国フロンティアモデルに匹敵する性能を超低価格で提供し、世界のAI市場でシェアを拡大する戦略を取る。

出典: Generated with Google Gemini 3.1 Pro

AIエージェントのエンジン

DeepSeekやAlibaba QwenはAIエージェントのエンジンとして人気がある。Claude CodeなどAIエージェントのエンジンにClaudeを使うと利用料金が極めて高い。このため、多くのユーザは中国モデルのDeepSeekやQwenをエンジンとして使っている。性能は米国モデルに及ばないが、そこそこの性能を割安価格で利用できるため、水面下で急速に普及している。米国や同盟国のシステムにDeepSeekなどのオープンソースが徐々に浸透しており、安全保障の側面から新たな問題を提起している。