月別アーカイブ: 2024年12月

米国AI市場に激震が走る!!中国企業がオープンソース生成AIでトップに立つ、「DeepSeek-V3」が「Meta LLama-3.1」を追い越す、開発コストは1/10で効率を極めたモデル

中国のAI企業DeepSeek-AIは大規模言語モデル「DeepSeek-V3」を公開したが、その性能は高く、開発コストは低く、米国AI市場に衝撃をもたらした。DeepSeek-V3はMetaのハイエンドモデル「Llama-3.1-405B-Inst」の性能を追い越し、更に、開発コストはMetaの1/10で、極めてコストパフォーマンスが高い製品となった。米国企業がAI市場で首位を保ってきたが、その地位が逆転した。

出典: DeepSeek

中国スタートアップ企業

DeepSeek-AIは中国・杭州市に拠点を置くスタートアップ企業でAI開発で高度な技術を持つ。人間の知能に匹敵するモデル「AGI」を社会に提供することを目的に、高度な言語モデルを開発を進めている。DeepSeek-AIは大規模言語モデルを投入してきたが、12月26日、最新モデルの「DeepSeek-V3」をリリースした。

DeepSeek-V3とは

DeepSeek-V3は大規模言語モデルで、AGI開発に向けたステップとして、人間のように複雑なタスクを実行する。具体的には、言語解析に加え、推論機能を備え、マルチモダルな情報を理解する。また、DeepSeek-V3は倫理的で安全なAIとして設計されており、セーフガード機構を備え、リスクを最小に抑える構造となっている。DeepSeek-V3はAPIが公開されアプリケーションから利用できる。また、ブラウザーのインターフェイスで対話形式で使うこともできる。

DeepSeek-V3を使ってみると

DeepSeek-V3はウェブサイトでチャットボットとして公開されており、実際に使ってその性能を検証することができる。DeepSeek-V3は対話モデルの他に、推論モデル、検索モデルとして利用できる(下の写真、検索モデルの事例、旅行プランの作成)。

  • 対話モデルは汎用的なチャットボット
  • 推論モデルは複雑なタスクを分割してステップごとに解いていく
  • 検索モードは問われたことに関し、ウェブサイトを検索して、それを回答の形にまとめて出力する

DeepSeek-V3の知識は2023年10月までの情報で、新しい事柄に回答できない。これに対し、検索モードは最新情報までをカバーするので、使ってみて一番便利と感じる。また、DeepSeek-V3はインファレンスの反応時間が短く、質問したことをほぼリアルタイムで回答する。一方、推論機能はまだ完成度が低く、複雑な質問に正しく回答することができない。

出典: DeepSeek

業界トップの性能に到達

DeepSeek-V3はオープンソースモデルの中でトップの成績をマークした。今までは、Meta LLama-3.2が業界をリードしていたが、DeepSeek-V3がこの座を奪った(下のグラフ、ここではLlama-3.1-405B-Instの性能が示されている。)。また、DeepSeek-V3はクローズドソースのモデルと比較しても高い性能を示し、Anthropic Claude 3.5 Sonnetに匹敵する性能を達成した。DeepSeek-V3の特徴は数学の問題を解く能力が高いことと、コーディングとエンジニアリングで高いスキルを持つことにある。

出典: DeepSeek

アーキテクチャで数々の工夫

DeepSeek-V3は671Bのパラメータから構成される大型モデルで、「Mixture-of-Experts (MoE)」というアーキテクチャを採用している。MoEとはモデルが複数のモジュールから構成され、トークン(入力データ)に対し最適のモジュール(エキスパート)が回答を生成するという構造となる(下の写真右上の部分)。実際には、257のエキスパートから構成され、1つの共有エクスパートと、256の専門エキスパートが金融や医療など専門分野の知識を持つ。また、DeepSeek-V3は「Multi-head Latent Attention (MLA)」という方式を考案した。これはトランスフォーマ(Transformer)のアテンション機構に関する方式で、インファレンスのプロセスで、「Key-Value」 (入力されたトークンの位置と値の組合せ) をベクトル形式(Latent Vector)に変換し、それを圧縮して格納する(下の写真右側下段)。これにより、実行時のメモリー容量を格段に縮小し効率的に稼働できる。

出典: DeepSeek

開発コストは十分の一

DeepSeek-V3の開発では、プレ教育において14.8兆のトークンがつかわれた。また、ポスト教育においては人間によるファインチューニングと強化学習により、モデルが人間の価値に沿って稼働するよう最適化された。この教育ではNvidia GPUの「H800」というモデルが2778K時間使われた。これを金額に換算すると5.576Mドルとなる(下のテーブル)。これに対し、Meta Llama-3.2の教育では、Nvidia GPUの「H100」を30.8M時間稼働させ、コストに換算すると500Mドルと推定される。DeepSeek-V3はLlama-3.2の性能を上回り、これを1/10のコストで達成した。

出典: DeepSeek

API価格が激安

開発コストが低いことは開発者の観点からは使用料金が低いことを意味する。API価格(1Mトークン当たりの価格)で比較すると、DeepSeek-V3の性能は他社に比べて高く、価格は大幅に低く設定されている(下のグラフ)。特に、Anthropic Claude 3.5 Sonnetと比較すると、性能は同程度であるが、API価格は1/10となっている。DeepSeek-V3のインパクトは甚大で、AI市場で価格競争が激化するトリガーとなる。

出典: DeepSeek

GPU規制とイノベーション

米国政府はNvidia GPUの中国への輸出を制限しており、ハイエンドモデル「H100」は規制の対象になり、中国へ出荷することができない。これに代わり、Nvidiaはローエンドモデル「H800」を投入し、これを中国に出荷している。DeepSeekはローエンドモデルH800を使い、このプロセッサでDeepSeek-V3を開発した。H800でMetaに勝る性能に到達した理由はソフトウェアやハードウェアで様々な工夫を凝らしたことにある。トランスフォーマでは上述の通り、「Multi-head Latent Attention (MLA)」という技法を導入し、効率的なインファレンスを達成した。ハードウェアではNvidiaの高速リンク(「InfiniBand」 (ノード間通信)と「NVLink」(ノード内通信))の使い方を最適化した。DeepSeekは高速GPUを使えないという制限が課され、これがイノベーションに繋がったとも解釈できる。

フェアな開発競争か

一方、DeepSeekはGPT-4をベースに開発され、公平な競争とは言えないとの議論が広がっている。DeepSeekにモデルの構成を尋ねると、「OpenAIのGPT-4のアーキテクチャに基づくモデル」と回答した(下の写真)。GPT-4に関する技術資料を参照しモデルが開発されたと説明してくれた。一方、市場ではDeepSeekの教育においてGPT-4が生成したデータが使われたとの解釈が広がっている。その根拠として、GPT-4が出力する文言がそのままDeepSeekに受け継がれている。DeepSeekはGPT-4の知識を継承したモデルとなり、これはフェアな開発手法か意見が分かれている。OpenAIはGPT-4などでAIモデルを開発することを禁止しており、DeepSeek-V3はこの使用条件に違反したことになる。DeepSeekの開発手法に懸念が示されているが、モデルの性能は高く価格は安く、AI市場の”黒船”となった。

出典: DeepSeek

OpenAIは推論モデル最新版「o3」を公開、ベンチマークテストで人間のIQに匹敵する性能を達成、AGIに向けて大きく前進

OpenAIは年末発表イベント「12 Days of OpenAI」の最終日に推論モデル最新版「o3」を発表した(下の写真)。これはイベント初日に発表された「o1」の後継モデルとなる。(「o2」をスキップした理由は通信会社テレフォニカが英国などで「O2」というモバイルサービスを運用しているため。) o3は推論機能が更に強化され、AGIのレベルを測定するベンチマークテストで人間の知能に匹敵する性能を示した。o3は安全試験を実施するために研究者に公開されたが、一般リリースは来年1月以降となる。

出典: OpenAI

推論モデルとは

推論モデルとは人間のように論理的な思考ができるAIで、与えられたテーマを分類整理して、筋道を立てて結論を導く機能を持つ。科学や数学やコーディングで高度な機能を発揮し、研究者や開発者がアシスタントとして利用する。推論モデルはインファレンスのプロセスが強化され、問われたことを即座に回答するのではなく、熟慮して最適な解を生成する。12月5日に「o1」がリリースされ、12月20日に最新モデル「o3」が発表され、OpenAIは相次いで推論モデルを投入した。

知能が格段に向上

o3の最大の特徴は知能指数(IQ、Intelligence Quotient)が大きく向上したことにある。AGIのレベルを測定するベンチマークテスト「ARC-AGI」で、o3はo1の性能を遥かに上回り、人間レベルの知能に到達した (下のグラフ:o3は黄色の丸印、o1は赤色の丸印、人間の平均は灰色の丸印・AVG MTURKERで示されている)。ARC-AGIはコンピュータ実行時間に制限(計算コストが10,000ドル以内)を設けており、「O3 LOW」はこれに沿った結果で、「O3 HIGH」はこの条件を満たさないが参考データとして表示している。O3 LOWは平均的な人間(Amazonのクラウドワーカー)の知能に匹敵し、O3 HIGHは大学卒業者レベル(Stem Graduates)の知能に迫っている。

出典: ARC Prize

ARC-AGI:知能レベルを試験するテスト

このベンチマークテストは「ARC-AGI」と呼ばれ、AGIのレベルを測定する試験となる。AIのベンチマークテストでは、言語を理解する能力や数学の問題を解く技能が評価されるが、ARC-AGIはこれとは異なり、AIの知能レベルを測定する。人間の知能指数を測定する試験に近く、知識ではなく新たな問題を解決する能力や、獲得したスキルを汎用的に応用するスキルが問われる。ARC-AGIの試験は下のグラフィックスの通りで、Ex. 1からEx. 3で示されたパターンから、そのルールを解読し、テストパターンから正解のパターンを導き出す。

出典: ARC-AGI

ベンチマークテストの結果

ARC-AGIは通常のベンチマークテストとは異なり、フロンティアモデルがどれだけAGIに近いかを測定するために使われる。通常のベンチマークテストでは、AIモデルが問題を覚えているケースが多く、機能を正しく測定できない問題が指摘されている。これに対しARC-AGIは、同じ問題を提出することはなく、全てが新規な質問で、モデルの知能を試験する。この試験でo3は好成績をマークし、モデルは新しいタスクを解く機能があることが示された。一方、o3は人間だと簡単に解くことができる問題で正解を導くことができず、AGIと認定されるには更なる開発が必要であると結論付けている。

安全評価

OpenAIはo3を発表したが、一般に公開する前に、研究者による安全試験を実施することを明らかにした。これに向けて、OpenAIは安全試験に参加する研究者を募っている(下の写真)。OpenAIは既に、外部組織と共同で「Red Teaming」という手法でフロンティアモデルの安全試験を実施している。Red Teamingは専門家がモデルを攻撃して、その問題点を洗い出す手法で、安全試験の常套手段となる。また、バイデン政権はフロンティアモデルを出荷する前に、開発企業に安全試験の実施を義務付けており、OpenAIはこの規制に準拠して、政府機関と共同で検証を進めている。

出典: OpenAI

推論モデルの開発競争が激化

OpenAIは推論モデルを相次いで投入したが、市場では競争が激化しており、会社の地位が相対的に低下している。Googleはこれに対抗して、推論モデル最新版「Gemini 2.0 Flash Thinking Mode」を試験的にクラウドで公開し、機能開発を進めている。また、Alibabaは推論モデル「QwQ」をオープンソースとして公開し、OpenAIの性能に迫っている。OpenAIはフロンティアモデルの開発で他社をリードしてきたが、他社から高性能なモデルが投入され、その実力が相対的に沈下している。

キラーアプリはAIエージェント!!Googleは生成AI最新モデル「Gemini 2.0」とAIエージェント「Astra」と「Mariner」を投入

Googleは生成AIモデルの最新版「Gemini 2.0」をリリースした。Gemini 2.0は高性能なモデルであることに加え、AIエージェントを構成するための基礎技術となる。AIエージェントとは知的なAIモデルで、複雑なタスクを自律的に実行し、人間の作業を代行する存在となる。Googleは人間のように自立的に行動するAIエージェントの研究開発を重点的に進めており、この技術を人間レベルのインテリジェンスを持つAGI(Artificial General Intelligence)に拡張するとのビジョンを示した。

出典: Google

Gemini 2.0の概要

Gemini 2.0はシリーズの最新モデルで、性能が向上したことに加え、マルチモダル機能が強化された。オーディオやイメージやビデオを読み込むことができるだけでなく、これらを生成する機能が付加された。また、Gemini 2.0は検索エンジン(Google Search)やマップ(Google Maps)を操作することができ、人間のようにツールを使う機能が実装された。

Gemini 2.0 Flashを投入

今回の発表では「Gemini 2.0 Flash」が公開され、一般に利用することができるようになった。開発者はクラウド「Google Vertex AI」からAPI経由でこれを利用する。また、ブラウザーからは「2.0 Flush Experimental」として対話形式で利用できる(下の写真)。これは正式版の前のプレビュー版であるが最新機能を体験できる。

出典: Google

Gemini 2.0 Flashの特性

Gemini 2.0 Flashは軽量モデルで、高速で稼働することに加え、マルチモダル機能が強化された。Flashは処理速度が速く、リアルタイムでの反応が要求されるアプリケーションで利用される。その代表がAIエージェントで、Flashはマルチモダルを読み込み、これを高速で処理することで、リアルタイムでの会話が可能となった。また、基本性能が大きく向上し、ハイエンドモデルである「Gemini 1.5 Pro」を上回り、Geminiシリーズの最高速モデルとなった(下の写真)。

出典: Google

AIエージェント汎用モデル:Project Astra

GoogleはAIエージェントの汎用モデル「Project Astra」の最新版を公開した。Project Astraはスマートフォンに搭載されるAIエージェントで、カメラが撮影するビデオを入力とし、質問に会話形式で回答する。屋内や屋外で、スマホのカメラで撮影した映像についての質問にリアルタイムで回答する。公園に設置されている建造物について、「これは何か」と問いかけると、AIエージェントは「Eve Rothchildが制作した「My World and Your World」という作品である」と回答する(下の写真)。AIエージェントは入力されたビデオを瞬時に解析し、自然な対話で回答する。

出典: Google

AIエージェント専用モデル:Project Mariner

Googleは特定のタスクに特化した機能を持つAIエージェント「Project Mariner」を公開した。Project MarinerはChromeブラウザーの拡張機能(Extension)として実装され、ウェブサイトで指示されたタスクを実行する。例えば、「Google Arts and Culture」のサイトでカラフルな絵を見つけるよう指示すると、AIエージェントはこのサイトにアクセスし、タスクを実行する。更に、Eコマースサイト「Etsy」でカラフルな絵の具を購買するように指示すると、それを実行し、商品を購入バスケットに入れる(下の写真)。但し、支払い処理のプロセスでは、人間の判断を仰ぎ、利用者が最終判断を下す。

出典: Google

ウェアラブル向け基本ソフト:Android XR

Googleはウェアラブル向けの基本ソフト「Android XR」を発表した。これはヘッドセットやスマートグラス向けの基本ソフトで、ARやVRを融合したXR(Extended Reality)のプラットフォームとなる。Android XRにGemini 2.0が組み込まれ、これをXRグラスに搭載することで、ウェアラブルでAIエージェントを利用できる構造となる。GoogleはQualcomm及びSamsungと共同で開発し、Android XRはパートナー企業が開発するXRグラスに搭載される。また、Googleも独自のXRグラスを開発しており、AIエージェントが日常生活における秘書の役割を担う。市街地でレストランの場所を尋ねると、AIエージェントがXRグラスに道順やレストランの情報を表示し、目的地までナビゲーションする(下の写真)。

出典: Google

AIエージェントの時代に

生成AIはインテリジェンスを提供するプラットフォームで、この基盤で様々なアプリケーションが開発されている。その中で、人間に代わり作業を代行するAIエージェントに注目が集まっている。AIエージェントは従来のソフトウェアと異なり、人間が介在することなく自律的に業務を実行し、企業のビジネスプロセスを高度に自動化すると期待されている。Googleの他に、OpenAIやMetaがAIエージェントの開発を重点的に進めており、2025年は多彩なモデルが投入されることになる。

OpenAIは推論モデル正式版「o1」をリリース、考察力が格段に向上したが危険性も大きく増大、フロンティアモデルの安全性を評価する技術の開発が始まる

OpenAIはクリスマスまでの12日間に集中して新製品を発表している。初日の12月5日は、推論モデル「o1」の正式版をリリースした。o1は推論機能が格段に向上したことに加え、サイバー攻撃を防御する機能も大きく進化した。一方で、兵器を製造するスキルが大きく向上し、新たなリスクを低減するための技法が求められる。モデルのインテリジェンスが増すと新たな脅威が生まれ、推論モデルを安全に開発運用するセーフティ技術が重要な研究テーマとなる。

出典: OpenAI

システムカード

OpenAIは「o1」正式版のリリースに合わせモデルの仕様書となる「システムカード(System Card)」(下の写真)を公開した。システムカードはモデルの機能や性能を詳しく説明するドキュメントで、これが運用上の使用手引きとなる。同時に、システムカードはモデルの危険性を評価した結果を詳細に報告しており、安全技術を開発するための重要な資料となる。

出典: OpenAI

リスク評価の結果

システムカードはモデルのリスク評価を重点項目とし、その手法や結果を詳細に報告している。これによると、o1は攻撃への耐性が格段に強化され、シリーズの中で最も強固なシステムとなった。具体的には、リスク評価は下記の項目からなり、いずれの項目もo1は現行モデル「GPT-4o」の性能を上回った。

  • コンテンツ制御(Disallowed content):有害コンテンツを出力する危険性
  • ジェイルブレーク(Jailbreak):プロンプトによりシステム制御を奪う攻撃
  • 教育データの出力(Regurgitation):教育データをそのまま出力する危険性
  • ハルシネーション(Hallucination):事実でないデータを出力する危険性
  • 公平性・バイアス(Fairness and Bias):不公平でバイアスしたデータの出力
出典: OpenAI

サイバーセキュリティが向上

o1製品群はGPT-4oに比べてジェイルブレークを防御する安全機能が格段に向上した(下のグラフ)。ジェイルブレーク(Jailbreak)とは、悪意あるプロンプトを入力し、システムの制御を奪う攻撃で、AIモデルを安全に運用するための障害となっている。o1の安全機能が向上した理由は、サイバーセキュリティに推論機能が導入されたことによる。これは「chain-of-thought reasoning」と呼ばれ、問題を複数のステップに分解し、逐次的に推論を行う手法で、安全指針に沿っているかどうかの判断を的確に実行し、ジェイルブレークなどのサイバー攻撃を防御する。

出典: OpenAI

新たな危険性が生まれる

一方で、o1は兵器開発スキルなどが向上し新たな危険性が生まれた。兵器製造スキルは「CBRN」と呼ばれ、化学生物兵器や核兵器などを製造する機能を指す。敵対国がo1を悪用することで高度な兵器を開発するリスクが高まり、OpenAIなど先進企業はこの危険性を査定し、安全対策を導入する作業を進めている。

兵器製造のスキルが向上

o1のケースでは科学者など専門家がモデルを悪用して兵器開発のプロセスを効率化する危険性が高まった。o1製品群の生物兵器開発のスキルに関しては、人間のエキスパートの能力を大きく上回る(下のグラフ、人間のエキスパートのレベルは破線で、AIモデルのレベルは青丸で示されている)。このため、OpenAIはo1最新モデルに安全対策を施しこのリスクを低減した。具体的には、o1の教育データから兵器製造に関する情報を削除するなどの対策が取られた。ただし、安全対策を施したo1のリスクレベルについての情報は開示されていない。

出典: OpenAI

リスク評価フレームワーク

OpenAIはo1を含むフロンティアモデルの危険性を評価するフレームワーク「Preparedness Framework Evaluations」を制定し、安全試験を実施しモデルの危険性を評価し、それに応じた対策を講じている。評価項目は四つの分野から成り、完全試験の結果に従って、リスクレベルが格付けされる。o1は「Cybersecurity(サイバー攻撃のスキル)」と「Autonomy(自律性)」のリスクは低いと評価されたが、「CBRN(兵器製造スキル)」と「Persuasion(説得力)」のリスクが中程度となる。出荷基準は中程度以下のリスクレベルで、OpenAIはo1製品を出荷することができると判定した。

出典: OpenAI

推論モデルは危険性が向上

o1システムカードは推論機能が導入されるとモデルの機能が格段に向上するが、危険性も大きく増大することを示している。兵器開発スキルだけでなく、目的を完遂するために人間を欺くスキルも増大した。これらフロンティアモデルを安全に運用するためにはリスクを査定する試験技術と、リスクを低減する安全技術が求められる。2025年は各社からフロンティアモデルの出荷が始まるが、AIセーフティに関する研究開発が最重要テーマとなる。