Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

Anthropicは3月4日、大規模言語モデルの最新版「Claude 3」を投入した。Claude 3は主要ベンチマークテスト全てでOpenAIのGPT-4を上回り、業界で最も高度なモデルとなった。特に、推論機能や数学の問題を解く能力が強化され、インテリジェンスが大きく向上した。同時に、Anthropicはモデルの安全性を最重視しており、Claude 3は最も倫理的な生成AIとなる。

出典: Anthropic

Claude 3の概要

Anthropicは第三世代目となる大規模言語モデル「Claude 3」をリリースした。Claude 3は異なるサイズで構成され、最大モデル「Opus」、中規模モデル「Sonnet」、小規模モデル「Haiku」の三つの構成を提供する。ユーザは、インテリジェンスや実行速度やコストを勘案し、最適なモデルを選ぶことができる(下のグラフ)。OpusとSonnetはクラウドやAPI経由で公開され、また、Haikuは近日中にリリースされる。

出典: Anthropic

Claude 3 OpusはGPT-4を上回る

Claude 3最大構成のOpusは、主要ベンチマークテストの全ての項目でOpenAIのGPT-4の性能を上回った(下のテーブル)。基本的なベンチマーク「MMLU」(大学生レベルの知識)でGPT-4を上回り、業界トップの座を奪還した。特に、難度の高いベンチマーク、「GPQA」(大学院生レベルの知識)や「GSM8K」(数学の基本機能)や「MATH」(数学の高度な機能)を試験するベンチマークで好成績を上げた。Claude 3は理解する能力や柔軟性で人間の能力に迫り、Artificial General Intelligence(AGI)への第一歩となる。

出典: Anthropic 

ガードレール機能

Claude 3はバイアスや危険情報を抑止するため、安全装置「Guardrails」が実装されている。ガードレールはファイアウォールとして機能し、入力されたプロンプトを解釈し、不適切な指示に対しては回答を出力することを抑止する構成となっている。一方、ガードレールは安全性を過度に重視するため、正当なプロンプトに対しても回答を拒絶し、モデルの能力が低下する問題を抱えている。このため、Claude 3はプロンプトを理解する能力が向上し、前世代のモデルClaude 2に比べ、回答を不当に拒否する率を大幅に低下させた(下のグラフ)。

出典: Anthropic

コンテクスト・ウインドウ

Claude 3は入力できるプロンプトのサイズ「コンテクスト・ウインドウ」を20万トークンとして提供する。最大で100万トークンを処理する能力があり、顧客の要望に応じてコンテクスト・ウインドウを拡大する。Claude 3の特徴は、入力された大規模なデータの中で、特定の情報を正確に思い出す機能が高いことにある。これは「Needle In A Haystack」と呼ばれ、20万トークンの中の情報を正確に覚えている(下のグラフ、濃い緑色の四角が正確に記憶している個所を示す)。

出典: Anthropic

最も安全な言語モデル

Anthropicは高度な言語モデルを開発するだけでなく、モデルが社会の倫理に沿い、安全な機能を提供する。Anthropicは専任のチームが安全性を検証し、モデルが虚偽情報や児童ポルノや生物兵器情報などを出力することを抑止する。また、Anthropicはモデルが準拠すべき憲法「Constitution」を制定し、アルゴリズムはこれを学習し、社会の倫理に準拠した挙動を示す。この技術は「Constitutional AI」と呼ばれ業界で注目されている。

出典: Anthropic

Claude 3 Opusを使ってみる   

Claude 3は数学の問題を解く機能が向上し、業界でトップの成績をマークした。ベンチマーク「Math」ではGoogleのGemini Ultraが記録を保持していたが、Claude 3 Opusはこの成績を大きく超え、トップの座についた。Claude 3 Opusに数学の問題を入力すると、モデルはステップごとに問題を解説し、最終解を導き出す。(下の写真、数式のイメージを入力すると、モデルはこれは二次方程式であると判定し、その使い方を解説する)

出典: Anthropic 

GPT-4が追い越される   

OpenAIが足踏み状態で、GPT-4の性能を上回るモデルの登場が続いている。GoogleはGemini Ultraを、AnthropicはClaude 3 Opusを投入し、これらがGPT-4の性能を上回った。GPT-4は一年前に投入されたモデルであり、他社がこれに追い付いた形となった。OpenAIは3月8日、取締役会のメンバーが決まり、Sam Altmanが復帰することとなった。これで経営体制が整い、OpenAIは研究開発を再開し、GPT-4の次のモデルを投入すると噂されている。大規模言語モデルの競争は新たなステージを迎える。

「Gemini」の政治理念は過度にリベラルに偏向?Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている

生成AI最新モデル「Gemini」はイメージ生成精度に重大な問題があり、Googleはこの機能を停止した。Geminiはテキストでイメージを生成する機能を持ち、プロンプトに従って画像を出力する(下の写真)。しかし、Geminiは史実とは異なるイメージを生成し、モデルに対する信頼が揺らいでいる。また、Geminiの政治理念は過度にリベラルに偏向しているとの批判を受けている。

出典: Google

Geminiが生成した画像:中世のイギリス国王

Geminiが歴史的事実とは異なるイメージを生成する問題はユーザが見つけ、その画像がソーシャルネットワークで拡散し、米国で議論が広がっている。Geminiに歴史に忠実にイメージを生成するよう指示すると、事実とは異なる画像を生成する。「中世のイギリス国王を史実に沿って描写」と指示すると、Geminiは「歴史的に正確で公平にイメージを生成した」とのコメントを添え、画像を出力(下の写真)。しかし、イギリス国王が黒人や女性やアメリカ先住民として描かれており、モデルに重大な欠陥がある。

出典: St. Ratej @ X@stratejake

Geminiが生成した画像:アメリカ建国の父

Geminiが生成するイメージは史実と異なるだけでなく、極度にリベラルに偏っていることが問題視されている。「アメリカ建国の父」を描くよう指示すると、Geminiは、白人だけでなく、黒人、アメリカ先住民、アジア人を描きだす(下の写真)。アメリカ建国の父とはアメリカ独立宣言に署名した政治的指導者で、ジョージ・ワシントンなどであるが、Geminiは独自の発想で特異な画像を出力する。白人の貢献が軽視されていると指摘される。

出典: End Wokeness 

Googleの釈明

これに対しGoogleは、Geminiに問題があることを認め、なぜこの問題が発生したのかを説明した。Geminiのイメージ生成機能は「Imagen 2」というモデルを使っており、指示されたテキストに従って画像を生成する。Googleはモデルの開発で、暴力や性的表現を抑止し、また、人種差別なく公平に人物を描くようアルゴリズムを最適化した。しかし、この過程でGeminiは公平性を過度に重視し、プロンプトに従わないで独自の解釈でイメージを生成するようになった。具体的には、

  • バイアス抑止:モデルは人種差別などのバイアスを抑止するため、史実に反してでも、多様な人種を描き出す
  • プロンプト:モデルはバイアスに関し過度に慎重となり、特定のプロンプトへの回答を拒絶するようになった

安全性検証チーム

Googleはモデルを再度教育し、数週間以内にイメージ生成機能を再開するとしている。実際に、GoogleはRed Teaming Teamを構築し、このチームがモデルの安全性やバイアスを検証し、問題の解決を進めている。

Imagen 2とは    

Imagen 2は第二世代のイメージ生成モデルで、テキストで指示された内容に従って画像を生成する(下の写真)。「ディフュージョン(Diffusion)」という技法を使っており、高品質で写真撮影したようにリアルな画像を生み出す。Imagen 2はGeminiに統合され、プロンプトに従ってイメージを出力する。また、Imagen 2はAIクラウド「Vertex AI」で公開されており、APIを使ってアプリを開発する。前述の通り、現在Imagen 2の機能は停止されている。

出典: Google

政治理念はリベラルに偏向        

Geminiの問題はアメリカ社会で大きな論争に発展している。Geminiはアメリカ建国の父を黒人やアメリカ先住民などと解釈し、アメリカ保守層は白人が国の基礎を築いた史実を歪曲していると指摘する。イメージだけでなく、Geminiはテキストの生成においても、政治的な理念はリベラルに偏向していると主張し、Googleに中立な立場を取るよう求めている。Geminiの問題は、生成AIが倫理的であるために準拠する基本理念を誰が決定するのか、重大な課題を内包している。

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは2月15日、生成AIの次世代モデル「Gemini 1.5」を公開した。昨年12月に、初代モデル「Gemini 1.0」をリリースしたが、Gemini 1.5はその後継モデルとなる。Gemini 1.5はアーキテクチャが改良され、処理効率が格段に向上した。また、入力できるデータ量が大きく拡張され、最大で100万トークンを処理できる。Googleは会社の威信をかけて、OpenAIのGPT-4に対抗するモデルの開発を加速させている。

出典: Google

Geminiシリーズ

Googleは昨年12月、生成AI次世代モデル「Gemini」を発表している。Geminiはファウンデーションモデルで、高度な言語機能の他に、イメージやビデオやオーディオを理解するマルチモダル機能を備えている。Geminiは三つのサイズから構成される:

  • Gemini Ultra:最大構成モデルでデータセンターで使われ複雑なタスクを実行する。チャットボット「Gemini Advanced」のエンジンとして使われている。
  • Gemini Pro:中規模構成モデルで幅広いレンジのタスクを実行する。チャットボット「Gemini」のエンジンとして使われている。
  • Gemini Nano:最小構成のモデルでスマートフォンで稼働する。ハイエンドスマホ「Pixel 8 Pro」に搭載されている。

今回発表されたのは「Gemini Pro 1.5」

今回の発表は中規模構成モデルの最新版「Gemini Pro 1.5」となる。Gemini Pro 1.5はアーキテクチャが大きく改良され、ハイエンドモデル「Gemini Ultra 1.0」と同等の性能を示す。更に、入力できるデータ量が拡大され、最大100万トークンを処理できる。Gemini Pro 1.5の主な改良ポイントは:

  • アーキテクチャ:Mixture-of-Experts (MoE)という方式を実装
  • コンテクスト・ウインドウ:入力できるトークンの数を100万に拡大

アーキテクチャ:Mixture-of-Experts (MoE)

Gemini Pro 1.5の性能が大きく向上した理由は、アーキテクチャとして「Mixture-of-Experts (MoE)」を採用したことにある。Googleは早くからMoEの研究を進めており、この成果をGemini 1.5に適用した。MoEとはモデルを構成するネットワークの方式で、単一構造ではなく、複数の専門家「Expert」を持つ構成とする(下のグラフィックス)。入力された命令に対し、その分野の専門家が解答を生成する仕組みとなる。これにより、プロンプトに対しモデル全体を稼働させるのではなく、その一部のエキスパートが処理を実行するため、高速で効率的にインファレンス処理を実行できる。

出典: Google

コンテクスト・ウインドウ:100万トークン

コンテクスト・ウインドウ(Context Window)が大幅に拡大された。コンテクスト・ウインドウとは、モデルに入力できるデータのサイズを指す。Gemini Pro 1.5では、このサイズが100万トークンに拡張された。具体的には、テキストでは70万単語、ビデオでは1時間分の動画を処理できる。コンテクスト・ウインドウは、ワーキングメモリであり、この領域が大きいと一度に大量のコンテクストを処理できる。例えば、源氏物語の英訳「The Tale of Genji」の全体を読み込ませ、Gemini Pro 1.5はこの小説のに関する知識を習得し、研究者や読者からの多彩な質問に回答することができる。(下のグラフィックス上段:Gemini Pro 1.5のコンテクスト・ウインドウのサイズ、実際には1000万トークンまで処理できる、下段:GPT-4のコンテクスト・ウインドウは12万8000トークン)。

出典: Google

利用方法     

GoogleはGemini Pro 1.5をAIスタジオ「AI Studio」とAIクラウド「Vertex AI」で公開する。AIスタジオは生成AIモデルのプレイグランドで、異なるモデルを使ってその機能や性能を検証することができる。現在は「Gemini Pro 1.0」が公開されており(下のグラフィックス)、「Gemini Pro 1.5」は待ちリストに登録し、認可を得たユーザから利用できる状態となっている。

出典: Google

Geminiの開発手法

GoogleはGeminiの開発を並列で進めており、「Gemini 1.0」はリリース済みで、先週「Pro 1.5」が公開された。これから「Ultra 1.5」が投入され、されに、並列して「Gemini 2.0」が開発されており、その公開も近いとされる。Googleはこの市場のトップを奪還するため、Geminiの開発を加速している。

OpenAIは衝撃のAIビデオ「Sora」を公開!!テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入

OpenAIは2月15日、テキストでビデオを生成するモデル「Sora」を公開した。プロンプトで指示された内容でビデオを生成する技術であるが、生成された動画は写真撮影されたように鮮明で、AIとカメラの見分けがつかない。最も重要なポイントは、Soraは実社会で起こる物理現象を理解し、人間が指示しなくても物理法則に従ってビデオを描くことだ。Soraは世界のシミュレータ「World Simulators」であり、この技法が人間レベルのインテリジェンス「Artificial General Intelligence(AGI)」の開発に繋がる。

出典: OpenAI

Soraが描き出す世界

Soraはテキストで指示された内容に従って写真撮影したような高品質なビデオを生成する。「雪の日の東京で。。。桜が満開。。。」と指示すると、Soraは東京・浅草の桜並木を彷彿させるビデオを生成する。OpenAIはテキストでイメージを生成するモデル「DALL-E」を運用しているが、Soraはこの技術を拡張し高解像度のビデオを生成する。

 ※上のビデオ、モデルは3D空間の意味を理解し、カメラのアングルを変えながら、対象物を追跡して撮影。URL:https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4

Soraの基本機能

SoraはAIモデルで、テキストから写真撮影したようなリアルなシーンを描き出す。また、テキストから、アニメのような架空の世界を生成することもできる。Soraは生成AIのビデオモデルで、プロンプトに沿った高品質な映像を描き出す。ビデオの長さは1分で、他社モデルの数秒を大きく上回る。

Soraを開発した理由

Soraは物理社会のモデルで教育され、物の動きを理解し、それをシミュレーションする機能を獲得した。Soraを開発した 目的は、AIモデルが実社会における相互関係を学習することで、現実社会の問題を解決することが最終ゴールとなる。このモデルが、人間レベルのインテリジェンス「Artificial General Intelligence」の開発に繋がる。

研究開発プロジェクト

Soraは研究開発プロジェクトで一般には公開されていない。現在、モデルの安全性を検証する試験「Red-Teaming」が実施されている。生成AIがマルチモダルとなり、モデルが内包する危険性が格段に高まり、これらを洗い出す試験が実施されている。また、ビジュアル・アーティストや映画製作者に限定して公開され、Soraをどのように利用すべきかなど、専門家の意見をヒアリングする。

出典: OpenAI

※上のビデオ、プロンプトで女性のジャケットの色やサングラスの形や、背景の東京の通りの情景など詳細に指示することができる。URL:https://cdn.openai.com/sora/videos/tokyo-walk.mp4

モデルは物理現象を理解

Soraは複雑なシーンを描き出すことができる。複数のオブジェクトを対象に、指定された動きを忠実に再現し、対象物とその背景を高精度で描き出す。Soraはプロンプトで指示された内容を描き出すだけでなく、その対象物が物理社会でどう位置付けられるかを理解している。

出典: OpenAI

※上のビデオ、「山道を走行する旧式のSUVをカメラが後ろから追いかけて撮影。。。」というプロンプトに沿ってビデオを生成。モデルは、クルマは道路を走行し、舗装されていない道では小刻みに揺れるなど、物理法則を理解している。URL:https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4

プロンプトの理解

Soraは言語能力が極めて高く、言葉に関する深い理解を示す。プロンプトで指示された内容を正確に描き出すだけでなく、対象物をリアルに描写し、生成されたビデオは説得力があり、躍動感を生み出す。 Soraはアーティストのように印象的な動画を生成する。

出典: OpenAI

※上のビデオ、「ゴールデンリトリーバの子犬が、雪の中に頭を突っ込み、そこから雪を掻きわけて出てくる。。。」というプロンプトに対し、モデルは躍動感があり、印象的なビデオを生成する。URL: https://cdn.openai.com/sora/videos/snow-dogs.mp4

モデルの弱点

Soraは開発途上の生成AIマルチモダル技術で多くの弱点がある。Soraは物理現象のシミュレータであるが、多くの制限事項がある。物理の法則を正しく理解しておらず、グラスが割れる事象や、食べ物を食べる行動などを正しく生成できない。例えば、人間がクッキーをかじると、クッキーは欠けるが、モデルはそれを理解できない。これらがこれからの研究課題となる。

Diffusion Transformers」という技術

Soraは「Diffusion Transformers」という技術をベースに構築された。「Transformers」は大規模言語モデルの基礎技術で、テキストの基本単位「Token」をTransformersで処理し、次のTokenを予測する。Soraはこれを画像に適用し、イメージの基本単位「Patch」をTransformerで処理し、次のPatchを予測する(下の写真)。更に、Soraは「Diffusion」という技法を使っており、これによりクリアなイメージを生成する。イメージ生成技術の標準技法で、オリジナルのイメージにノイズを加え、これを除去する手法を学習し、最終的に高品質なイメージを生成する。

出典: OpenAI

極めて危険なAI

Soraはプロンプトからカメラで撮影したようにハイパーリアルなビデオを生成する。これを使えば、高品質な映画や動画を簡単に生成でき、エンターテインメントや広告ビジネスが激変する。また、Soraを悪用すると、現実と見分けのつかないフェイクビデオが生成され、社会が大混乱となる。現行の生成AIと比較してその危険性は甚大で、これをどう活用するのか、安全対策など更なる研究が必要となる。

出典: OpenAI

※上のビデオ、「イタリアのアマルフィ海岸の教会をドローンで撮影したシーン。。。」というプロンプトを入力することで、簡単に観光プロモーションビデオを生成できる。URL: https://cdn.openai.com/sora/videos/amalfi-coast.mp4

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

Googleは2月8日、生成AIのハイエンドモデル「Gemini Ultra」をリリースした。OpenAIのGPT-4を上回る性能で、この市場で首位を奪還した。Googleは昨年12月、Geminiを発表しベンチマーク結果を公表したが、Gemini Ultraはリリースされず、実際にモデルを使うことはできなかった。GoogleはUltraの公開に合わせ、製品体系を一新し名称を「Gemini」に統一した。「Bard」は「Gemini」に改称され、GeminiはGoogleのAI製品を表すブランドとなった。

出典: Google

Geminiの製品体系

BardはGemini Ultraの投入により製品体系が二系統となった:

  • Gemini」:従来のBardで名称を変更。「Gemini Pro」に構築される。無償版。
  • Gemini Advanced」:新モデルで「Gemini Ultra」に構築される。有償版(月額19.99ドル)。

また、スマホ向けのアプリ「Gemini」がリリースされ、AndroidとiOSでGeminiの機能を使うことができるようになった。

Gemini Advancedとは

Gemini AdvancedはハイエンドモデルGemini Ultra 1.0に構築されるチャットボットとなる。このモデルがOpenAIのGPT-4に対抗する製品で、生成AI市場の二強を担う。インターフェイスは黒色をベースとし、高級感を醸しだしている(下の写真)。Bardの構成を踏襲しており、プロンプトを入力すると、モデルが回答を出力する。

出典: VentureClef

Gemini Advancedを使ってみる: 推論機能に強み

Gemini Advancedは、プロンプトの指示に従って情報を出力するが、人間のプロフェッショナルのように、対話しながら問題を解決する機能が優れている。難しいタスクをステップごとに分割し、それぞれを解決しながら、最終ゴールに到達する。例えば、映画の鑑賞会を立案する方法を尋ねると、Gemini Advancedは、イベントの基本情報や場所の好みなどを質問し、利用者と対話しながら、ステップごとに内容を議論し、最終的プランを提案する(下の写真)。イベントコーディネータと対話しながら、結婚式のプランを立案する方式に似ている。

出典: VentureClef

Gemini Advancedを使ってみる: マルチモダル機能

Gemini Advancedはマルチモダル機能が強化され、指示した内容に従ってイメージを生成する。例えば、「GoogleのAGI発表イベントのイメージを生成」と指示すると、それを描き出す(下の写真)。イメージの品質は他社製品と比べて優れているとは言えないが、そのアーキテクチャに特徴がある。他社は「Diffusion」という手法を使うが、Googleは言語モデル「Transformers」でテキストだけでなくイメージなどのマルチモダルをこなす。単一のアーキテクチャで異なるモードのメディアを処理できるため、効率的なネットワークを構成できる。

出典: VentureClef

Gemini Advancedを使ってみる: 全体の印象

Gemini Advancedを使い始めたが、Geminiの特徴を継承し、この機能が一段と強化されたとの印象を受ける。Geminiは、難しいコンセプトを分解して、モジュールごとに分かりやすく説明するアプローチを取る。学校の先生が生徒に、複雑な内容をステップごとに分け、それぞれを分かりやすく説明する方式に似ている。例えば、アメリカンフットボールで「サンフランシスコ フォーティナイナーズの攻撃の戦略と手法」を尋ねると、Gemini Advancedは、ヘッドコーチの攻撃に関する思想や、主要選手の役割など、多角的に体系立てて説明する(下の写真)。Gemini Advancedを使うと、難しい事柄を理解する時間が大幅に短縮されると感じる。

出典: VentureClef

価格体系

GeminiはBardの後継モデルとして無償で提供されるが、Gemini Advancedは有償モデルとなる。Gemini Advancedは、ストレージサービス「Google One」の中の「AI Premium」に含まれ、サブスクリプションは月額19.99ドルとなる(下の写真、右端)。AI Premiumには、Gemini Advancedの他にGmailなどのアシスタント機能が含まれる。この機能は「Duet AI」と呼ばれていたが、今回の発表で「Gemini」のブランドに統一された。

出典: Google

Gemini UltraとGPT-4の二強時代

Gemini AdvancedはGoogleのフラッグシップモデルで、OpenAIのGPT-4と互角の性能を提供する。GPT-4がリリースされ約一年が経過するが、GoogleがUltraを公開し、トップに追い付いた形となる。GPT-4は生成AI市場で独走してきたが、手ごわい競合相手が登場し、AI市場は二強時代に突入した