カテゴリー別アーカイブ: Google

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは2月15日、生成AIの次世代モデル「Gemini 1.5」を公開した。昨年12月に、初代モデル「Gemini 1.0」をリリースしたが、Gemini 1.5はその後継モデルとなる。Gemini 1.5はアーキテクチャが改良され、処理効率が格段に向上した。また、入力できるデータ量が大きく拡張され、最大で100万トークンを処理できる。Googleは会社の威信をかけて、OpenAIのGPT-4に対抗するモデルの開発を加速させている。

出典: Google

Geminiシリーズ

Googleは昨年12月、生成AI次世代モデル「Gemini」を発表している。Geminiはファウンデーションモデルで、高度な言語機能の他に、イメージやビデオやオーディオを理解するマルチモダル機能を備えている。Geminiは三つのサイズから構成される：

Gemini Ultra：最大構成モデルでデータセンターで使われ複雑なタスクを実行する。チャットボット「Gemini Advanced」のエンジンとして使われている。
Gemini Pro：中規模構成モデルで幅広いレンジのタスクを実行する。チャットボット「Gemini」のエンジンとして使われている。
Gemini Nano：最小構成のモデルでスマートフォンで稼働する。ハイエンドスマホ「Pixel 8 Pro」に搭載されている。

今回発表されたのは「Gemini Pro 1.5」

今回の発表は中規模構成モデルの最新版「Gemini Pro 1.5」となる。Gemini Pro 1.5はアーキテクチャが大きく改良され、ハイエンドモデル「Gemini Ultra 1.0」と同等の性能を示す。更に、入力できるデータ量が拡大され、最大100万トークンを処理できる。Gemini Pro 1.5の主な改良ポイントは：

アーキテクチャ：Mixture-of-Experts (MoE)という方式を実装
コンテクスト・ウインドウ：入力できるトークンの数を100万に拡大

アーキテクチャ：Mixture-of-Experts (MoE)

Gemini Pro 1.5の性能が大きく向上した理由は、アーキテクチャとして「Mixture-of-Experts (MoE)」を採用したことにある。Googleは早くからMoEの研究を進めており、この成果をGemini 1.5に適用した。MoEとはモデルを構成するネットワークの方式で、単一構造ではなく、複数の専門家「Expert」を持つ構成とする(下のグラフィックス)。入力された命令に対し、その分野の専門家が解答を生成する仕組みとなる。これにより、プロンプトに対しモデル全体を稼働させるのではなく、その一部のエキスパートが処理を実行するため、高速で効率的にインファレンス処理を実行できる。

出典: Google

コンテクスト・ウインドウ：100万トークン

コンテクスト・ウインドウ(Context Window)が大幅に拡大された。コンテクスト・ウインドウとは、モデルに入力できるデータのサイズを指す。Gemini Pro 1.5では、このサイズが100万トークンに拡張された。具体的には、テキストでは70万単語、ビデオでは1時間分の動画を処理できる。コンテクスト・ウインドウは、ワーキングメモリであり、この領域が大きいと一度に大量のコンテクストを処理できる。例えば、源氏物語の英訳「The Tale of Genji」の全体を読み込ませ、Gemini Pro 1.5はこの小説のに関する知識を習得し、研究者や読者からの多彩な質問に回答することができる。(下のグラフィックス上段：Gemini Pro 1.5のコンテクスト・ウインドウのサイズ、実際には1000万トークンまで処理できる、下段：GPT-4のコンテクスト・ウインドウは12万8000トークン)。

出典: Google

利用方法

GoogleはGemini Pro 1.5をAIスタジオ「AI Studio」とAIクラウド「Vertex AI」で公開する。AIスタジオは生成AIモデルのプレイグランドで、異なるモデルを使ってその機能や性能を検証することができる。現在は「Gemini Pro 1.0」が公開されており(下のグラフィックス)、「Gemini Pro 1.5」は待ちリストに登録し、認可を得たユーザから利用できる状態となっている。

出典: Google

Geminiの開発手法

GoogleはGeminiの開発を並列で進めており、「Gemini 1.0」はリリース済みで、先週「Pro 1.5」が公開された。これから「Ultra 1.5」が投入され、されに、並列して「Gemini 2.0」が開発されており、その公開も近いとされる。Googleはこの市場のトップを奪還するため、Geminiの開発を加速している。

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

Googleは2月8日、生成AIのハイエンドモデル「Gemini Ultra」をリリースした。OpenAIのGPT-4を上回る性能で、この市場で首位を奪還した。Googleは昨年12月、Geminiを発表しベンチマーク結果を公表したが、Gemini Ultraはリリースされず、実際にモデルを使うことはできなかった。GoogleはUltraの公開に合わせ、製品体系を一新し名称を「Gemini」に統一した。「Bard」は「Gemini」に改称され、GeminiはGoogleのAI製品を表すブランドとなった。

出典: Google

Geminiの製品体系

BardはGemini Ultraの投入により製品体系が二系統となった：

「Gemini」：従来のBardで名称を変更。「Gemini Pro」に構築される。無償版。
「Gemini Advanced」：新モデルで「Gemini Ultra」に構築される。有償版(月額19.99ドル)。

また、スマホ向けのアプリ「Gemini」がリリースされ、AndroidとiOSでGeminiの機能を使うことができるようになった。

Gemini Advancedとは

Gemini AdvancedはハイエンドモデルGemini Ultra 1.0に構築されるチャットボットとなる。このモデルがOpenAIのGPT-4に対抗する製品で、生成AI市場の二強を担う。インターフェイスは黒色をベースとし、高級感を醸しだしている(下の写真)。Bardの構成を踏襲しており、プロンプトを入力すると、モデルが回答を出力する。

出典: VentureClef

Gemini Advancedを使ってみる: 推論機能に強み

Gemini Advancedは、プロンプトの指示に従って情報を出力するが、人間のプロフェッショナルのように、対話しながら問題を解決する機能が優れている。難しいタスクをステップごとに分割し、それぞれを解決しながら、最終ゴールに到達する。例えば、映画の鑑賞会を立案する方法を尋ねると、Gemini Advancedは、イベントの基本情報や場所の好みなどを質問し、利用者と対話しながら、ステップごとに内容を議論し、最終的プランを提案する(下の写真)。イベントコーディネータと対話しながら、結婚式のプランを立案する方式に似ている。

出典: VentureClef

Gemini Advancedを使ってみる: マルチモダル機能

Gemini Advancedはマルチモダル機能が強化され、指示した内容に従ってイメージを生成する。例えば、「GoogleのAGI発表イベントのイメージを生成」と指示すると、それを描き出す(下の写真)。イメージの品質は他社製品と比べて優れているとは言えないが、そのアーキテクチャに特徴がある。他社は「Diffusion」という手法を使うが、Googleは言語モデル「Transformers」でテキストだけでなくイメージなどのマルチモダルをこなす。単一のアーキテクチャで異なるモードのメディアを処理できるため、効率的なネットワークを構成できる。

出典: VentureClef

Gemini Advancedを使ってみる: 全体の印象

Gemini Advancedを使い始めたが、Geminiの特徴を継承し、この機能が一段と強化されたとの印象を受ける。Geminiは、難しいコンセプトを分解して、モジュールごとに分かりやすく説明するアプローチを取る。学校の先生が生徒に、複雑な内容をステップごとに分け、それぞれを分かりやすく説明する方式に似ている。例えば、アメリカンフットボールで「サンフランシスコフォーティナイナーズの攻撃の戦略と手法」を尋ねると、Gemini Advancedは、ヘッドコーチの攻撃に関する思想や、主要選手の役割など、多角的に体系立てて説明する(下の写真)。Gemini Advancedを使うと、難しい事柄を理解する時間が大幅に短縮されると感じる。

出典: VentureClef

価格体系

GeminiはBardの後継モデルとして無償で提供されるが、Gemini Advancedは有償モデルとなる。Gemini Advancedは、ストレージサービス「Google One」の中の「AI Premium」に含まれ、サブスクリプションは月額19.99ドルとなる(下の写真、右端)。AI Premiumには、Gemini Advancedの他にGmailなどのアシスタント機能が含まれる。この機能は「Duet AI」と呼ばれていたが、今回の発表で「Gemini」のブランドに統一された。

出典: Google

Gemini UltraとGPT-4の二強時代

Gemini AdvancedはGoogleのフラッグシップモデルで、OpenAIのGPT-4と互角の性能を提供する。GPT-4がリリースされ約一年が経過するが、GoogleがUltraを公開し、トップに追い付いた形となる。GPT-4は生成AI市場で独走してきたが、手ごわい競合相手が登場し、AI市場は二強時代に突入した

Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

Googleは12月6日、生成AI次世代モデル「Gemini」を発表した。GeminiはベンチマークでOpenAIのGPT-4を上回り最先端の言語モデルとなる。Geminiは複雑なタスクをステップごとに思考する「推論機能」が強化され回答の精度が向上した。また、Geminiはテキストの他に、イメージやビデオやオーディオを理解する「マルチモダル」が導入され、視覚や聴覚を備えたモデルとなる。一方、Googleが満を持して投入したGeminiであるが、GPT-4を上回るもののその差は僅かで、生成AI開発で苦戦していることが窺われる。

出典: Google

Geminiの概要

GeminiはGoogleが開発した最大規模の言語モデルで高度な機能を持つ。Geminiの特徴は、データセンターからスマホで稼働できる構成で、三つのサイズから構成される。

Gemini Ultra：最大構成のモデルでデータセンターで使われ複雑なタスクを実行する。このモデルがGPT-4対抗機種となる。ただし、リリースは2024年1月を予定。
Gemini Pro：中規模構成のモデルで幅広いレンジのタスクを実行する。Googleのチャットボット「Bard」のエンジンとして稼働している。
Gemini Nano：最小構成のモデルでモバイルデバイスの上で稼働する。Googleのスマホ「Pixel 8 Pro」に搭載されている。

出典: Google

ベンチマーク結果

GoogleはGemini Ultraのベンチマーク結果を公開し、GPT-4の性能を上回ったことをアピールしている。標準的な32のベンチマークで、Geminiが30部門でGPT-4をうわまわり、この市場でトップの機能を持つモデルとなる。ベンチマーク結果のサマリーは下記の通り(いずれもGemini Ultraの性能)：

MMLU (massive multitask language understanding)：言語モデルの総合性能を評価するベンチマーク(下のテーブル最上段)。GPT-4を上回ったことに加え、人間の言語能力を初めて超えた。
Big-Bench Hard：言語モデルの推論機能を評価するベンチマーク(上から二段目)。GPT-4の性能をわずかに上回る。
MATH：数学の問題を解く能力を評価するベンチマーク(上から六段目)。推論機能を評価するもので、試験の中で最難関の分野。

出典: Google

推論機能

Geminiは推論機能が強化され、複雑なタスクを正確に実行することができる。推論機能とは、与えられた指示をステップごとに考察し、最終ゴールに到達するための基礎技術となる。推論機能を使うと、複雑な検索を正確に実行できる。研究者は過去の論文から、特定のテーマに関するものを検索するが、その数は膨大で選別には時間を要する。ここでGeminiを使うと、このプロセスを高速で実行できる。Geminiに、特定のテーマ(例えば非コードゲノム変異(Non-Coding Variants))に関する論文を検索するよう指示すると、推論機能を使ってプロセスを検証しながらこれを実行する。Geminiは20万件の論文を読み、指示されたテーマが書かれているものを250点選び出す(下の写真)。実行結果を表示させる指示では、過去の研究成果のグラフを入力すると、Geminiは新しい情報を反映したグラフを生成する。

出典: Google

マルチモダル

Geminiはマルチモダル機能が導入され、テキストに加え、イメージ、ビデオ、オーディオなどのモードを理解することができる。Geminiは手書きの文字を理解することができ、生徒が提出した算数の答案を採点することができる。生徒の手書きの回答(下の写真左側)を読み、正解かそうでないかを判定する。更に、間違っている個所を特定(左側赤色の枠)し、なぜ間違っているかを説明し、問題の正解を示す(右側)。このケースではマルチモダルの他に、推論機能を使って物理の問題の解法を説明する。

出典: Google

アーキテクチャ

Geminiは大規模言語モデルであるが、そのアーキテクチャはGPT-4とは大きく異なる。従来のモデルは、メディアの種類によってそれを処理するための専用ネットワークを備える。テキストを処理するネットワークや、イメージを処理するネットワークが構築され、最終的にそれを統合してマルチモダルの処理を実行する。これに対しGeminiは、単一のネットワークで異なるメディアを処理する構造となる。テキスト、オーディオ、イメージ、ビデオを単一のネットワーク(Transformer)で処理する(下の写真)。このため、Geminiはマルチモダル・ネイティブのネットワークという位置づけになる。

出典: Google

次世代モデルの開発競争

GoogleはGeminiを11月に発表すると噂されていたが、この予定が一か月延伸された形となった。しかし、Geminiのハイエンドモデル「Gemini Ultra」について製品は投入されず、製品発表に留まった。リリースは2024年1月に予定されている。GeminiはGPT-4の性能を上回るがその差は僅かで、製品開発が難航していることをうかがわせる。Geminiはマルチモダルの中でビデオを強化し、ここでGPT-4に大きく先行するといわれてきたが、発表ではその新機能は登場しなかった。OpenAIは次世代モデル「GPT-5」を開発しており、生成AIの開発競争が一段と激化する。

Googleは「Bard」をGmailなどと連携、生成AIが秘書となり仕事の効率が大幅にアップ！！

Googleは生成AIの機能を拡張した「Bard Extensions」を公開した。これは、BardをGmailやDriveなど、他のアプリと連携するもので、生成AIがこれらのデータを元に回答を生成する。Bardがメールの内容を読み、必要なアクションを表示する。Driveに格納しているドキュメントを分析し、要点を纏める。また、Bardは回答した内容を検証し、それが事実かどうかを区別する。Bardは仕事に必須のツールに進化し、生成AIの便利さを実感する。

出典: Google

回答の真偽

Bard Extensionsで多くの機能が追加されたが、最も便利な機能は出力結果を検証する機能である。Bardは回答を生成するが、これをどこまで信用できるかが課題であった。拡張機能では、出力内容を検証する機能が追加され、真偽が一目でわかるようになった。Bardが出力した後に、「G」ボタンをクリックすると、事実の部分は緑色で、事実でない部分は肌色で示される(下のグラフィックス)。これは、Bardが出力内容をGoogle検索で確認したもので、出典「Grounding」が確認された個所と、ハルシネーションの個所を表示する機能となる。

～～～

出典: Google

Gmailとの連携

Bardは利用者の許諾の元、Gmailにアクセスし、メールの内容を読み、回答を生成する。毎日、大量のメールを受信するが、それをBardを使って読むと、処理効率が大幅にアップする。例えば、Metaから製品やイベント情報を頻繁に受信するが、Bardがそれらを纏めて要旨を示す(下のグラフィックス上段)。また、Bardがアクセスしたメールが表示される(下段)。この他に、受信したメールを検索し、過去の交信を辿ることもできる。

～～～～

出典: Google

Google Driveとの連携

Google Driveはクラウド・ストレージで、写真やドキュメントなどを保存するツールとして利用されている。ここに様々な報告書や記事などを格納しているが、Bardを使うと、これらの内容を短時間で把握できる。例えば、Bardは指示されたファイルを読み、その要約をポイントごとに纏める(下のグラフィックス上段)。また、参照したファイルと制作者名などをを示す(下段)。

～～～

出典: Google

フライトとホテル

Bardは旅行サービス「Google Travel」と連携し、フライトとホテルを対話形式で探すことができる。Bardがトラベルエージェントとなり、条件(下のグラフィックス上段)を指示すると、それに合った、フライト(中段)とホテル(下段)を表示する。例えば、サンフランシスコからニューヨークのフライトで最もいい条件を見つけ出す。

～～～

～～～

出典: Google

Google Mapsとの連携

BardがGoogle Mapsと連携し、最適なルートを表示する。ドライブで目的地を入力すると、Bardは最適な道順を出力し(下のグラフィックス上段)、その結果をGoogle Mapsに表示する(下段)。また、旅行計画を立案するよう指示すると、観光スポットを盛り込んだプランを出力。

～～～

出典: Google

YouTubeとの連携

Bardに生活や仕事のノウハウを尋ねるとそれをテキストで出力するだけでなく(下のグラフィックス上段)、ビデオで回答する(下段)。例えば、チャイルドシートの装着方法を尋ねると、それが示されたYouTubeビデオを表示する。

～～～

出典: Google

Retrieval Augmented Generation

Bardは質問に対する検索範囲をGmailやDriveなどのアプリに拡大し、利用者の個人情報を取り入れ、最適な回答を生成する。これは「Retrieval Augmented Generation」と呼ばれ、プレ教育した言語モデル「PaLM 2」に、関連データを付加することで、利用者に特化した回答を生成する。BardはGmailなどにアクセスするため、Googleはプライバシー保護を明確にし、個人情報は人間が閲覧することはなく、また、アルゴリズムの教育でも使わないとしている。実際に使ってみると、Bardは個人情報を元に回答を生成するため、人間の秘書のように便利な存在と感じる。

GoogleはAIクラウド「Vertex AI」の機能を拡張、企業向け生成AIの開発競争がヒートアップ

Googleは今週、開発者会議「Cloud Next 2023」を開催し、クラウドの最新技術を公開した(下の写真)。イベントの中心はAIで、Googleは企業向け生成AIをクラウドで提供する仕組みを拡充した。生成AIが急速に普及しているが、機能や安全性などに課題があり、企業がこれをビジネスで使うには敷居が高い。Googleは企業グレード「Enterprise-Ready」の生成AIが準備できたとアピールした。

出典: Google

企業向け生成AI

GoogleはAIモデルをクラウド「Vertex AI」で提供しているが、今回、生成AIのモデルを拡充した。AIモデルは「Model Garden」に集約され、企業は業務に応じて最適なモデルを選択できる(下のグラフィックス)。ここには100を超えるモデルが集約され、言語生成モデルの他に、イメージ生成モデルなどが揃っている。Model Gardenは、Googleが開発したモデルの他に、第三者が開発したオープンソースなどが登録されており、世界の主要AIを利用することができる。

出典: Google

Googleが開発したモデル

ここにはGoogleが開発した主要モデルが登録されている。その中心は大規模言語モデル「PaLM」で、今回、この機能がアップグレードされた。主なモデルは：

PaLM：大規模言語モデルで基礎教育を終えた汎用モデルとなる。更に、これをテキスト生成機能に最適化したモデル「PaLM 2 for Text」や、ヘルスケア専用モデル「PaLM 2 for Med」などがある。
Codey：PaLM 2をベースとするモデルで、プログラムのコーディングを実行する。三つのモードがあり、コード生成「Code Generation」、会話しながらコード生成「Code Chat」、入力したコードを完成「Code Completion」で、用途に応じて使い分ける。
Imagen：入力されたテキストに沿ってイメージを生成するモデルで、簡単にハイパーリアルなイメージを創り出す。Vertex AIで企業向けのAIモデルとして提供する。

テキスト生成モデル：PaLM 2 for Text

「PaLM for Text」は大規模言語モデル「PaLM 2」をベースとし、それを再教育し、テキスト生成機能に最適化したモデルとなる。多彩な自然言語処理機能を持ち、テキスト生成やドキュメント要約の他に、チャットボットとして対話する機能などがある。Vertex AIはモデルをビジネスで活用するために機能を改良する環境「Generative AI Studio」を提供している。ここでプロンプトに対し、モデルが回答するスキルを教育する。これは「Prompt Design」と呼ばれ、ビジネス専用の生成AIを作り出す(下のグラフィックス)。

出典: Google

コード生成モデル：Codey

GoogleはPaLM 2をベースとするプログラミング機能「Codey」を提供している。CodeyはPythonなど多言語に対応しており、プロンプトの命令に従って、コーディングを実行する。前述の通り、三つのモードがあり、コード生成「Code Generation」は、プロンプトに入力した言葉に従ってコードを生成する。プロンプトに「Write a Python script that splits PDF into individual pages」と指示すると、それに従ってモデルはPythonのコードを生成する(下のグラフィックス)。

出典: Google

イメージ生成モデル：Imagen

Model Gardenの中でビジョン系「Vision」のモデルは数多く取り揃えられている。Googleは言葉でイメージを生成する「Imagen」を公開したが、Vertex AIでこれを企業向けに提供する。Imagenは言葉の指示に従ってイメージを生成するモデルで、「Freight truck high quality」と入力すると、大型トラックの高品質な画像が生成される(下のグラフィックス)。この他に、オープンソースとして公開されている「Stable Diffusion」や「CLIP」などをサポートしている。

出典: Google

イメージの由来を特定する技術：SynthID

DeepMindは、AIが生成したイメージにウォーターマーク(Watermark)を挿入する技術「SynthID」を開発し、これをVertex AIで展開する。SynthIDは二つのAIモデルから構成され、一つはImagenで生成したイメージにウォーターマークを挿入する。もう一つは、生成されたイメージをスキャンして、それがImagenで生成されたものかどうかを判定する。企業はSynthIDを使うことで、生成したイメージを保護し、それが不正に利用されることを防ぐことができる。なお、イメージにウォーターマークを挿入しても人間はこれを感知できない。また、生成したイメージが編集(フィルター処理やファイルの圧縮など)されても、ウォーターマークは存続する(下の写真)。

出典: DeepMind

他社の人気モデル

Vertex AIは他社が開発したモデルを追加し、ラインアップを拡充した。市場で人気のある生成AIが加えられ、企業の選択肢が拡充された。注目のモデルは：

LLaMA 2：Metaが開発した生成AIでオープンソースとして公開されている。ChatGPTと同レベルの性能を持つ。三つのモデルが提供される(下のグラフィックス)。
Claude 2：スタートアップ企業Anthropicが開発した生成AI。高度な言語モデルであるが安全性に重点を置くアーキテクチャとなる。Googleが出資している企業で安全技術を共同開発。

出典: Google

企業向け生成AIの開発競争

企業が生成AIを安全に利用する技術の開発競争がヒートアップしている。OpenAIはこれに先立ち、新モデル「ChatGPT Enterprise」を投入し、企業が独自のChatGPTを開発できる環境を提供した。GoogleはVertex AIをアップグレードし、企業が独自の生成AIモデルを生成できる環境を提供する。生成AIの開発はエンタープライズ機能の強化が最大のテーマとなる。

Emerging Technology Review

シリコンバレーからの最新技術レポート

カテゴリー別アーカイブ: Google

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

Googleは「Bard」をGmailなどと連携、生成AIが秘書となり仕事の効率が大幅にアップ！！

GoogleはAIクラウド「Vertex AI」の機能を拡張、企業向け生成AIの開発競争がヒートアップ