カテゴリー別アーカイブ: Google

「Gemini」の政治理念は過度にリベラルに偏向?Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている

生成AI最新モデル「Gemini」はイメージ生成精度に重大な問題があり、Googleはこの機能を停止した。Geminiはテキストでイメージを生成する機能を持ち、プロンプトに従って画像を出力する(下の写真)。しかし、Geminiは史実とは異なるイメージを生成し、モデルに対する信頼が揺らいでいる。また、Geminiの政治理念は過度にリベラルに偏向しているとの批判を受けている。

出典: Google

Geminiが生成した画像:中世のイギリス国王

Geminiが歴史的事実とは異なるイメージを生成する問題はユーザが見つけ、その画像がソーシャルネットワークで拡散し、米国で議論が広がっている。Geminiに歴史に忠実にイメージを生成するよう指示すると、事実とは異なる画像を生成する。「中世のイギリス国王を史実に沿って描写」と指示すると、Geminiは「歴史的に正確で公平にイメージを生成した」とのコメントを添え、画像を出力(下の写真)。しかし、イギリス国王が黒人や女性やアメリカ先住民として描かれており、モデルに重大な欠陥がある。

出典: St. Ratej @ X@stratejake

Geminiが生成した画像:アメリカ建国の父

Geminiが生成するイメージは史実と異なるだけでなく、極度にリベラルに偏っていることが問題視されている。「アメリカ建国の父」を描くよう指示すると、Geminiは、白人だけでなく、黒人、アメリカ先住民、アジア人を描きだす(下の写真)。アメリカ建国の父とはアメリカ独立宣言に署名した政治的指導者で、ジョージ・ワシントンなどであるが、Geminiは独自の発想で特異な画像を出力する。白人の貢献が軽視されていると指摘される。

出典: End Wokeness 

Googleの釈明

これに対しGoogleは、Geminiに問題があることを認め、なぜこの問題が発生したのかを説明した。Geminiのイメージ生成機能は「Imagen 2」というモデルを使っており、指示されたテキストに従って画像を生成する。Googleはモデルの開発で、暴力や性的表現を抑止し、また、人種差別なく公平に人物を描くようアルゴリズムを最適化した。しかし、この過程でGeminiは公平性を過度に重視し、プロンプトに従わないで独自の解釈でイメージを生成するようになった。具体的には、

  • バイアス抑止:モデルは人種差別などのバイアスを抑止するため、史実に反してでも、多様な人種を描き出す
  • プロンプト:モデルはバイアスに関し過度に慎重となり、特定のプロンプトへの回答を拒絶するようになった

安全性検証チーム

Googleはモデルを再度教育し、数週間以内にイメージ生成機能を再開するとしている。実際に、GoogleはRed Teaming Teamを構築し、このチームがモデルの安全性やバイアスを検証し、問題の解決を進めている。

Imagen 2とは    

Imagen 2は第二世代のイメージ生成モデルで、テキストで指示された内容に従って画像を生成する(下の写真)。「ディフュージョン(Diffusion)」という技法を使っており、高品質で写真撮影したようにリアルな画像を生み出す。Imagen 2はGeminiに統合され、プロンプトに従ってイメージを出力する。また、Imagen 2はAIクラウド「Vertex AI」で公開されており、APIを使ってアプリを開発する。前述の通り、現在Imagen 2の機能は停止されている。

出典: Google

政治理念はリベラルに偏向        

Geminiの問題はアメリカ社会で大きな論争に発展している。Geminiはアメリカ建国の父を黒人やアメリカ先住民などと解釈し、アメリカ保守層は白人が国の基礎を築いた史実を歪曲していると指摘する。イメージだけでなく、Geminiはテキストの生成においても、政治的な理念はリベラルに偏向していると主張し、Googleに中立な立場を取るよう求めている。Geminiの問題は、生成AIが倫理的であるために準拠する基本理念を誰が決定するのか、重大な課題を内包している。

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは2月15日、生成AIの次世代モデル「Gemini 1.5」を公開した。昨年12月に、初代モデル「Gemini 1.0」をリリースしたが、Gemini 1.5はその後継モデルとなる。Gemini 1.5はアーキテクチャが改良され、処理効率が格段に向上した。また、入力できるデータ量が大きく拡張され、最大で100万トークンを処理できる。Googleは会社の威信をかけて、OpenAIのGPT-4に対抗するモデルの開発を加速させている。

出典: Google

Geminiシリーズ

Googleは昨年12月、生成AI次世代モデル「Gemini」を発表している。Geminiはファウンデーションモデルで、高度な言語機能の他に、イメージやビデオやオーディオを理解するマルチモダル機能を備えている。Geminiは三つのサイズから構成される:

  • Gemini Ultra:最大構成モデルでデータセンターで使われ複雑なタスクを実行する。チャットボット「Gemini Advanced」のエンジンとして使われている。
  • Gemini Pro:中規模構成モデルで幅広いレンジのタスクを実行する。チャットボット「Gemini」のエンジンとして使われている。
  • Gemini Nano:最小構成のモデルでスマートフォンで稼働する。ハイエンドスマホ「Pixel 8 Pro」に搭載されている。

今回発表されたのは「Gemini Pro 1.5」

今回の発表は中規模構成モデルの最新版「Gemini Pro 1.5」となる。Gemini Pro 1.5はアーキテクチャが大きく改良され、ハイエンドモデル「Gemini Ultra 1.0」と同等の性能を示す。更に、入力できるデータ量が拡大され、最大100万トークンを処理できる。Gemini Pro 1.5の主な改良ポイントは:

  • アーキテクチャ:Mixture-of-Experts (MoE)という方式を実装
  • コンテクスト・ウインドウ:入力できるトークンの数を100万に拡大

アーキテクチャ:Mixture-of-Experts (MoE)

Gemini Pro 1.5の性能が大きく向上した理由は、アーキテクチャとして「Mixture-of-Experts (MoE)」を採用したことにある。Googleは早くからMoEの研究を進めており、この成果をGemini 1.5に適用した。MoEとはモデルを構成するネットワークの方式で、単一構造ではなく、複数の専門家「Expert」を持つ構成とする(下のグラフィックス)。入力された命令に対し、その分野の専門家が解答を生成する仕組みとなる。これにより、プロンプトに対しモデル全体を稼働させるのではなく、その一部のエキスパートが処理を実行するため、高速で効率的にインファレンス処理を実行できる。

出典: Google

コンテクスト・ウインドウ:100万トークン

コンテクスト・ウインドウ(Context Window)が大幅に拡大された。コンテクスト・ウインドウとは、モデルに入力できるデータのサイズを指す。Gemini Pro 1.5では、このサイズが100万トークンに拡張された。具体的には、テキストでは70万単語、ビデオでは1時間分の動画を処理できる。コンテクスト・ウインドウは、ワーキングメモリであり、この領域が大きいと一度に大量のコンテクストを処理できる。例えば、源氏物語の英訳「The Tale of Genji」の全体を読み込ませ、Gemini Pro 1.5はこの小説のに関する知識を習得し、研究者や読者からの多彩な質問に回答することができる。(下のグラフィックス上段:Gemini Pro 1.5のコンテクスト・ウインドウのサイズ、実際には1000万トークンまで処理できる、下段:GPT-4のコンテクスト・ウインドウは12万8000トークン)。

出典: Google

利用方法     

GoogleはGemini Pro 1.5をAIスタジオ「AI Studio」とAIクラウド「Vertex AI」で公開する。AIスタジオは生成AIモデルのプレイグランドで、異なるモデルを使ってその機能や性能を検証することができる。現在は「Gemini Pro 1.0」が公開されており(下のグラフィックス)、「Gemini Pro 1.5」は待ちリストに登録し、認可を得たユーザから利用できる状態となっている。

出典: Google

Geminiの開発手法

GoogleはGeminiの開発を並列で進めており、「Gemini 1.0」はリリース済みで、先週「Pro 1.5」が公開された。これから「Ultra 1.5」が投入され、されに、並列して「Gemini 2.0」が開発されており、その公開も近いとされる。Googleはこの市場のトップを奪還するため、Geminiの開発を加速している。

Googleは生成AIハイエンドモデル「Gemini Ultra」を公開、GPT-4を超えOpenAIの独走が終わる

Googleは2月8日、生成AIのハイエンドモデル「Gemini Ultra」をリリースした。OpenAIのGPT-4を上回る性能で、この市場で首位を奪還した。Googleは昨年12月、Geminiを発表しベンチマーク結果を公表したが、Gemini Ultraはリリースされず、実際にモデルを使うことはできなかった。GoogleはUltraの公開に合わせ、製品体系を一新し名称を「Gemini」に統一した。「Bard」は「Gemini」に改称され、GeminiはGoogleのAI製品を表すブランドとなった。

出典: Google

Geminiの製品体系

BardはGemini Ultraの投入により製品体系が二系統となった:

  • Gemini」:従来のBardで名称を変更。「Gemini Pro」に構築される。無償版。
  • Gemini Advanced」:新モデルで「Gemini Ultra」に構築される。有償版(月額19.99ドル)。

また、スマホ向けのアプリ「Gemini」がリリースされ、AndroidとiOSでGeminiの機能を使うことができるようになった。

Gemini Advancedとは

Gemini AdvancedはハイエンドモデルGemini Ultra 1.0に構築されるチャットボットとなる。このモデルがOpenAIのGPT-4に対抗する製品で、生成AI市場の二強を担う。インターフェイスは黒色をベースとし、高級感を醸しだしている(下の写真)。Bardの構成を踏襲しており、プロンプトを入力すると、モデルが回答を出力する。

出典: VentureClef

Gemini Advancedを使ってみる: 推論機能に強み

Gemini Advancedは、プロンプトの指示に従って情報を出力するが、人間のプロフェッショナルのように、対話しながら問題を解決する機能が優れている。難しいタスクをステップごとに分割し、それぞれを解決しながら、最終ゴールに到達する。例えば、映画の鑑賞会を立案する方法を尋ねると、Gemini Advancedは、イベントの基本情報や場所の好みなどを質問し、利用者と対話しながら、ステップごとに内容を議論し、最終的プランを提案する(下の写真)。イベントコーディネータと対話しながら、結婚式のプランを立案する方式に似ている。

出典: VentureClef

Gemini Advancedを使ってみる: マルチモダル機能

Gemini Advancedはマルチモダル機能が強化され、指示した内容に従ってイメージを生成する。例えば、「GoogleのAGI発表イベントのイメージを生成」と指示すると、それを描き出す(下の写真)。イメージの品質は他社製品と比べて優れているとは言えないが、そのアーキテクチャに特徴がある。他社は「Diffusion」という手法を使うが、Googleは言語モデル「Transformers」でテキストだけでなくイメージなどのマルチモダルをこなす。単一のアーキテクチャで異なるモードのメディアを処理できるため、効率的なネットワークを構成できる。

出典: VentureClef

Gemini Advancedを使ってみる: 全体の印象

Gemini Advancedを使い始めたが、Geminiの特徴を継承し、この機能が一段と強化されたとの印象を受ける。Geminiは、難しいコンセプトを分解して、モジュールごとに分かりやすく説明するアプローチを取る。学校の先生が生徒に、複雑な内容をステップごとに分け、それぞれを分かりやすく説明する方式に似ている。例えば、アメリカンフットボールで「サンフランシスコ フォーティナイナーズの攻撃の戦略と手法」を尋ねると、Gemini Advancedは、ヘッドコーチの攻撃に関する思想や、主要選手の役割など、多角的に体系立てて説明する(下の写真)。Gemini Advancedを使うと、難しい事柄を理解する時間が大幅に短縮されると感じる。

出典: VentureClef

価格体系

GeminiはBardの後継モデルとして無償で提供されるが、Gemini Advancedは有償モデルとなる。Gemini Advancedは、ストレージサービス「Google One」の中の「AI Premium」に含まれ、サブスクリプションは月額19.99ドルとなる(下の写真、右端)。AI Premiumには、Gemini Advancedの他にGmailなどのアシスタント機能が含まれる。この機能は「Duet AI」と呼ばれていたが、今回の発表で「Gemini」のブランドに統一された。

出典: Google

Gemini UltraとGPT-4の二強時代

Gemini AdvancedはGoogleのフラッグシップモデルで、OpenAIのGPT-4と互角の性能を提供する。GPT-4がリリースされ約一年が経過するが、GoogleがUltraを公開し、トップに追い付いた形となる。GPT-4は生成AI市場で独走してきたが、手ごわい競合相手が登場し、AI市場は二強時代に突入した

Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

Googleは12月6日、生成AI次世代モデル「Gemini」を発表した。GeminiはベンチマークでOpenAIのGPT-4を上回り最先端の言語モデルとなる。Geminiは複雑なタスクをステップごとに思考する「推論機能」が強化され回答の精度が向上した。また、Geminiはテキストの他に、イメージやビデオやオーディオを理解する「マルチモダル」が導入され、視覚や聴覚を備えたモデルとなる。一方、Googleが満を持して投入したGeminiであるが、GPT-4を上回るもののその差は僅かで、生成AI開発で苦戦していることが窺われる。

出典: Google

Geminiの概要

GeminiはGoogleが開発した最大規模の言語モデルで高度な機能を持つ。Geminiの特徴は、データセンターからスマホで稼働できる構成で、三つのサイズから構成される。

  • Gemini Ultra:最大構成のモデルでデータセンターで使われ複雑なタスクを実行する。このモデルがGPT-4対抗機種となる。ただし、リリースは2024年1月を予定。
  • Gemini Pro:中規模構成のモデルで幅広いレンジのタスクを実行する。Googleのチャットボット「Bard」のエンジンとして稼働している。
  • Gemini Nano:最小構成のモデルでモバイルデバイスの上で稼働する。Googleのスマホ「Pixel 8 Pro」に搭載されている。
出典: Google

ベンチマーク結果

GoogleはGemini Ultraのベンチマーク結果を公開し、GPT-4の性能を上回ったことをアピールしている。標準的な32のベンチマークで、Geminiが30部門でGPT-4をうわまわり、この市場でトップの機能を持つモデルとなる。ベンチマーク結果のサマリーは下記の通り(いずれもGemini Ultraの性能):

  • MMLU (massive multitask language understanding):言語モデルの総合性能を評価するベンチマーク(下のテーブル最上段)。GPT-4を上回ったことに加え、人間の言語能力を初めて超えた。
  • Big-Bench Hard:言語モデルの推論機能を評価するベンチマーク(上から二段目)。GPT-4の性能をわずかに上回る。
  • MATH:数学の問題を解く能力を評価するベンチマーク(上から六段目)。推論機能を評価するもので、試験の中で最難関の分野。
出典: Google

推論機能

Geminiは推論機能が強化され、複雑なタスクを正確に実行することができる。推論機能とは、与えられた指示をステップごとに考察し、最終ゴールに到達するための基礎技術となる。推論機能を使うと、複雑な検索を正確に実行できる。研究者は過去の論文から、特定のテーマに関するものを検索するが、その数は膨大で選別には時間を要する。ここでGeminiを使うと、このプロセスを高速で実行できる。Geminiに、特定のテーマ(例えば非コードゲノム変異(Non-Coding Variants))に関する論文を検索するよう指示すると、推論機能を使ってプロセスを検証しながらこれを実行する。Geminiは20万件の論文を読み、指示されたテーマが書かれているものを250点選び出す(下の写真)。実行結果を表示させる指示では、過去の研究成果のグラフを入力すると、Geminiは新しい情報を反映したグラフを生成する。

出典: Google

マルチモダル

Geminiはマルチモダル機能が導入され、テキストに加え、イメージ、ビデオ、オーディオなどのモードを理解することができる。Geminiは手書きの文字を理解することができ、生徒が提出した算数の答案を採点することができる。生徒の手書きの回答(下の写真左側)を読み、正解かそうでないかを判定する。更に、間違っている個所を特定(左側赤色の枠)し、なぜ間違っているかを説明し、問題の正解を示す(右側)。このケースではマルチモダルの他に、推論機能を使って物理の問題の解法を説明する。

出典: Google

アーキテクチャ

Geminiは大規模言語モデルであるが、そのアーキテクチャはGPT-4とは大きく異なる。従来のモデルは、メディアの種類によってそれを処理するための専用ネットワークを備える。テキストを処理するネットワークや、イメージを処理するネットワークが構築され、最終的にそれを統合してマルチモダルの処理を実行する。これに対しGeminiは、単一のネットワークで異なるメディアを処理する構造となる。テキスト、オーディオ、イメージ、ビデオを単一のネットワーク(Transformer)で処理する(下の写真)。このため、Geminiはマルチモダル・ネイティブのネットワークという位置づけになる。

出典: Google

次世代モデルの開発競争

GoogleはGeminiを11月に発表すると噂されていたが、この予定が一か月延伸された形となった。しかし、Geminiのハイエンドモデル「Gemini Ultra」について製品は投入されず、製品発表に留まった。リリースは2024年1月に予定されている。GeminiはGPT-4の性能を上回るがその差は僅かで、製品開発が難航していることをうかがわせる。Geminiはマルチモダルの中でビデオを強化し、ここでGPT-4に大きく先行するといわれてきたが、発表ではその新機能は登場しなかった。OpenAIは次世代モデル「GPT-5」を開発しており、生成AIの開発競争が一段と激化する。

Googleは「Bard」をGmailなどと連携、生成AIが秘書となり仕事の効率が大幅にアップ!!

Googleは生成AIの機能を拡張した「Bard Extensions」を公開した。これは、BardをGmailやDriveなど、他のアプリと連携するもので、生成AIがこれらのデータを元に回答を生成する。Bardがメールの内容を読み、必要なアクションを表示する。Driveに格納しているドキュメントを分析し、要点を纏める。また、Bardは回答した内容を検証し、それが事実かどうかを区別する。Bardは仕事に必須のツールに進化し、生成AIの便利さを実感する。

出典: Google

回答の真偽

Bard Extensionsで多くの機能が追加されたが、最も便利な機能は出力結果を検証する機能である。Bardは回答を生成するが、これをどこまで信用できるかが課題であった。拡張機能では、出力内容を検証する機能が追加され、真偽が一目でわかるようになった。Bardが出力した後に、「G」ボタンをクリックすると、事実の部分は緑色で、事実でない部分は肌色で示される(下のグラフィックス)。これは、Bardが出力内容をGoogle検索で確認したもので、出典「Grounding」が確認された個所と、ハルシネーションの個所を表示する機能となる。

~~~

出典: Google

Gmailとの連携

Bardは利用者の許諾の元、Gmailにアクセスし、メールの内容を読み、回答を生成する。毎日、大量のメールを受信するが、それをBardを使って読むと、処理効率が大幅にアップする。例えば、Metaから製品やイベント情報を頻繁に受信するが、Bardがそれらを纏めて要旨を示す(下のグラフィックス上段)。また、Bardがアクセスしたメールが表示される(下段)。この他に、受信したメールを検索し、過去の交信を辿ることもできる。

~~~~

出典: Google

Google Driveとの連携

Google Driveはクラウド・ストレージで、写真やドキュメントなどを保存するツールとして利用されている。ここに様々な報告書や記事などを格納しているが、Bardを使うと、これらの内容を短時間で把握できる。例えば、Bardは指示されたファイルを読み、その要約をポイントごとに纏める(下のグラフィックス上段)。また、参照したファイルと制作者名などをを示す(下段)。

~~~

出典: Google

フライトとホテル

Bardは旅行サービス「Google Travel」と連携し、フライトとホテルを対話形式で探すことができる。Bardがトラベルエージェントとなり、条件(下のグラフィックス上段)を指示すると、それに合った、フライト(中段)とホテル(下段)を表示する。例えば、サンフランシスコからニューヨークのフライトで最もいい条件を見つけ出す。

~~~

~~~

出典: Google

Google Mapsとの連携

BardがGoogle Mapsと連携し、最適なルートを表示する。ドライブで目的地を入力すると、Bardは最適な道順を出力し(下のグラフィックス上段)、その結果をGoogle Mapsに表示する(下段)。また、旅行計画を立案するよう指示すると、観光スポットを盛り込んだプランを出力。

~~~

出典: Google

YouTubeとの連携

Bardに生活や仕事のノウハウを尋ねるとそれをテキストで出力するだけでなく(下のグラフィックス上段)、ビデオで回答する(下段)。例えば、チャイルドシートの装着方法を尋ねると、それが示されたYouTubeビデオを表示する。

~~~

出典: Google

Retrieval Augmented Generation

Bardは質問に対する検索範囲をGmailやDriveなどのアプリに拡大し、利用者の個人情報を取り入れ、最適な回答を生成する。これは「Retrieval Augmented Generation」と呼ばれ、プレ教育した言語モデル「PaLM 2」に、関連データを付加することで、利用者に特化した回答を生成する。BardはGmailなどにアクセスするため、Googleはプライバシー保護を明確にし、個人情報は人間が閲覧することはなく、また、アルゴリズムの教育でも使わないとしている。実際に使ってみると、Bardは個人情報を元に回答を生成するため、人間の秘書のように便利な存在と感じる。