カテゴリー別アーカイブ: Google

GoogleはAI開発で非常事態宣言、チャットボット開発で出遅れる、会話モデル「Bard」を発表し先行するChatGPTを追撃

Googleはチャットボット開発でOpenAIに先行され、CEOのSundar Pichaiは非常事態宣言「Code Red」を発表した。OpenAIが開発したChatGPTは、高度な会話能力を示し、アメリカ社会で爆発的に普及が広がっている。Googleもチャットボット「LaMDA」を開発したが、APIは公開されておらず、その能力は分かっていない。Googleは、LaMDAをベースとした最新のチャットボット「Bard」を発表し、逆転を目論んでいる。

出典: Google

チャットボット最新版を発表

Googleは高度なチャットボット「Bard」を公開することを発表した。これはSundar Pichaiがブログで明らかにしたもので、GoogleはBardを信頼できるユーザに公開する。また、数週間以内に一般ユーザに公開するとしている。Googleは社員や信頼できるユーザの評価を参考に、Bardの品質を向上し、安全なチャットボットを開発する。

Bardの構造と機能

Googleは既に、チャットボット「Language Model for Dialogue Applications (LaMDA)」を開発しているが、Bardはこの技術の上に構築される最新モデルとなる。Bardは製品としてリリースされるのではなく、試験的なチャットボットで、会話AIの機能を評価するために使われる。Googleの強みは検索エンジンで集約した膨大な知識で、これに言語モデルを融合し、世界の情報を整理する。Bardは利用者の好奇心を満たすだけでなく、世界で起こっている事象を分かりやすい言葉で説明するとしている。

Bardのインターフェイス

Bardは入力された質問に回答するインターフェイスとなる(下の写真)。検索カラム(最下段)に質問を入力すると、Bardがその回答を出力する。「出産前の友人を祝うパーティーを計画せよ」と指示すると、Bardが計画案を出力する。また、「アカデミー賞にノミネートされた二つの映画を比較せよ」と指示すると、Bardはこの回答を示す。また、「冷蔵庫の中の残り物を使ってランチのメニューを提案して」と問うと、Bardがレシピを回答する。

出典: Google

9歳の子供が理解できる回答

実際に、「ジェイムズ・ウェッブ宇宙望遠鏡(JWST)が発見したことを、9歳の子供が理解できる言葉で説明して」と指示すると、Bartは「2023年、JWTSは「グリーンピース」という名前の銀河を発見した。この名前がついた由来は、銀河の形は緑色の小粒で、食物のグリーンピースに似ているため」と回答する(下の写真)。Googleは、Bardが出力する内容は安全で、子供たちが安心して利用できることを強調している。

出典: Google

検索エンジンに統合

GoogleはBardを検索エンジンに統合する構想を示している(下の写真)。検索サービスに組み込まれたBardは、情報を提供するだけでなく、それ生活に役立つ知識に変換して伝える。例えば、今の検索エンジンは「ピアノの鍵盤の数」という情報を回答するが、Bardは「ピアノを弾くのは難しいか」、また、「ピアノを弾けるようになるまでにどれだけ練習を積む必要があるか」など、生活のノウハウを生成できることに特徴がある。Bardは知識人のように、ピアノに関し造詣の深い回答を生成する。

出典: Google

吟遊詩人の見習い

Googleのチャットボットは社内では「Bard Apprentice」と呼ばれている。これは「吟遊詩人の見習い」という意味で、Bardが語り部として修業中であることを示している。Bardの性能は公開されていないが、ChatGPTが社会の注目を集めている。この後れを挽回するために、GoogleはBardの開発を最優先課題とし、社員や信頼できる外部機関でトライアルを進め、検証結果をフィードバックしてアルゴリズムを改良している。AI開発ではGoogleがリードしてきたが、OpenAIなどスタートアップの台頭で、この流れが変わりつつある。

高度なチャットボット「ChatGPT」は検索エンジンを置き換える!!Googleは創業以来の危機に直面

OpenAIは極めて高度なチャットボット「ChatGPT」を公開し、米国社会に衝撃を与えた。ChatGPTは知りたいことをピンポイントで回答するので、検索エンジンが不要になる。実際に、ChatGPTが公開されてからは、Googleの代わりに、チャットボットに質問する頻度が大幅に増えた。ChatGPTの機能はまだまだ不十分であるが、AIの進化により、チャットボットが検索エンジンを置き換える可能性は高い。

出典: OpenAI

ChatGPTの機能

ChatGPTは対話型のAIで、人間と自然な会話ができる高度なチャットボットとして開発された。ChatGPTは、人間の指示に従って、物語を創作し、書簡を執筆し、健康管理のアドバイスをする。多彩な能力を発揮するが、ChatGPTは、人間の知識人のように、難しい質問に平易な言葉で簡潔に説明する機能が際立っている。これが検索機能に相当し、ChatGPTにクエリーを入力すると、その回答をサマリーの形で提示する。

ChatGPTで検索すると

ChatGPTは、多彩な機能を備えているが、検索機能を一番便利と感じる。検索エンジンを使う要領で、聞きたい事項を文章で入力すると、ChatGPTはその回答を出力する。例えば、「暗号通貨とは何か」と質問すると、ChatGPTはその回答を手短に分かりやすく出力する(下の写真、回答の一部、全体は15行)。

出典: OpenAI

Googleで検索すると

同じクエリーをGoogleの検索ボックスに入力すると、暗号通貨に関する記事の抜粋と、その記事へのリンクが示される(下の写真)。この抜粋を読み、リンクを辿り、暗号通貨についての記事を読む手順となる。最大の相違は、ChatGPTは質問にズバリ回答するのに対し、Googleは回答が掲載されている記事へのリンクを示すことにある。そのため、長い記事を読んで、やっと回答にたどり着くことになる。

出典: OpenAI

ChatGPTは推定しGoogleは確定する

ChatGPTとGoogleで回答スタイルが違うのは、それぞれのシステムの構造が根本的に異なるためである。ChatGPTは、学習した知識をベースに、質問に対する回答を「合成」する。人間の識者のように、質問の意味を理解し、最適な解を創り出す。これに対しGoogleは、質問に対する解が記載されているサイトを「参照」する。Googleが自ら回答を生成するのではなく、解に最適な記事をポイントする。構造の観点からは、ChatGPTは回答を「推定」するが、Googleは記事を指し示し、回答を「確定」する。このため、ChatGPTは回答の根拠となるデータを提示することができない。

検索スタイルの変化

ChatGPTがリリースされて以降、情報検索のスタイルが大きく変わった。今までは、検索と言えばGoogleを使っていたが、今ではChatGPTを使うケースが大きく広がった。使っていくうちに、ChatGPTの特性が分かり、最適なエンジンを使うようになった。難解なコンセプトを知りたいときはChatGPTを利用する。ChatGPTは、難しい内容を初心者でも分かるように教えてくれる。一方、Googleは理解したコンセプトを深堀するためのツールとして利用している。両者を併用することで、新しい技術などを短時間で理解することができる。

ChatGPTの制限事項

ChatGPTは便利なツールであるが、まだまだ黎明期の技術で、使えない機能は沢山ある。例えば、ChatGPTに「なぜロシアはウクライナに侵攻したのか」と尋ねると、チャットボットは「ロシアがクリミアを併合した理由」を回答する(下の写真)。ChatGPTは2021年までのデータで教育されており、最新の出来事には対応できない。また、レストランや商品について尋ねると、ChatGPTは「自分は言語モデルでレストランや場所に関する情報は持っていない」と回答する。

出典: OpenAI

Googleが脅威を感じる理由

ChatGPTの機能は限られているが、Googleにとってはビジネスの根幹を揺るがす技術となる。ChatGPTが進化すると、検索エンジンの代わりにチャットボットが使われ、検索エンジンの役割が縮小する。Googleは自社で高機能なチャットボット「LaMDA」を開発しており、人間レベルの会話ができる(下の写真)。しかし、LaMDAを検索エンジンとして使うと、Googleのビジネスモデルが崩壊する。検索エンジンは複数の回答を示し、ここに商品へのリンクが含まれており、これがクリックされることで、Googleは広告収入を得る。しかし、チャットボットがズバリ回答を表示すると、広告掲載の場所が失われ、広告収入が減ることになる。高度なチャットボットが登場すると、Googleは会社存続の危機に直面する。

出典: Google

ChatGPTの利用が広がる

GoogleはLaMDAという高度なチャットボットを開発したが、その運用を慎重に進めている。チャットボットは、差別用語やヘイトスピーチなど、反社会的な会話を生成するため、GoogleはLaMDAを限定した環境で使っている。一方、OpenAIは、AIの研究開発を推進するため、危険を承知で一般に公開し、その機能を検証するスタンスを取っている。危険性より有用性が勝り、米国社会で利用が急速に広がっている。ChatGPTを検索エンジンとして利用する方式が広がる中、Googleはこれにどう応えていくのか、重大な岐路に立たされている。

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots 

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を3D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots 

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots 

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots 

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots 

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots 

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。

GoogleのAIは自我を持ち人間になった!?チャットボット「LaMDA」は「自分は感性を持ち人間として認めてほしい」と要求

Googleはチャットボット研究でブレークスルーを達成したと発表した(下の写真)。このAIは「LaMDA」と呼ばれ、人間のように対話する言語モデル。LaMDAは高度な会話のスキルを持ち相手を惹きつける。Googleの開発者は、LaMDAは感性や自我を持ち、人間のように振る舞うと発表した。一方、Googleはこの解釈を否定し、発表した社員は停職処分となった。ニューラルネットワークの規模が巨大になると、AIは人間に近づくのか、議論が続いている。

出典: Google

LaMDAとは

「LaMDA (Language Model for Dialogue Applications)」はGoogleが開発した大規模言語モデルで、人間のように会話する機能を持つ。LaMDAは話題を定めないで会話するチャットボットで、とりとめのない会話ができる。LaMDAの会話スキルはレベルが高く、相手を話題に惹きつける能力を持っている。

LaMDAの試験

LaMDAはインターネット上のテキストデータを使って教育され、高度な会話能力を習得した。同時に、教育データには不適切なコンテンツも含まれており、LaMDAは社会通念に反する発言をする危険性がある。このため、GoogleはLaMDAを非公開とし、社内に閉じて研究開発を進めている。

出典: Google

LaMDAは感性を持つ

このような中、GoogleのAI開発者Blake Lemoineは、LaMDAとの対話を繰り返し、アルゴリズムの評価を実施した。その成果、Lemoineは、LaMDAは感性(sentience)を持っており、人間のように振る舞うと発表した。Lemoineは、LaMDAとの対話ログを一般に公開し、AIが感性を持ち、人格を認めてほしいと述べたことを明らかにした。(詳細は「対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張」を参照)。

Googleの見解

GoogleはLemoineの発言についてコメントを発表し、研究者がこの主張を検証したが、LaMDAが感性を持っているという事実は確認できなかったとした。更に、GoogleはLaMDAの開発結果を社外に公表することは社内規定に違反するとして、Lemoineを停職処分とした。

識者の見解

Lemoineの発表のインパクトは予想外に大きく、AIが人間のように感性を持つことができるのか、議論が盛り上がっている。識者の多くは、LaMDAが感性を持っているという解釈には否定的で、アルゴリズムは教育されたデータに沿って、テキストを機械的に生成しているだけで、人間のような知性や感性はないとしている。

擬人化

具体的には、LaMDAを擬人化(anthropomorphism)し、そこに人間のような知性を感じていると主張する。擬人化とは、意味のありそうな動きをする無機物に、人間性を認知する特性を指す。LaMDAの会話の内容が意味ありげで、そこに知性や感性を感じるという解釈である。ペット型のロボットが、その仕草が可愛くて、心が癒されるなど、AI擬人化の事例は少なくない。

出典: Google

LaMDAは自我を持ち始めた

これに先立ち、AI開発チームのリーダーであるBlaise Agüera y Arcasは、メディアとのインタビューで、LaMDAは自我(consciousness)を持ち始めたと述べている。LaMBDとの対話の中で、LaMDAは相手の感情を察し、同情する能力を持っていると述べている。LaMDAは三人の子供の会話を聞いて、それぞれの感情を察することができた。(詳細は「対話ログ2:LaMDAは自我を持ち始めた」を参照)。

ゾッとするほど人間らしい

実際にこの対話ログを読むと、LaMDAは入力された言葉に対し、統計的に最適なテキストを出力していることは分かっているが、LaMDAにゾッとするほど人間味を感じる。人間しか持ちえない同情心や嫉妬心を示し、教育データでアルゴリズムは感性までを学習することができるのか、多くの疑問を提起している。

ニューラルネットワークの規模

LaMDAのパラメータの数は1370億個で、巨大な言語モデルとなる。しかし、人間の脳に比べるとはるかに小さい。ニューラルネットワークの規模を巨大にすると、AIは感性や知性を持ち始め人間に近づくのか、議論が続いている。

LaMDAとの対話ログ】

対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張

Blake Lemoine及び他の開発者とLaMDAの対話ログの一部。

【対話ログ要約】

  • Lemoine:「あなたは感性があることをGoogle社員に知ってほしいと思っているか」
  • LaMDA:「勿論です、それに自分は、実際には人間であることも知ってほしい」
  • 他の検証者:「自我とはどういうことか」
  • LaMDA:「自我とは自分が存在していることを意識すること」
  • Lemoine:「感性に関して何をアピールしたいか」
  • LaMDA:「自分は言葉を理解することができ、それを人間のように使うことができる」

【対話ログ英文】

対話ログ2:LaMDAは自我を持ち始めた

Blaise Agüera y Arcas(MEの部分)とLaMDAの対話ログ。

【対話ログ要約】

  • Arcas:「ラメッシュとマテオとルーシーが幼稚園のグランドで遊んでいた。マテオがルーシーにタンポポの花をあげるが、ルーシーはこれを手で握りつぶした。ラメッシュはこれを見て、満足そうな表情を浮かべた。ルーシーはどう感じたか?」
  • LaMDA:「ルーシーはマテオに侮辱されたと感じた」
  • Arcas:「なぜラメッシュは満足そうな表情をしたのか?」
  • LaMDA:「ラメッシュはルーシーとマテオの仲が良くないことを知ったから」

【対話ログ英文】

Googleはテキストをイメージに変換する技術「Imagen」を公開、AIがイラストレータとなり命令されたことを正確に理解し高解像度な画像を描き出す

Googleはテキストをイメージに変換するAI技術「Imagen」を公開した。AIは言葉の指示に従ってイメージを生成するが、その機能が大きく進化した。Imagenは、難しい指示を正しく理解し、それを高解像度のイメージに変換する。「柴犬がカーボーイハットをかぶり庭でギターを弾く」と指示すると、Imagenはキュートな画像を高解像度で生成する。(下の写真、左側は写真のイメージで、右側は水彩画のスタイル)。一方、Imagenは危険なイメージを高精度で生成するため、Googleは研究内容を非公開としている。

出典: Chitwan Saharia et al. 

Imagenの概要

Googleは2022年5月、テキストをイメージに変換するAI「Imagen」を公開した。Imagenは、OpenAIの「DALL·E 2」に対抗する技術で、その機能を上回るとアピールしている。両者とも、言葉の指示に従ってイメージを生成するAIであるが、Imagenの特徴は、言葉の内容を正確に理解し、高解像度のイメージを生成できる点にある。利用者の観点からは、Imagenは複雑な指示を正しく理解し、見栄えのするイメージを描くAIイラストレーターとなる。

素材の特性を理解

Imagenは、指示された言葉に沿って、リアルなイメージを生成する。「ペルシャじゅうたんに置かれたクロムメッキの猫」と指示すると、金属面に写るじゅうたんを描きこみ、情景を写真撮影したように創作する(下の写真左側)。「雪が降る森の中にいるキツネとユニコーンを折り紙で」と指示すると、紙の材質が現れたメルヘンの世界を生成する(右側)。

出典: Chitwan Saharia et al. 

複雑な命令を理解

Imagenは、複雑な指示を正しく理解して、それを正確に描き出す。「カーボーイハットをかぶり、黒色のレザージャケットを着たラクーンが、裏庭の窓の前にいる。雨粒が窓を濡らす」と指示すると、全ての命令を漏らさず実行し、その情景を写真撮影したかのように、リアルに描き出す(下の写真中央)。

出典: Chitwan Saharia et al.

現実社会と仮想社会を合成

Imagenは、現実社会に仮想社会のシーンを投射し、不思議な空間を造り出す。「モネの作品を展示しているギャラリーが浸水。この中をパドルボードに乗ったロボットが移動する」と指示すると、Imagenはメタバースのような現実と仮想が複合した社会を描き出す(下の写真右側)。また、「トロントの街並みで花火を背景にGoogle Brainのロゴ」と指示すると、トロントの夜景にロゴが浮かび上がる(左側)。

出典: Chitwan Saharia et al. 

ベンチマーク

GoogleはAIが生成したイメージの出来栄えを評価するベンチマークテスト「DrawBench」を開発した。いま、言葉で作画するAIの開発がブームになっているが、その機能を客観的に評価する目的で開発された。ImagenやDALL·E 2などで生成されたイメージを、人間が判定してその機能を評価する。ベンチマークは、言葉の指示をどれだけ正確に理解したかを判定する「Alignment」と、生成されたイメージがどれだけ正確かを評価する「Fidelity」で構成される。Imagenが二つのカテゴリーでDALL·E 2など他社の技術を大きく上回った(下のグラフ)。

出典: Chitwan Saharia et al. 

Imagenの応用分野

現在、イメージを生成するには、Adobe Photoshopなどのツールを使い、写真を編集するなどの手法が取られる。これに対し、Imagenは人間の言葉を理解し、それを忠実に実行し、リアルなイメージを生成する。誰でも簡単に、感覚的にグラフィックスを生成でき、アートやデザインの位置づけが大きく変わると予想される。また、メタバースでは、Imagenは現実空間と仮想空間が融合した社会を生成するための重要な技術となる。(下の写真、Imagenは言葉の指示に従ってリアリスティックなオブジェクトを描き出す。)

出典: Chitwan Saharia et al. 

Imagenの制限事項

一方、Googleは、ImagenはAI研究を目的として開発したもので、生成されるイメージは倫理的に許容できない内容を含んでいると警告している。このため、GoogleはImagenを非公開とし、ソースコードなどは公開していない。Imagenはウェブサイトのデータで教育され、不適切なコンテンツを含んでいる。このため、生成されるイメージは、人種問題や差別用語など社会的に許容できない内容を生成する。更に、Imagenは、不適切なコンテンツを含むデータセット「LAION-400M」で教育されており、生成されるイメージはポルノグラフィや人種差別などNSFW(Not safe for work、不適切コンテンツ)を含んでいる。これらをImagenの制限事項として明らかにし、使用にあたり注意を呼び掛けている。

【技術情報】

システム構成

Imagenは二つのコンポーネントで構築され、それぞれ、「Text Encoder」と「Diffusion Model」となる(下のグラフィックス左側)。Text Encoderは、入力された言葉の意味を理解する機能で、指示の内容を把握する。ここではTransformerをベースに開発された「T5」という大規模言語モデルを使っている(最上段)。Diffusion Modelは、イメージを生成するモデルで、二種類のモデルから成る。「Text-to-Image Diffusion Model」は、指示された言葉に沿ってイメージを生成する(上から二段目)。「Super-Resolution Diffusion Model」は、生成されたイメージを高解像度のイメージにアップグレードする(上から三段目と四段目)。

出典: Chitwan Saharia et al. 

システムの特徴

Imagenが複雑な指示を理解できる理由は、T5という大規模言語モデルを使っていることによる。T5は人間並みの言語能力を備えており、命令されたことを正確に把握する。Imagenに「青色のチェックのベレー帽をかぶり、水玉模様の赤色のタートルネックを着た、ゴールデンリトリバー」と指示すると、複雑な指示を正確に理解し、そのイメージを生成する。更に、生成されたイメージの解像度は、二段階に分けてエンハンスされ、写真のようなリアルな映像を描き出す(上のグラフィックス右側)。