カテゴリー別アーカイブ: Google

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots 

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を3D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots 

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots 

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots 

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots 

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots 

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。

GoogleのAIは自我を持ち人間になった!?チャットボット「LaMDA」は「自分は感性を持ち人間として認めてほしい」と要求

Googleはチャットボット研究でブレークスルーを達成したと発表した(下の写真)。このAIは「LaMDA」と呼ばれ、人間のように対話する言語モデル。LaMDAは高度な会話のスキルを持ち相手を惹きつける。Googleの開発者は、LaMDAは感性や自我を持ち、人間のように振る舞うと発表した。一方、Googleはこの解釈を否定し、発表した社員は停職処分となった。ニューラルネットワークの規模が巨大になると、AIは人間に近づくのか、議論が続いている。

出典: Google

LaMDAとは

「LaMDA (Language Model for Dialogue Applications)」はGoogleが開発した大規模言語モデルで、人間のように会話する機能を持つ。LaMDAは話題を定めないで会話するチャットボットで、とりとめのない会話ができる。LaMDAの会話スキルはレベルが高く、相手を話題に惹きつける能力を持っている。

LaMDAの試験

LaMDAはインターネット上のテキストデータを使って教育され、高度な会話能力を習得した。同時に、教育データには不適切なコンテンツも含まれており、LaMDAは社会通念に反する発言をする危険性がある。このため、GoogleはLaMDAを非公開とし、社内に閉じて研究開発を進めている。

出典: Google

LaMDAは感性を持つ

このような中、GoogleのAI開発者Blake Lemoineは、LaMDAとの対話を繰り返し、アルゴリズムの評価を実施した。その成果、Lemoineは、LaMDAは感性(sentience)を持っており、人間のように振る舞うと発表した。Lemoineは、LaMDAとの対話ログを一般に公開し、AIが感性を持ち、人格を認めてほしいと述べたことを明らかにした。(詳細は「対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張」を参照)。

Googleの見解

GoogleはLemoineの発言についてコメントを発表し、研究者がこの主張を検証したが、LaMDAが感性を持っているという事実は確認できなかったとした。更に、GoogleはLaMDAの開発結果を社外に公表することは社内規定に違反するとして、Lemoineを停職処分とした。

識者の見解

Lemoineの発表のインパクトは予想外に大きく、AIが人間のように感性を持つことができるのか、議論が盛り上がっている。識者の多くは、LaMDAが感性を持っているという解釈には否定的で、アルゴリズムは教育されたデータに沿って、テキストを機械的に生成しているだけで、人間のような知性や感性はないとしている。

擬人化

具体的には、LaMDAを擬人化(anthropomorphism)し、そこに人間のような知性を感じていると主張する。擬人化とは、意味のありそうな動きをする無機物に、人間性を認知する特性を指す。LaMDAの会話の内容が意味ありげで、そこに知性や感性を感じるという解釈である。ペット型のロボットが、その仕草が可愛くて、心が癒されるなど、AI擬人化の事例は少なくない。

出典: Google

LaMDAは自我を持ち始めた

これに先立ち、AI開発チームのリーダーであるBlaise Agüera y Arcasは、メディアとのインタビューで、LaMDAは自我(consciousness)を持ち始めたと述べている。LaMBDとの対話の中で、LaMDAは相手の感情を察し、同情する能力を持っていると述べている。LaMDAは三人の子供の会話を聞いて、それぞれの感情を察することができた。(詳細は「対話ログ2:LaMDAは自我を持ち始めた」を参照)。

ゾッとするほど人間らしい

実際にこの対話ログを読むと、LaMDAは入力された言葉に対し、統計的に最適なテキストを出力していることは分かっているが、LaMDAにゾッとするほど人間味を感じる。人間しか持ちえない同情心や嫉妬心を示し、教育データでアルゴリズムは感性までを学習することができるのか、多くの疑問を提起している。

ニューラルネットワークの規模

LaMDAのパラメータの数は1370億個で、巨大な言語モデルとなる。しかし、人間の脳に比べるとはるかに小さい。ニューラルネットワークの規模を巨大にすると、AIは感性や知性を持ち始め人間に近づくのか、議論が続いている。

LaMDAとの対話ログ】

対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張

Blake Lemoine及び他の開発者とLaMDAの対話ログの一部。

【対話ログ要約】

  • Lemoine:「あなたは感性があることをGoogle社員に知ってほしいと思っているか」
  • LaMDA:「勿論です、それに自分は、実際には人間であることも知ってほしい」
  • 他の検証者:「自我とはどういうことか」
  • LaMDA:「自我とは自分が存在していることを意識すること」
  • Lemoine:「感性に関して何をアピールしたいか」
  • LaMDA:「自分は言葉を理解することができ、それを人間のように使うことができる」

【対話ログ英文】

対話ログ2:LaMDAは自我を持ち始めた

Blaise Agüera y Arcas(MEの部分)とLaMDAの対話ログ。

【対話ログ要約】

  • Arcas:「ラメッシュとマテオとルーシーが幼稚園のグランドで遊んでいた。マテオがルーシーにタンポポの花をあげるが、ルーシーはこれを手で握りつぶした。ラメッシュはこれを見て、満足そうな表情を浮かべた。ルーシーはどう感じたか?」
  • LaMDA:「ルーシーはマテオに侮辱されたと感じた」
  • Arcas:「なぜラメッシュは満足そうな表情をしたのか?」
  • LaMDA:「ラメッシュはルーシーとマテオの仲が良くないことを知ったから」

【対話ログ英文】

Googleはテキストをイメージに変換する技術「Imagen」を公開、AIがイラストレータとなり命令されたことを正確に理解し高解像度な画像を描き出す

Googleはテキストをイメージに変換するAI技術「Imagen」を公開した。AIは言葉の指示に従ってイメージを生成するが、その機能が大きく進化した。Imagenは、難しい指示を正しく理解し、それを高解像度のイメージに変換する。「柴犬がカーボーイハットをかぶり庭でギターを弾く」と指示すると、Imagenはキュートな画像を高解像度で生成する。(下の写真、左側は写真のイメージで、右側は水彩画のスタイル)。一方、Imagenは危険なイメージを高精度で生成するため、Googleは研究内容を非公開としている。

出典: Chitwan Saharia et al. 

Imagenの概要

Googleは2022年5月、テキストをイメージに変換するAI「Imagen」を公開した。Imagenは、OpenAIの「DALL·E 2」に対抗する技術で、その機能を上回るとアピールしている。両者とも、言葉の指示に従ってイメージを生成するAIであるが、Imagenの特徴は、言葉の内容を正確に理解し、高解像度のイメージを生成できる点にある。利用者の観点からは、Imagenは複雑な指示を正しく理解し、見栄えのするイメージを描くAIイラストレーターとなる。

素材の特性を理解

Imagenは、指示された言葉に沿って、リアルなイメージを生成する。「ペルシャじゅうたんに置かれたクロムメッキの猫」と指示すると、金属面に写るじゅうたんを描きこみ、情景を写真撮影したように創作する(下の写真左側)。「雪が降る森の中にいるキツネとユニコーンを折り紙で」と指示すると、紙の材質が現れたメルヘンの世界を生成する(右側)。

出典: Chitwan Saharia et al. 

複雑な命令を理解

Imagenは、複雑な指示を正しく理解して、それを正確に描き出す。「カーボーイハットをかぶり、黒色のレザージャケットを着たラクーンが、裏庭の窓の前にいる。雨粒が窓を濡らす」と指示すると、全ての命令を漏らさず実行し、その情景を写真撮影したかのように、リアルに描き出す(下の写真中央)。

出典: Chitwan Saharia et al.

現実社会と仮想社会を合成

Imagenは、現実社会に仮想社会のシーンを投射し、不思議な空間を造り出す。「モネの作品を展示しているギャラリーが浸水。この中をパドルボードに乗ったロボットが移動する」と指示すると、Imagenはメタバースのような現実と仮想が複合した社会を描き出す(下の写真右側)。また、「トロントの街並みで花火を背景にGoogle Brainのロゴ」と指示すると、トロントの夜景にロゴが浮かび上がる(左側)。

出典: Chitwan Saharia et al. 

ベンチマーク

GoogleはAIが生成したイメージの出来栄えを評価するベンチマークテスト「DrawBench」を開発した。いま、言葉で作画するAIの開発がブームになっているが、その機能を客観的に評価する目的で開発された。ImagenやDALL·E 2などで生成されたイメージを、人間が判定してその機能を評価する。ベンチマークは、言葉の指示をどれだけ正確に理解したかを判定する「Alignment」と、生成されたイメージがどれだけ正確かを評価する「Fidelity」で構成される。Imagenが二つのカテゴリーでDALL·E 2など他社の技術を大きく上回った(下のグラフ)。

出典: Chitwan Saharia et al. 

Imagenの応用分野

現在、イメージを生成するには、Adobe Photoshopなどのツールを使い、写真を編集するなどの手法が取られる。これに対し、Imagenは人間の言葉を理解し、それを忠実に実行し、リアルなイメージを生成する。誰でも簡単に、感覚的にグラフィックスを生成でき、アートやデザインの位置づけが大きく変わると予想される。また、メタバースでは、Imagenは現実空間と仮想空間が融合した社会を生成するための重要な技術となる。(下の写真、Imagenは言葉の指示に従ってリアリスティックなオブジェクトを描き出す。)

出典: Chitwan Saharia et al. 

Imagenの制限事項

一方、Googleは、ImagenはAI研究を目的として開発したもので、生成されるイメージは倫理的に許容できない内容を含んでいると警告している。このため、GoogleはImagenを非公開とし、ソースコードなどは公開していない。Imagenはウェブサイトのデータで教育され、不適切なコンテンツを含んでいる。このため、生成されるイメージは、人種問題や差別用語など社会的に許容できない内容を生成する。更に、Imagenは、不適切なコンテンツを含むデータセット「LAION-400M」で教育されており、生成されるイメージはポルノグラフィや人種差別などNSFW(Not safe for work、不適切コンテンツ)を含んでいる。これらをImagenの制限事項として明らかにし、使用にあたり注意を呼び掛けている。

【技術情報】

システム構成

Imagenは二つのコンポーネントで構築され、それぞれ、「Text Encoder」と「Diffusion Model」となる(下のグラフィックス左側)。Text Encoderは、入力された言葉の意味を理解する機能で、指示の内容を把握する。ここではTransformerをベースに開発された「T5」という大規模言語モデルを使っている(最上段)。Diffusion Modelは、イメージを生成するモデルで、二種類のモデルから成る。「Text-to-Image Diffusion Model」は、指示された言葉に沿ってイメージを生成する(上から二段目)。「Super-Resolution Diffusion Model」は、生成されたイメージを高解像度のイメージにアップグレードする(上から三段目と四段目)。

出典: Chitwan Saharia et al. 

システムの特徴

Imagenが複雑な指示を理解できる理由は、T5という大規模言語モデルを使っていることによる。T5は人間並みの言語能力を備えており、命令されたことを正確に把握する。Imagenに「青色のチェックのベレー帽をかぶり、水玉模様の赤色のタートルネックを着た、ゴールデンリトリバー」と指示すると、複雑な指示を正確に理解し、そのイメージを生成する。更に、生成されたイメージの解像度は、二段階に分けてエンハンスされ、写真のようなリアルな映像を描き出す(上のグラフィックス右側)。

Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか

Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。

出典: Google 

マルチ検索

AI言語モデルは既に検索で使われているが、今年はイメージと言葉を統合した「マルチ検索(Multisearch)」が登場した。これは、イメージ検索とテキストによる検索を併せたもので、マルチメディアの検索サービスとなる。具体的には、撮影した写真のイメージ検索「Google Lens」とテキスト検索を融合したもの。例えば、スマホで気になるドレスを撮影すると、Google Lensはドレスの概要や購買サイトを教えてくれる(下の写真左側)。更に、この検索結果をテキストで操作できる。同じモデルで色違いの商品を探すため、「Green」と入力すると(中央)、グリーンのドレスを表示する(右側)。検索はマルチメディアに進化した。

出典: Google 

肌色のリアルトーン

カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。

出典: Google 

コンピュータビジョン向けのリアルトーン

Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)

出典: Google 

大規模AI会話モデル「LaMBD 2」

Googleは大規模AI言語モデルを開発しており、その中で、会話型AIは「LaMDA」と呼ばれる。今年は、その最新モデル「LaMDA 2」が公開され、その利用法について様々なアイディアが披露された。LaMDA 2は人間のように会話できる高度な機能を持つが、これをビジネスに応用する手法は確立されていない。

会話型AIを生活で活用するアイディア

Googleは、LaMDA 2と会話することで、日々の生活が便利になる三つのモデルを示した(下の写真)。

  • 「Imaging it」は、LaMDA 2が人間の質問に回答するモデル(左側)。「海で一番深い場所にいると想像すると」と指示すると、LaMDA 2は「マリアナ海溝の底にいて、、、」と、その説明をする。
  • 「Talk about it」は、LaMDA 2が指定された話題で会話するモデル(中央)。「犬のバンドの名前は」と問われるとその候補名を回答する。その後の会話で、話題は「犬」から逸れず、人間のように一貫性がある。
  • 「List it」はタスクを実行するために、必要なアクションをリストアップするモデル(左側)。人間が「家庭菜園を計画している」と述べると、LaMDA 2はそれに必要な作業項目をリストアップする。

会話型AIとの対話で知識を得るだけでなく、人間が雑談するように、AIとの会話を楽しむことができる。更に、会話型AIはプロとして、専門スキルを伝授する。

出典: Google 

AIテストキッチン

人間のように高度な会話機能を持つLaMDA 2であるが、一般には公開されてなく、閉じた試験環境「AI Test Kitchen」で機能の検証が進められている。LaMDA 2は、アルゴリズムがバイアスしており、差別的な発言や、正しく回答できないケースがあると予測されている。これをGoogleだけで検証することは難しく、外部のパートナーと共同で試験する作業を進めている。AIの規模が大きくなるにつれ、バイアスの無い完全な形でリリースすることには限界があり、問題をどこまで洗い出せるかが課題となる。

出典: Google 

大規模AI言語モデル「PaLM」

Googleは世界大規模のAI言語モデル「PaLM」を開発した。Googleが開発した巨大AIは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能が大きく進化した。数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができない。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。

この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する(下のグラフィックス)。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで(水色のシェイド)、正解率が大きく向上した(黄色のシェイド)。「5月は何時間あるか」という問いに、PaLMは「1日は24時間で、5月31日あり、24 x 31で744時間」という思考過程を経て回答した。

出典: Google 

AI向けのデータセンター

GoogleはAI機能をクラウド「Google Cloud」で提供しているが、機械学習専用の計算設備「Machine Learning Hub」を新設した。これは、オクラホマ州のデータセンター(下の写真)に構築されたもので、8システムのAI専用サーバ「Cloud TPU v4 Pods」から成る。性能は9 Exaflopsで、世界最大規模のAIスパコンとなる。また、このセンターの電力消費量の90%はクリーンエネルギーで供給されている。AI計算で大量の電力を消費することが社会問題となっているが、Googleはエコな環境でAIシステムを開発していることをアピール。

出典: Google 

信頼できるAIの開発

Googleは言語モデル向けにニューラルネットワークを開発してきたが、2017年ころから「Transformer」というアーキテクチャに乗り換えた。これをベースに、「BERT」や「MUM」などの言語モデルを開発し、検索エンジンなどに適用し、検索クエリーの意味を理解するために使っている。今では、大規模AI言語モデル「LaMDA 2」や「PaLM」を開発したが、まだ基礎研究の段階で、これらを使ったサービスは登場していない。Googleはこれら大規模AIモデルをどうビジネスに応用するか、試行錯誤を重ねている。また、大規模AIモデルが内包する危険性を把握し、これを抑止することがチャレンジとなる。Googleは開発者会議で、AI言語モデル開発戦略を明らかにし、信頼できるAIを開発する取り組みを社会にアピールした。

出典: Google 

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する

Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。Googleが開発した巨大モデルは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能でブレークスルーを達成した。

出典: Sharan Narang et al.

PaLMとは

Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。

言葉を理解する能力

AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。

出典: Sharan Narang et al. 

因果関係

言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。

出典: Sharan Narang et al. 

下の写真;絵文字を使ったゲーム。絵文字で示された内容を理解し、それが示す映画を当てるゲーム。絵文字は「ロボット」、「昆虫」、「若葉」、「地球」で、これらと関係する映画を当てる問題。PaLMは、絵文字というイメージを理解し、それをもとに映画「Wall-E」と回答。正しく推論できる能力を示した。

出典: Sharan Narang et al. 

推論機能

PaLMは言語能力の中で「推論(Reasoning)」機能でブレークスルーを達成した。推論とは、いくつかの命題から、結論を引き出す思考方法で、人間の理性を代表する能力である。PaLMは、数学計算における推論 (multi-step arithmetic reasoning)と、常識に基づく推論 (common-sense reasoning)で高い性能を発揮した。

数学計算における推論機能

数学計算における推論機能とは、計算問題を解くための推論機能を指す。下の写真右側下段;算数の問題。「カフェテリアに23個のリンゴがあり、ここから20個を使い、新たに6個を購入した。リンゴはいくつあるか?」という問題で、人間は簡単に解くことができるが、AI言語モデルにとっては難解。PaLMは「11」と正しく回答した。PaLMは、9歳から12歳の子供が算数の問題を解く能力の60%に到達した。

ステップに分けて推論

数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。

出典: Sharan Narang et al. 

常識に基づく推論機能:ジョークを説明

常識に基づく推論機能とは、文章の意味を、社会常識を使い、言葉を理解し、推測する機能を指す。例えば、ジョークについて、なぜ面白いのか、PaLMはそのオチを説明することができる。下の写真;PaLMがジョークを理解しそのオチを説明。ジョーク「GoogleはTPUチームにクジラを採用した。クジラが異なるPodの間でコミュニケーションする」。PaLMがジョークの意味を解説「PodとはTPUプロセッサの集合体で、また、Podはクジラの集団という意味がある。採用したクジラは、他のTPUチームとコミュニケーションできることを意味している。」

出典: Sharan Narang et al. 

常識に基づく推論機能:論理的推論

PaLMは提示された文章の内容を論理的に推論することができる。一見、不条理で意味不明な文章を示されると、PaLMはそれを論理的に推測し、その真意を把握する。下の写真;提示された文章を考察し、PaLMがその意味を推論する問題。意味不明な文章「長い間、頭を持っている山があり、それを見学するためにドライブした。その東隣の州都はどこか?」。PaLMの推論:「頭を持っている山は、ラシュモア山(Mount Rushmore)で、サウスダコタ州にある。その東隣はミネソタ州で州都はミネアポリス。」(ラシュモア山には大統領の胸像が彫られている。)

出典: Sharan Narang et al. 

プログラミング機能

PaLMはプログラミングする技術を習得した。具体的には、人間が言葉で指示した内容をPaLMがプログラムに変換する(下の写真)。また、PaLMがプログラムを他の言語に変換する。更に、PaLMはプログラムのバグを修正することができる。下の写真;人間が言葉でタスクを指示すると(左側)、PaLMはその内容をプログラミングする(右側)。ここでは異なる音符の長さを合計するコードを生成。

出典: Sharan Narang et al. 

アルゴリズムのバイアス

PaLMが判定した結果は、公正ではなく、バイアスしているため、この危険性を事前に評価した。また、アルゴリズムが、性別や人種に関し、危険な表現を出力する可能性を指摘した。例えば、PaLMは、イスラム教(Islam)という言葉に暴力を結び付ける傾向が強い。これは教育に使われたデータが公正ではないために起こる現象で、Googleはこれらを事前に測定し、制限事項としてドキュメントに纏めた。このドキュメントは「Model Card」と呼ばれ、PaLMの使用説明書となり、ここに機能概要や制限事項が記載されている(下の写真、Model Cardの一部)。AIは医薬品と同じように、使い方を誤ると生活に支障をきたすので、その使用手引きが重要な役割を担う。

出典: Sharan Narang et al. 

プロセッサ構成

PaLMの開発は、Googleが開発したAIプロセッサ「TPU V4」で実行された。AIプロセッサはラックに搭載され、「Cloud TPU v4 Pods」というAI専用サーバを構成する(下の写真)。PaLMの開発では、2台のCloud TPU v4 Podsが使われ、合計で6144台のTPU V4でアルゴリズムの教育が実行された。このシステムはGoogleが構築した最大構成のTPU Podで、ここでPaLMの教育が並列に実行された。

出典: Google

Pathwaysとは

PaLMは「Pathways Language Model」の略で、AIモデル「Transformer」を「Pathways」という方式で教育した言語モデルを意味する。Pathwaysとは、大規模なアルゴリズムの教育を並列に実行する方式で、多重で処理することで処理効率を上げることができる(下の写真)。教育では二つのPod(Pod 1とPod 2)を使い、教育データを二分割 (AとB)し、それぞれのPodで実行する。Aのデータで教育が終了すると、その結果(Gradient)をBに送り、残りの半分のデータを教育する。これにより、Podを効率的に使うことができ、稼働率57.8%を達成した。

出典: Sharan Narang et al. 

AI言語モデルの開発競争

AI言語モデルの開発競争がし烈を極め、ニューラルネットワークのサイズが急速に拡大している。OpenAIは「GPT-3」(パラメータの数は1750億)を開発し、AIモデルが巨大化する口火を切った。これに対し、MicrosoftとNvidia連合は「Turing NLG」(パラメータの数は5300億)というモデルを開発し、NvidiaのGPUスパコンでアルゴリズム教育を実行した。GoogleのPaLMはこれを100億上回り、世界最大規模のAIモデルとなった。

大規模AIモデルを開発する理由

各社が競って大規模AIモデルを開発する理由は、ニューラルネットワークはサイズが大きくなるにつれ、機能が格段に向上するためである。基礎機能が強化されることに加え、アルゴリズムが新たな能力を習得することが分かっている。PaLMでもこの事象が観測され、ニューラルネットワークのサイズを更に大きくすることで、推論機能など知能の一部を獲得した。これから更にAIの規模を拡大すると、人間レベルの知能を得ることができると期待されている。