メタバースでは詐欺が多発する!!犯罪者のデジタルツインが消費者の資産を盗む、仮想社会のセキュリティをどう保障するか

メタバースでは詐欺や犯罪が多発すると懸念されている。メタバースは現実社会をインターネット上に3D仮想社会として構築したもので、実社会と同様に、この空間でフィッシング詐欺などの犯罪が多発すると懸念されている。犯罪者のアバターが消費者のアバターに接触し、パスワードやデジタル資産を盗む。アバターを使うと、現実社会より簡単に人を騙すことができ、被害が広がると懸念されている。

出典: Citi

Microsoftの警告

Microsoftはメタバースの開発を進めているが、3D仮想社会では新たな詐欺行為が起こり、セキュリティ対策を強化すべきと警告している。メタバースではヘッドセットを着装し、仮想空間のアバターと交流する。犯罪者は自身のアバターを作り、消費者のアバターに接触し、詐欺行為に及ぶ。現実社会と同じ手口であるが、メタバースでは簡単に他人になりすまし、様々なパーソナリティを生成でき、深刻な被害が発生すると懸念されている。

ソーシャルエンジニアリング

メタバースでは色々な犯罪が発生すると指摘されるが、特に、フィッシングと詐欺に警戒する必要がある。これらはソーシャルエンジニアリングと呼ばれる手法を使い、人間の心理的な隙や、行動のミスにつけ込み、個人が持つ秘密情報を入手する。現在では、Eメールが媒体として使われ、顧客を装ってお金を送金させるなどの犯罪が発生している。また、本物そっくりのフィッシングサイトに誘導し、ここで相手のIDとパスワードを盗む犯罪も多発している。

メタバースでのフィッシング

メタバースでは、Eメールの代わりに、3D仮想社会が犯罪の場となる。例えば、犯罪者は銀行員になりすまし、顧客を仮想社会の銀行店舗に案内する。仮想の銀行ロビーで、顧客のIDやパスワードなど、個人情報を盗み出す。既に、大手銀行はメタバースに出店しており、これらの店舗が犯罪で使われる危険性をはらんでいる。事実、米国の大手銀行JP MorganはメタバースDecentralandに仮想銀行「Onyx」を出店し、営業を開始している(下の写真)。

出典: Decentraland

メタバースでの詐欺行為

また、メタバースでは犯罪者が身近の人物になりすませ、詐欺行為を実行することが予想される。犯罪者は著名人になりすませ、消費者に接触し、特定のアクションを取るよう促す。例えば、犯罪者は会社のCEOになりすまし、社員に送金などの業務を指示する。CEOになりすましたアバターは、会議室で社員のアバターと打ち合わせ、CEOの銀行口座に送金するよう指示する。現在は、Eメールを介して犯罪が行われるが、メタバースではアバター同士の会話で進み、被害にあう危険性が高くなると懸念されている。

メタバースでの広告とセールス

メタバースでは広告の形態が大きく変わり、AIエージェントがセールスマンとなり、商品を販売する。AIエージェントとは、人間の代わりにAIで構成するデジタルツインで、アバターとして生成される。AIエージェントが仮想社会で、消費者のアバターと対話し、商品やサービスを販売する。AIエージェントは、消費者の嗜好を把握し、好むであろう商品を提案する。また、AIエージェントは、消費者の表情や声音から感情を読み取り、巧妙にセールスを展開する。メタバースではAIエージェントが広告やセールスの主流となり、今以上に個人情報の保護が求められる。

AIが生成するアバター

メタバースにおいては、アバターは人間だけでなく、AIが生成することになる。AIがリアルなアバターを生成し、実物と見分けがつかないだけでなく、消費者に好まれる特性を備える。つまり、AIは実物の人間よりも信頼されるアバターを生成できることを意味する。これを裏付ける研究がカリフォルニア大学バークレー校から発表された。AIで生成した顔写真は、実在の人物の顔写真より信頼感を得ることが明らかになった。(下の写真:顔写真の数字は信頼の指標で、大きいほど信頼感が高い。また、Rは実在する人物で、SはAIが生成したイメージ。AIで生成したイメージが実在の人物より信頼されている。) メタバースでは、犯罪者がアバターをAIで生成し、これを悪用し、重大な犯罪行為に繋がる可能性があることを示している。

出典: Sophie J. Nightingale et al.

セキュリティ対策

メタバースでビジネスが生まれつつあるが、運営企業と利用者は、仮想社会はいま以上に危険な場所であることを認識することが最初のステップとなる。これらの問題に対処するには、メタバースのセキュリティを強化する必要がある。インターネットでは、パスワードや二要素認証が標準的な認証方式となっている。メタバースではこれらに依存しない、生体認証などが候補となる。ヘッドセットなどのウェアラブルを着装する際に、生体認証実行するなどの方策が検討されている。また、メタバースでは、異なる仮想社会との互換性も求められる。例えば、Metaが開発するメタバースで認証受けると、Microsoftのメタバースを利用できるなど、異なるメタバースを統合的に管理する技術が必要となる。

Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠

Metaはメタバース向けに高度なAIを開発していることを明らかにした。メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。AIがこれらを理解し、リアルな仮想空間を生成する。

出典: Meta

言葉で仮想社会を生成

Metaは音声でイメージを生成する技術「Builder Bot」を開発している。話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。この機能はメタバースで仮想空間を生成するための基礎技術となる。また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。

出典: Meta

125の言語を同時通訳

Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。Metaは翻訳する言語の数を一気に125に拡張した。言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。これによりメタバースでは世界の国境がなくなる。

出典: Meta

高度な会話型AI

Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)

出典: Meta

ARグラス向けコンピュータビジョン

Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。

出典: Meta

センサーのデータを解析

メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。

出典: Meta

AI開発はメタバースにシフト

MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。

Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか

Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。

出典: Google 

マルチ検索

AI言語モデルは既に検索で使われているが、今年はイメージと言葉を統合した「マルチ検索(Multisearch)」が登場した。これは、イメージ検索とテキストによる検索を併せたもので、マルチメディアの検索サービスとなる。具体的には、撮影した写真のイメージ検索「Google Lens」とテキスト検索を融合したもの。例えば、スマホで気になるドレスを撮影すると、Google Lensはドレスの概要や購買サイトを教えてくれる(下の写真左側)。更に、この検索結果をテキストで操作できる。同じモデルで色違いの商品を探すため、「Green」と入力すると(中央)、グリーンのドレスを表示する(右側)。検索はマルチメディアに進化した。

出典: Google 

肌色のリアルトーン

カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。

出典: Google 

コンピュータビジョン向けのリアルトーン

Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)

出典: Google 

大規模AI会話モデル「LaMBD 2」

Googleは大規模AI言語モデルを開発しており、その中で、会話型AIは「LaMDA」と呼ばれる。今年は、その最新モデル「LaMDA 2」が公開され、その利用法について様々なアイディアが披露された。LaMDA 2は人間のように会話できる高度な機能を持つが、これをビジネスに応用する手法は確立されていない。

会話型AIを生活で活用するアイディア

Googleは、LaMDA 2と会話することで、日々の生活が便利になる三つのモデルを示した(下の写真)。

  • 「Imaging it」は、LaMDA 2が人間の質問に回答するモデル(左側)。「海で一番深い場所にいると想像すると」と指示すると、LaMDA 2は「マリアナ海溝の底にいて、、、」と、その説明をする。
  • 「Talk about it」は、LaMDA 2が指定された話題で会話するモデル(中央)。「犬のバンドの名前は」と問われるとその候補名を回答する。その後の会話で、話題は「犬」から逸れず、人間のように一貫性がある。
  • 「List it」はタスクを実行するために、必要なアクションをリストアップするモデル(左側)。人間が「家庭菜園を計画している」と述べると、LaMDA 2はそれに必要な作業項目をリストアップする。

会話型AIとの対話で知識を得るだけでなく、人間が雑談するように、AIとの会話を楽しむことができる。更に、会話型AIはプロとして、専門スキルを伝授する。

出典: Google 

AIテストキッチン

人間のように高度な会話機能を持つLaMDA 2であるが、一般には公開されてなく、閉じた試験環境「AI Test Kitchen」で機能の検証が進められている。LaMDA 2は、アルゴリズムがバイアスしており、差別的な発言や、正しく回答できないケースがあると予測されている。これをGoogleだけで検証することは難しく、外部のパートナーと共同で試験する作業を進めている。AIの規模が大きくなるにつれ、バイアスの無い完全な形でリリースすることには限界があり、問題をどこまで洗い出せるかが課題となる。

出典: Google 

大規模AI言語モデル「PaLM」

Googleは世界大規模のAI言語モデル「PaLM」を開発した。Googleが開発した巨大AIは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能が大きく進化した。数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができない。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。

この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する(下のグラフィックス)。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで(水色のシェイド)、正解率が大きく向上した(黄色のシェイド)。「5月は何時間あるか」という問いに、PaLMは「1日は24時間で、5月31日あり、24 x 31で744時間」という思考過程を経て回答した。

出典: Google 

AI向けのデータセンター

GoogleはAI機能をクラウド「Google Cloud」で提供しているが、機械学習専用の計算設備「Machine Learning Hub」を新設した。これは、オクラホマ州のデータセンター(下の写真)に構築されたもので、8システムのAI専用サーバ「Cloud TPU v4 Pods」から成る。性能は9 Exaflopsで、世界最大規模のAIスパコンとなる。また、このセンターの電力消費量の90%はクリーンエネルギーで供給されている。AI計算で大量の電力を消費することが社会問題となっているが、Googleはエコな環境でAIシステムを開発していることをアピール。

出典: Google 

信頼できるAIの開発

Googleは言語モデル向けにニューラルネットワークを開発してきたが、2017年ころから「Transformer」というアーキテクチャに乗り換えた。これをベースに、「BERT」や「MUM」などの言語モデルを開発し、検索エンジンなどに適用し、検索クエリーの意味を理解するために使っている。今では、大規模AI言語モデル「LaMDA 2」や「PaLM」を開発したが、まだ基礎研究の段階で、これらを使ったサービスは登場していない。Googleはこれら大規模AIモデルをどうビジネスに応用するか、試行錯誤を重ねている。また、大規模AIモデルが内包する危険性を把握し、これを抑止することがチャレンジとなる。Googleは開発者会議で、AI言語モデル開発戦略を明らかにし、信頼できるAIを開発する取り組みを社会にアピールした。

出典: Google 

Metaは大規模AI言語モデル「OPT-175B」を開発、これを無償で提供することを発表、オープンサイエンスの手法でAIの危険性を解明する

Metaは大規模なAI言語モデル「Open Pretrained Transformer (OPT-175B)」を開発し、これを無償で提供することを明らかにした。世界の研究者は、最先端のAIを自由に使うことができ、これにより自然言語解析の研究が進むことが期待される。AIモデルは、その規模が拡大すると、アルゴリズムが新たなスキルを習得することが知られている。同時に、アルゴリズムが内包する危険性が増大し、社会に甚大な被害を及ぼすことが問題となっている。Metaはオープンサイエンスの手法で研究を進め、AIの危険性を解明することを目指している。

出典: Meta

OPT-175Bとは

Metaが開発したOPT-175Bとは大規模な言語モデルで、自然言語解析(Natural Language Processing)と呼ばれる言葉を理解する機能を持つ。OPT-175BはTransformerベースの言語モデルで、MetaのAI研究所「Meta AI」で開発された。OPTの規模はパラメータの数で示され、最大構成の175B(1750億個)から最小構成の125M(1億2500万個)まで、八つのモデルで構成される。

OPT-175Bの機能

OPT-175Bは、人間の指示に従って文章を作成し、数学の問題を解き、会話する機能を持つ。OPT-175Bの特徴は、言語モデルの中でもパラメータの数が175Bと、世界最大規模のニューラルネットワークであること。このため、アルゴリズムが人間のように高度な言語機能を発揮することができる。

OPT-175Bは人間の指示に従って文章を生成することができる(下の写真)。OPT-175Bに、「人事評価面接をテーマとする詩を生成」するよう指示すると(下の写真太字の部分)、アルゴリズムはそれに沿って文章を生成する(細字の部分)。「良い評価を得たが、上司は一層の改善が必要と述べた。自分でも分かっており、努力しているが、なかなか難し。」などと、人間の心情を綴る詩を生成。

出典: Susan Zhang et al.

ライセンス

MetaはOPTのコードと教育済みのモデルを無償で提供することを明らかにした。大学や政府や企業の研究者が対象となり、利用申請すると審査を経て、使用を許諾される手順となる(下の写真)。また、教育済みの小型モデルは、既にGitHubに公開されており、自由に利用できる。但し、利用目的は研究開発に限定され、OPTを使ってビジネスをする形態は認められていない。

出典: Meta

AI開発の現状

GoogleやMicrosoftなど巨大テックは、大規模なAI言語モデルを競い合って開発しているが、これらは社内に閉じ、クローズドな方式で進められている。研究成果は論文として公開されているが、ここにはコードや開発手法は記載されておらず、他の研究者が成果を検証することはできない。つまり、現在のAI開発はクローズドソースの方式で進められ、巨大テックがその知的財産を独占している形態となっている。

AIを公開する理由

これに対しMetaは、OPT-175Bを無償で公開し、世界の研究者が自由に利用できる方針を選択した。大学や政府や民間の研究コミュニティで、大規模AI言語モデルの研究をオープンな形式で進めることで、研究開発が加速するとみている。特に、AIの危険性を解明する研究が進み、言語モデルの理解が深まり、責任あるAI開発が可能となると期待している。

出典: Meta

GPT-3との対比

Metaが開発したOPT(Open Pretrained Transformer)は、OpenAIが開発したGPT(Generative Pre-trained Transformer)に対峙する構造となっている。OPTという名称は、GPTをオープン化したもの、という意味を含んでいる。また、OPT-175Bのパラメータの数は、あえて、GPT-3の175Bと同じ数字とした。Transformerという同じアーキテクチャを採用し、その規模も同じとし、OPTは世界最先端のAI言語モデルを無償で公開することをアピールしている。(下の写真、OPTの性能(丸印)はGPTの性能(✖印)と互角であることを示している。)

出典: Susan Zhang et al. 

オープンサイエンス

MetaはOPT-175B以前から、オープンサイエンスの手法でAI技術を改良するプログラムを展開してきた。「Deepfake Detection Challenge」は、フェイクビデオを検知する技術をコンペティションの形式で競うもの。「Hateful Memes Challenge」は、ヘイトスピーチなど有害なコンテンツを検知する技術の開発で、Metaは開発コミュニティと共同でこれを開発する。OPT-175Bでは、コミュニティでアルゴリズムの研究を進め、AIの持つ危険性を理解する。

ヘイトスピーチ検知のコンペティション

Metaは「Hateful Memes Challenge」でヘイトスピーチのデータベースを公開し(下の写真)、研究者はこれを使ってヘイトスピーチ検知のアルゴリズムを開発した。AIがヘイトスピーチを判別するのは難しく、これをオープンサイエンスの手法で開発した。「Umbrella upside down (傘がひっくり返る)」という言葉は、状況に応じてヘイトスピーチとなる(下の写真最下段)。これは「名声が内に向かってしぼむ」という意味もあり、使い方によって相手を傷つける表現となる。ヘイトスピーチの判別は人間でも難しいが、アルゴリズム開発が進んでいる。

出典: Meta

Facebookの教訓

AI言語モデルの開発は、巨大テックが企業内に閉じて進めており、外部の研究者は、開発内容をうかがい知ることはできない。Metaは、AIコミュニティに大規模言語モデルを公開することで、信頼できるAIを開発できると目論んでいる。この背後には、FacebookやInstagramのコンテンツ配信で、アルゴリズムが不透明で、偽情報が拡散し、社会が不安定になったという事実がある。Metaはこれらの教訓を生かし、AI開発ではオープンな戦略を取り、信頼できるAIの開発を進めている。

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する

Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。Googleが開発した巨大モデルは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能でブレークスルーを達成した。

出典: Sharan Narang et al.

PaLMとは

Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。

言葉を理解する能力

AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。

出典: Sharan Narang et al. 

因果関係

言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。

出典: Sharan Narang et al. 

下の写真;絵文字を使ったゲーム。絵文字で示された内容を理解し、それが示す映画を当てるゲーム。絵文字は「ロボット」、「昆虫」、「若葉」、「地球」で、これらと関係する映画を当てる問題。PaLMは、絵文字というイメージを理解し、それをもとに映画「Wall-E」と回答。正しく推論できる能力を示した。

出典: Sharan Narang et al. 

推論機能

PaLMは言語能力の中で「推論(Reasoning)」機能でブレークスルーを達成した。推論とは、いくつかの命題から、結論を引き出す思考方法で、人間の理性を代表する能力である。PaLMは、数学計算における推論 (multi-step arithmetic reasoning)と、常識に基づく推論 (common-sense reasoning)で高い性能を発揮した。

数学計算における推論機能

数学計算における推論機能とは、計算問題を解くための推論機能を指す。下の写真右側下段;算数の問題。「カフェテリアに23個のリンゴがあり、ここから20個を使い、新たに6個を購入した。リンゴはいくつあるか?」という問題で、人間は簡単に解くことができるが、AI言語モデルにとっては難解。PaLMは「11」と正しく回答した。PaLMは、9歳から12歳の子供が算数の問題を解く能力の60%に到達した。

ステップに分けて推論

数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。

出典: Sharan Narang et al. 

常識に基づく推論機能:ジョークを説明

常識に基づく推論機能とは、文章の意味を、社会常識を使い、言葉を理解し、推測する機能を指す。例えば、ジョークについて、なぜ面白いのか、PaLMはそのオチを説明することができる。下の写真;PaLMがジョークを理解しそのオチを説明。ジョーク「GoogleはTPUチームにクジラを採用した。クジラが異なるPodの間でコミュニケーションする」。PaLMがジョークの意味を解説「PodとはTPUプロセッサの集合体で、また、Podはクジラの集団という意味がある。採用したクジラは、他のTPUチームとコミュニケーションできることを意味している。」

出典: Sharan Narang et al. 

常識に基づく推論機能:論理的推論

PaLMは提示された文章の内容を論理的に推論することができる。一見、不条理で意味不明な文章を示されると、PaLMはそれを論理的に推測し、その真意を把握する。下の写真;提示された文章を考察し、PaLMがその意味を推論する問題。意味不明な文章「長い間、頭を持っている山があり、それを見学するためにドライブした。その東隣の州都はどこか?」。PaLMの推論:「頭を持っている山は、ラシュモア山(Mount Rushmore)で、サウスダコタ州にある。その東隣はミネソタ州で州都はミネアポリス。」(ラシュモア山には大統領の胸像が彫られている。)

出典: Sharan Narang et al. 

プログラミング機能

PaLMはプログラミングする技術を習得した。具体的には、人間が言葉で指示した内容をPaLMがプログラムに変換する(下の写真)。また、PaLMがプログラムを他の言語に変換する。更に、PaLMはプログラムのバグを修正することができる。下の写真;人間が言葉でタスクを指示すると(左側)、PaLMはその内容をプログラミングする(右側)。ここでは異なる音符の長さを合計するコードを生成。

出典: Sharan Narang et al. 

アルゴリズムのバイアス

PaLMが判定した結果は、公正ではなく、バイアスしているため、この危険性を事前に評価した。また、アルゴリズムが、性別や人種に関し、危険な表現を出力する可能性を指摘した。例えば、PaLMは、イスラム教(Islam)という言葉に暴力を結び付ける傾向が強い。これは教育に使われたデータが公正ではないために起こる現象で、Googleはこれらを事前に測定し、制限事項としてドキュメントに纏めた。このドキュメントは「Model Card」と呼ばれ、PaLMの使用説明書となり、ここに機能概要や制限事項が記載されている(下の写真、Model Cardの一部)。AIは医薬品と同じように、使い方を誤ると生活に支障をきたすので、その使用手引きが重要な役割を担う。

出典: Sharan Narang et al. 

プロセッサ構成

PaLMの開発は、Googleが開発したAIプロセッサ「TPU V4」で実行された。AIプロセッサはラックに搭載され、「Cloud TPU v4 Pods」というAI専用サーバを構成する(下の写真)。PaLMの開発では、2台のCloud TPU v4 Podsが使われ、合計で6144台のTPU V4でアルゴリズムの教育が実行された。このシステムはGoogleが構築した最大構成のTPU Podで、ここでPaLMの教育が並列に実行された。

出典: Google

Pathwaysとは

PaLMは「Pathways Language Model」の略で、AIモデル「Transformer」を「Pathways」という方式で教育した言語モデルを意味する。Pathwaysとは、大規模なアルゴリズムの教育を並列に実行する方式で、多重で処理することで処理効率を上げることができる(下の写真)。教育では二つのPod(Pod 1とPod 2)を使い、教育データを二分割 (AとB)し、それぞれのPodで実行する。Aのデータで教育が終了すると、その結果(Gradient)をBに送り、残りの半分のデータを教育する。これにより、Podを効率的に使うことができ、稼働率57.8%を達成した。

出典: Sharan Narang et al. 

AI言語モデルの開発競争

AI言語モデルの開発競争がし烈を極め、ニューラルネットワークのサイズが急速に拡大している。OpenAIは「GPT-3」(パラメータの数は1750億)を開発し、AIモデルが巨大化する口火を切った。これに対し、MicrosoftとNvidia連合は「Turing NLG」(パラメータの数は5300億)というモデルを開発し、NvidiaのGPUスパコンでアルゴリズム教育を実行した。GoogleのPaLMはこれを100億上回り、世界最大規模のAIモデルとなった。

大規模AIモデルを開発する理由

各社が競って大規模AIモデルを開発する理由は、ニューラルネットワークはサイズが大きくなるにつれ、機能が格段に向上するためである。基礎機能が強化されることに加え、アルゴリズムが新たな能力を習得することが分かっている。PaLMでもこの事象が観測され、ニューラルネットワークのサイズを更に大きくすることで、推論機能など知能の一部を獲得した。これから更にAIの規模を拡大すると、人間レベルの知能を得ることができると期待されている。