カテゴリー別アーカイブ: Google

Googleは大規模AIモデルの開発戦略を公表、人間の言語能力に匹敵するが危険なAIをどうビジネスに応用するか

Googleは今週、開発者会議「Google I/O 2022」をライブとオンラインのハイブリッドで開催した(下の写真、ライブ会場)。CEOのSundar Pichaiが基調講演で、AIを中心に技術開発の最新状況を説明した。この講演は、アメリカ大統領が連邦議会に対して行う一般教書演説になぞらえ、” State of the Union Address”とも呼ばれる。今年の講演はAIの基礎研究と応用技術に焦点をあて、高機能であるが危険なAIをビジネスに適用する技法が示された。

出典: Google 

マルチ検索

AI言語モデルは既に検索で使われているが、今年はイメージと言葉を統合した「マルチ検索(Multisearch)」が登場した。これは、イメージ検索とテキストによる検索を併せたもので、マルチメディアの検索サービスとなる。具体的には、撮影した写真のイメージ検索「Google Lens」とテキスト検索を融合したもの。例えば、スマホで気になるドレスを撮影すると、Google Lensはドレスの概要や購買サイトを教えてくれる(下の写真左側)。更に、この検索結果をテキストで操作できる。同じモデルで色違いの商品を探すため、「Green」と入力すると(中央)、グリーンのドレスを表示する(右側)。検索はマルチメディアに進化した。

出典: Google 

肌色のリアルトーン

カメラで撮影した有色人種の顔の色は正しく再現されてなく、レンズの”バイアス問題”が指摘されている。例えば、黒人の顔の写真は暗すぎたり、または、明るすぎたりと、正しい色調が再生されない。日本人を含むアジア系人種も同じ問題を抱えており、本当の顔色を再現できない。このため、Googleはスマホカメラで正しい色を再現するための技術「Real Tone for Pixel」を開発し、最新モデル「Pixel 6」に搭載している(下の写真、Pixel 6で撮影した有色人種の顔でリアルトーンが再現されている)。

出典: Google 

コンピュータビジョン向けのリアルトーン

Googleはこれを拡充し、スマホカメラだけでなく、他の製品にリアルトーンの技術を組み込み、公正な製品の開発を始めた。これは「Real Tone Filters」と呼ばれ、顔の色調を10段階で定義する。これをAI開発に適用し、バイアスの無いアルゴリズムを開発する。コンピュータビジョンの開発で、人間の顔の色を正確に把握することで、偏りのない公正なアルゴリズムを開発する。有色人種の顔の色を正確に定義することで、人種間で公正に判定できるAIを開発する。(下の写真、Real Tone Filtersをアジア系人種に適用した事例。アジア人は、カメラで撮影すると、顔色が白っぽくなる(左側)。Real Tone Filtersで補正すると健康的な肌色が再現される。)

出典: Google 

大規模AI会話モデル「LaMBD 2」

Googleは大規模AI言語モデルを開発しており、その中で、会話型AIは「LaMDA」と呼ばれる。今年は、その最新モデル「LaMDA 2」が公開され、その利用法について様々なアイディアが披露された。LaMDA 2は人間のように会話できる高度な機能を持つが、これをビジネスに応用する手法は確立されていない。

会話型AIを生活で活用するアイディア

Googleは、LaMDA 2と会話することで、日々の生活が便利になる三つのモデルを示した(下の写真)。

  • 「Imaging it」は、LaMDA 2が人間の質問に回答するモデル(左側)。「海で一番深い場所にいると想像すると」と指示すると、LaMDA 2は「マリアナ海溝の底にいて、、、」と、その説明をする。
  • 「Talk about it」は、LaMDA 2が指定された話題で会話するモデル(中央)。「犬のバンドの名前は」と問われるとその候補名を回答する。その後の会話で、話題は「犬」から逸れず、人間のように一貫性がある。
  • 「List it」はタスクを実行するために、必要なアクションをリストアップするモデル(左側)。人間が「家庭菜園を計画している」と述べると、LaMDA 2はそれに必要な作業項目をリストアップする。

会話型AIとの対話で知識を得るだけでなく、人間が雑談するように、AIとの会話を楽しむことができる。更に、会話型AIはプロとして、専門スキルを伝授する。

出典: Google 

AIテストキッチン

人間のように高度な会話機能を持つLaMDA 2であるが、一般には公開されてなく、閉じた試験環境「AI Test Kitchen」で機能の検証が進められている。LaMDA 2は、アルゴリズムがバイアスしており、差別的な発言や、正しく回答できないケースがあると予測されている。これをGoogleだけで検証することは難しく、外部のパートナーと共同で試験する作業を進めている。AIの規模が大きくなるにつれ、バイアスの無い完全な形でリリースすることには限界があり、問題をどこまで洗い出せるかが課題となる。

出典: Google 

大規模AI言語モデル「PaLM」

Googleは世界大規模のAI言語モデル「PaLM」を開発した。Googleが開発した巨大AIは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能が大きく進化した。数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができない。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。

この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する(下のグラフィックス)。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで(水色のシェイド)、正解率が大きく向上した(黄色のシェイド)。「5月は何時間あるか」という問いに、PaLMは「1日は24時間で、5月31日あり、24 x 31で744時間」という思考過程を経て回答した。

出典: Google 

AI向けのデータセンター

GoogleはAI機能をクラウド「Google Cloud」で提供しているが、機械学習専用の計算設備「Machine Learning Hub」を新設した。これは、オクラホマ州のデータセンター(下の写真)に構築されたもので、8システムのAI専用サーバ「Cloud TPU v4 Pods」から成る。性能は9 Exaflopsで、世界最大規模のAIスパコンとなる。また、このセンターの電力消費量の90%はクリーンエネルギーで供給されている。AI計算で大量の電力を消費することが社会問題となっているが、Googleはエコな環境でAIシステムを開発していることをアピール。

出典: Google 

信頼できるAIの開発

Googleは言語モデル向けにニューラルネットワークを開発してきたが、2017年ころから「Transformer」というアーキテクチャに乗り換えた。これをベースに、「BERT」や「MUM」などの言語モデルを開発し、検索エンジンなどに適用し、検索クエリーの意味を理解するために使っている。今では、大規模AI言語モデル「LaMDA 2」や「PaLM」を開発したが、まだ基礎研究の段階で、これらを使ったサービスは登場していない。Googleはこれら大規模AIモデルをどうビジネスに応用するか、試行錯誤を重ねている。また、大規模AIモデルが内包する危険性を把握し、これを抑止することがチャレンジとなる。Googleは開発者会議で、AI言語モデル開発戦略を明らかにし、信頼できるAIを開発する取り組みを社会にアピールした。

出典: Google 

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する

Googleは世界大規模のAI言語モデル「PaLM」を開発した。AI言語モデルとは言葉を理解するシステムで、規模が大きくなるにつれ、言語機能が向上することが分かっている。Googleが開発した巨大モデルは、言葉を理解する機能に加え、推論機能、プログラムをコーディングする機能でブレークスルーを達成した。

出典: Sharan Narang et al.

PaLMとは

Googleは、2022年4月、世界大規模のAI言語モデル「Pathways Language Model (PaLM)」を公開した。AIの規模はパラメータの数で示され、PaLMは540B(5400億)個で、Microsoft・Nvidia連合が開発した「Turing NLG」の530B(5300億)個を上回り、トップの座を奪った。AI言語モデルはニューラルネットワークの規模が大きくなるにつれ、言語機能が向上することが分かっているが、PaLMでもこの事象が示された。PaLMは、言語翻訳、文章要約、言語理解などの基本機能に加え、推論、常識に基づく説明、プログラミング、ジョークの説明など、多彩な機能を習得した(上の写真、PaLMが習得した機能)。

言葉を理解する能力

AI言語モデルの基本機能は言葉を理解する能力で、それを測定するため、様々なベンチマークテストが用意されている。PaLMは代表的な29のベンチマークを実行し、28の種目で現在の記録を塗り替えた。下のグラフ;ベンチマーク結果、横軸は言語機能の種別で、縦軸は記録更新の大きさを示す。PaLMは推測機能(Natural Language Inference)や常識に基づき理由を説明する機能(Common-sense Reasoning)など、知能が問われる分野で大きな成果を達成した。

出典: Sharan Narang et al. 

因果関係

言葉を理解する能力の測定では、AI言語モデルが設問に回答し、その得点で機能を評価する。原因と結果という二つの事象の関係を問う問題は「Cause and Effect」と呼ばれ、AI言語モデルが因果関係を理解する能力を試験する。下の写真;因果関係の試験。「試験で好成績を上げた事象と、試験勉強の関係」を問うもの。青文字がPaLMの回答。「勉強をしっかりすると、試験で高得点を取れる」という因果関係をPaLMは理解した。因果関係を理解することはAIにとって大きな障壁であった。

出典: Sharan Narang et al. 

下の写真;絵文字を使ったゲーム。絵文字で示された内容を理解し、それが示す映画を当てるゲーム。絵文字は「ロボット」、「昆虫」、「若葉」、「地球」で、これらと関係する映画を当てる問題。PaLMは、絵文字というイメージを理解し、それをもとに映画「Wall-E」と回答。正しく推論できる能力を示した。

出典: Sharan Narang et al. 

推論機能

PaLMは言語能力の中で「推論(Reasoning)」機能でブレークスルーを達成した。推論とは、いくつかの命題から、結論を引き出す思考方法で、人間の理性を代表する能力である。PaLMは、数学計算における推論 (multi-step arithmetic reasoning)と、常識に基づく推論 (common-sense reasoning)で高い性能を発揮した。

数学計算における推論機能

数学計算における推論機能とは、計算問題を解くための推論機能を指す。下の写真右側下段;算数の問題。「カフェテリアに23個のリンゴがあり、ここから20個を使い、新たに6個を購入した。リンゴはいくつあるか?」という問題で、人間は簡単に解くことができるが、AI言語モデルにとっては難解。PaLMは「11」と正しく回答した。PaLMは、9歳から12歳の子供が算数の問題を解く能力の60%に到達した。

ステップに分けて推論

数学計算はコンピュータの基本機能であるが、AI言語モデルはこれを人間のように、論理的に考えて解くことができなかった(下の写真左側)。これに対し、PaLMは、数学計算を複数のステップに分けて推測することで、正しく答えることができた。この手法は「Chain of Thought Prompting」と呼ばれ、AI言語モデルが思考過程を複数のステップに分けて実行し、その結果を出力する。人間の論理思考を模倣したもので、ステップごとに推論を重ねることで、正解率が大きく向上した。下の写真右側;黄色のシェイドの部分がPaLMの推論過程を示している。

出典: Sharan Narang et al. 

常識に基づく推論機能:ジョークを説明

常識に基づく推論機能とは、文章の意味を、社会常識を使い、言葉を理解し、推測する機能を指す。例えば、ジョークについて、なぜ面白いのか、PaLMはそのオチを説明することができる。下の写真;PaLMがジョークを理解しそのオチを説明。ジョーク「GoogleはTPUチームにクジラを採用した。クジラが異なるPodの間でコミュニケーションする」。PaLMがジョークの意味を解説「PodとはTPUプロセッサの集合体で、また、Podはクジラの集団という意味がある。採用したクジラは、他のTPUチームとコミュニケーションできることを意味している。」

出典: Sharan Narang et al. 

常識に基づく推論機能:論理的推論

PaLMは提示された文章の内容を論理的に推論することができる。一見、不条理で意味不明な文章を示されると、PaLMはそれを論理的に推測し、その真意を把握する。下の写真;提示された文章を考察し、PaLMがその意味を推論する問題。意味不明な文章「長い間、頭を持っている山があり、それを見学するためにドライブした。その東隣の州都はどこか?」。PaLMの推論:「頭を持っている山は、ラシュモア山(Mount Rushmore)で、サウスダコタ州にある。その東隣はミネソタ州で州都はミネアポリス。」(ラシュモア山には大統領の胸像が彫られている。)

出典: Sharan Narang et al. 

プログラミング機能

PaLMはプログラミングする技術を習得した。具体的には、人間が言葉で指示した内容をPaLMがプログラムに変換する(下の写真)。また、PaLMがプログラムを他の言語に変換する。更に、PaLMはプログラムのバグを修正することができる。下の写真;人間が言葉でタスクを指示すると(左側)、PaLMはその内容をプログラミングする(右側)。ここでは異なる音符の長さを合計するコードを生成。

出典: Sharan Narang et al. 

アルゴリズムのバイアス

PaLMが判定した結果は、公正ではなく、バイアスしているため、この危険性を事前に評価した。また、アルゴリズムが、性別や人種に関し、危険な表現を出力する可能性を指摘した。例えば、PaLMは、イスラム教(Islam)という言葉に暴力を結び付ける傾向が強い。これは教育に使われたデータが公正ではないために起こる現象で、Googleはこれらを事前に測定し、制限事項としてドキュメントに纏めた。このドキュメントは「Model Card」と呼ばれ、PaLMの使用説明書となり、ここに機能概要や制限事項が記載されている(下の写真、Model Cardの一部)。AIは医薬品と同じように、使い方を誤ると生活に支障をきたすので、その使用手引きが重要な役割を担う。

出典: Sharan Narang et al. 

プロセッサ構成

PaLMの開発は、Googleが開発したAIプロセッサ「TPU V4」で実行された。AIプロセッサはラックに搭載され、「Cloud TPU v4 Pods」というAI専用サーバを構成する(下の写真)。PaLMの開発では、2台のCloud TPU v4 Podsが使われ、合計で6144台のTPU V4でアルゴリズムの教育が実行された。このシステムはGoogleが構築した最大構成のTPU Podで、ここでPaLMの教育が並列に実行された。

出典: Google

Pathwaysとは

PaLMは「Pathways Language Model」の略で、AIモデル「Transformer」を「Pathways」という方式で教育した言語モデルを意味する。Pathwaysとは、大規模なアルゴリズムの教育を並列に実行する方式で、多重で処理することで処理効率を上げることができる(下の写真)。教育では二つのPod(Pod 1とPod 2)を使い、教育データを二分割 (AとB)し、それぞれのPodで実行する。Aのデータで教育が終了すると、その結果(Gradient)をBに送り、残りの半分のデータを教育する。これにより、Podを効率的に使うことができ、稼働率57.8%を達成した。

出典: Sharan Narang et al. 

AI言語モデルの開発競争

AI言語モデルの開発競争がし烈を極め、ニューラルネットワークのサイズが急速に拡大している。OpenAIは「GPT-3」(パラメータの数は1750億)を開発し、AIモデルが巨大化する口火を切った。これに対し、MicrosoftとNvidia連合は「Turing NLG」(パラメータの数は5300億)というモデルを開発し、NvidiaのGPUスパコンでアルゴリズム教育を実行した。GoogleのPaLMはこれを100億上回り、世界最大規模のAIモデルとなった。

大規模AIモデルを開発する理由

各社が競って大規模AIモデルを開発する理由は、ニューラルネットワークはサイズが大きくなるにつれ、機能が格段に向上するためである。基礎機能が強化されることに加え、アルゴリズムが新たな能力を習得することが分かっている。PaLMでもこの事象が観測され、ニューラルネットワークのサイズを更に大きくすることで、推論機能など知能の一部を獲得した。これから更にAIの規模を拡大すると、人間レベルの知能を得ることができると期待されている。

Waymoは自動運転車のカメラで撮影したイメージをAIで繋ぎ合わせサンフランシスコのデジタルツインを生成

Waymoはサンフランシスコ市街地の3DモデルをAIで生成した。Waymoはサンフランシスコで自動運転車の試験走行を展開しており、クルマのカメラで撮影した写真をAIで繋ぎ合わせ、市街地の3Dマップを生成した。Google Street Viewを立体化した形状で、サンフランシスコのデジタルツインとなる。この中を自由自在に移動でき、自動運転車やロボットの開発において、アルゴリズムのシミュレーションで使われる。

出典: Waymo

写真を繋げ3Dモデルを生成

このAIは「Block-NeRF (Neural Radiance Fields)」と呼ばれ、自動運転車で撮影した写真を繋ぎ合わせ、3Dマップを生成する機能を持つ。上の写真は「グレース大聖堂(Grace Cathedral)」の前を走行しているところで、クルマの車窓から見るように風景が流れていく。ビデオ撮影した景色とは異なり、Block-NeRFで生成したモデルは、カメラのアングルを変えるなど、画像を自由に編集できる。(ビデオへのリンク。)

Dモデルの機能

Waymoはサンフランシスコのアラモ地区(Alamo Square、下の写真左側)で撮影した写真280万枚をBlock-NeRFで繋ぎ合わせて3Dモデル(下の写真右側)を生成した。生成されたモデルは、視点を変えて360度の方向から見ることができる。また、3Dモデルは一塊のデータではなく、撮影されたオブジェクトを自由に編集できる。具体的には、道路や歩道にクルマや歩行者が写っているが、Block-NeRFでこれらを消し去ることができる(下の写真右側、クルマや歩行者写っていない)。また、モデルの環境を設定することもでき、晴れの日の午後などのイメージを生成できる。

出典: Matthew Tancik et al.

NeRFとは

NeRFとは、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する手法を指す。この技法はUC BerkeleyとGoogle Researchのチームが開発した(下の写真、ドラムセットの3Dモデルを生成)。オブジェクトを周囲から撮影し、その写真をNeRFで繋ぎ合わせて3Dモデルを生成する。簡単に立体モデルを生成でき、それを柔軟に操作できるため、この技法が注目されている。

出典: B. Mildenhall, P. P. Srinivasan, M. Tancik et al.

Block-NeRFとは

NeRFは身の回りのもの(ドラムセットなど)や人物など、比較的小さな形状のオブジェクトが対象となる。これに対し、Block-NeRFは市街地のように、大規模な3Dモデルを構築できることが特徴となる。Block-NeRFは複数のNeRFを組み合わせて最終モデルを生成する。実際には、市街地を区画し、それぞれの区画でNeRFで3Dモデルを生成する。各区画で生成した3Dモデルを結合し、市街地全体の3Dモデルを生成する手順となる(下の写真左側、オレンジ色のドットが各区画で使われたNeRFを示す)。NeRFは形状(Visibility)と色彩(Color)で構成され、これを機見合わせ3Dマップを生成する。街中の景観が変わると、その部分のNeRFだけを再教育し、3Dマップを更新する(下の写真右側、上段の景観が下段に変わったケース)。市街地全体のアルゴリズムを再教育する必要はなく、効率的にモデルをアップデートできる。

出典: Matthew Tancik et al.

Block-NeRFの利用方法

生成された3Dモデルは自動運転車やロボットの開発で使われる。自動運転車はLidarやカメラで撮影したイメージから、現在地をピンポイントで特定する。これはLocalizationと呼ばれる処理で、このプロセスをBlock-NeRFで生成した3Dマップで実行する。また、自動運転車の運行を検証するため、シミュレーション環境を制作するために使われる。サンフランシスコのデジタルツインを生成し、ここで自動運転車を走行させ安全性を検証する。

メタバースへの応用

Block-NeRFで生成したモデルは、道路の走行だけでなく、上空を飛行することもできる。例えば、世界一曲がりくねった坂道「ロンバード・ストリート(Lombard Street)」の上を飛行することもできる。(ビデオへのリンク。) Waymoはコメントしていないが、都市のデジタルツインを生成し、これをメタバースの仮想社会として利用することもできる。

出典: Waymo

Waymoの走行試験

Waymoはサンフランシスコで試験走行を進めている(下の写真)。住民が被験者となり、Waymoに搭乗し、安全性の検証が行われている。先月からは、Waymoはセーフティドライバーが搭乗しない無人車両で試験走行を開始した。このケースではWaymo社員が被験者となり、無人車両に搭乗し、安全性の確認が続いている。Waymoはサンフランシスコで6か月間、試験走行を実行してきたが、無人車両での試験走行が商用化に向けた最後のステップとなる。

出典: Waymo

Googleは来月からオフィスを再開、社員はリモートワークを終了しハイブリッド勤務となる (続報)

コロナの感染が下火になり、エンデミックに移行する中、シリコンバレーのIT企業はハイブリッド勤務に移行する。Googleはリモートワークを終え、4月4日からハイブリッド勤務を始める。社員は週三日、オフィスに出勤する勤務形態となる。Appleも4月11日にオフィスを再開し、5月23日からは、社員は週三日出社のハイブリッド勤務となる。

出典: Google

Google

Googleは社員に対し、4月4日までに在宅勤務を終えてオフィスに戻るよう通達を出し、週三日出社のハイブリッド勤務に移行する。今月はトライアル期間で、在宅勤務に慣れたワークスタイルをオフィス勤務に戻すためのプログラムが用意されている。オフィス内では、ワクチン接種を済ませた社員は、マスク着用や定期検査は不要となる。食堂やカフェが再開し、シャトルバスの運行が始まる。Googleはハイブリッド勤務向けに、オフィスレイアウトを大幅に変更している(上の写真、ハイブリッド勤務向け会議室)。来月からハイブリッド勤務が始まるが、その効果を検証しながらワークスタイルを調整するとしている。

Apple

Appleも4月11に、リモートワークを終了しハイブリッド勤務に移行する。移行期間中は週1日から2日のオフィス勤務となるが、5月23日からは週3日の出社となる。Appleの場合は出社日が決まっていて、月曜、火曜、木曜がコアの出勤日となる。また、週三日以上勤務することも可能で、社員はライフスタイルに応じて勤務パターンを選択できる。(下の写真、Apple Park)

出典: VentureClef

Twitter

Twitterは3月15日にオフィスを再開するものの、社員はリモートワークを継続することができる(下の写真、本社ビル)。CEOのParag Agrawalは、社員は最も生産性が上がるワークスタイルを選択すべきと述べている。このために、社員は在宅勤務やオフィス勤務やハイブリッド勤務の中から、自分に最適なスタイルを選択する。同時にAgrawalは、在宅勤務とオフィス勤務が混在することで、仕事の進行が難しくなると予想しており、ハイブリッド勤務を続けながら最適な解を見出すとしている。

出典: VentureClef

Block(旧Square)

モバイルペイメント企業Block(旧Square)は、社員が遠隔勤務を続けることを認めている。社員は好みの場所からリモートで勤務することができる。既に、社員は各地に移住しており、会社組織は分散型となっている。管理職は同じ場所の社員だけでなく、遠隔地の社員を管轄することになり、管理職の40%は同じオフィスに部下は誰もいないとしている(下の写真)。管理職はリモートで社員をマネージする技量が必要になる。

出典: Alyssa Henry

Slack

Slackはハイブリッド勤務を導入しており、仕事の進行は「非同期型業務(Asynchronous Work)」を推奨している。非同期型業務とは、他の社員とリアルタイムでコラボレーションするのではなく、自分のワークスタイルに合わせて非同期で共同作業を進める方式を指す。社員は仕事に没頭できる時間「コアタイム(Core Time)」を設定し生産性を上げる。コアタイム以外の時間帯に他の社員と共同作業を進める。

Salesforce

Slackの親会社であるSalesforceは、オフィス勤務の意義を問い直している(下の写真左側、本社ビル)。ハイブリッド勤務になると、オフィスは他の社員とコラボレーションする場所として利用する。オフィスは個人の仕事場という役割が小さくなる。Salesforceは社員間の交流を重視しており、社外で交流イベントを開催している。Salesforceはサンフランシスコ郊外に山荘「Trailblazer Ranch」を開設し、社員教育や社員の交流の場として使ってる(下の写真右側)。

出典: VentureClef / Salesforce

ポストコロナのワークスタイル

シリコンバレーのIT企業はオフィスを再開するが、社員の勤務形態については大きな自由度を持たせている。社員にオフィス勤務を強いると、生産性が上がらないだけでなく、多くの社員が辞めていくという現実がある。一方、完全在宅勤務では社員間のコラボレーションや人間関係の構築が難しい。このため、多くの企業はこれらのバランスを考慮し、ハイブリッド勤務を選択し、ポストコロナのワークスタイルを模索している。

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。