作成者別アーカイブ: nad00251

イーサリアムは歴史的なアップグレード「Merge」を完了、省エネなブロックチェーンに進化し二酸化炭素排出量が激減、暗号通貨が再評価され本格的に普及するか

ブロックチェーン「イーサリアム(Ethereum)」は、取引を認証する方式を改善し、電力消費量を大きく抑えたシステムに進化した。この改良は「マージ(Merge)」と呼ばれ、無事に移行作業が完了し、今週から新しいイーサリアムが稼働している。暗号通貨は、マイニングの処理で大量の電力を消費し、地球温暖化の要因となっている。イーサリアムはこの問題を解決し、暗号通貨が本格的に普及するのか、新世代のブロックチェーンに注目が集まっている。

出典: Ethereum

イーサリアムとは

イーサリアムはビットコイン(Bitcoin)に次ぐ、二番目の規模のブロックチェーンで、2015年から運用を開始した。ロシア系カナダ人であるヴィタリック・ブテリン(Vitalik Buterin)が考案し、今ではオープンソースとして開発者団体「イーサリアム・ファウンデーション(Ethereum Foundation)」で管理されている。イーサリアムはブロックチェーンとして、分散型アプリケーション「Decentralized Application (略称はDapp)」を運用する基盤として使われ、その代表が暗号通貨「イーサ(Ether、略称はETH)」となる。

マージが完了

イーサリアムは、9月15日、検証方式を改良する移行作業「マージ(Merge)」を完了した。マージとは、取引の正当性を検証する方式を「Proof-of-Work (PoW)」から「Proof-of-Stake (PoS)」に移行するプロセスを指す(下のグラフィックス)。ブロックチェーンは、取引の記録を取引台帳「ブロック(Block)」に書き込み、これを複数のノードに分散して保管し、安全に運用する。ブロックを生成する方法は二種類で、これがPoWとPoSとなる。イーサリアムは創設以来、PoWを使ってきたが、マージによりPoSに移行した。

出典: Ethereum

PoWからPoSに移行する理由

PoWはマイニング(Mining)とも呼ばれ、難解な数学問題を解いた最初のマイナーに、ブロックを生成する権利が与えられ、この対価として報酬を受ける仕組みとなる。このため、マイナーは競い合って、高性能プロセッサを使い、難解な数学問題を解く。この結果、多数の高性能プロセッサが稼働し、大量の電力を消費し、これが地球温暖化の原因となっている。イーサリアムは、エネルギー問題を解決するため、検証方式をPoWからPoSに移行し、消費電力を99.95%削減できるとしている。

PoSの検証方式

新方式のPoSは、ノード運用者が暗号通貨イーサ(ETH)を担保として差し入れ、検証者(Validators)になる方式を指す。検証者は、取引内容を精査し、正常に処理されたことを確認する作業を実行する。検証作業が終了すると、検証者はブロックを生成し、その対価としてイーサを受け取る。PoS方式では、難解な数学問題を解く必要はなく、通常のプロセッサで処理を実行でき、電力消費量が大幅に低減する。なお、検証者が不正行為をした際は、担保は没収され、検証者の権利を失う。このため、SoWは担保を根拠に公正な取引ができる仕組みとなる。

新しいイーサリアム

システムの観点からは、マージは次のプロセスで実行された。従来のブロックチェーンは「Ethereum Mainnet」と呼ばれ、ここに新しい認証方式「Beacon Chain」を組み込む作業となった。Beacon ChainがPoSのエンジンで(下のグラフィックス)、これを従来システムにマージした形となる。先頭のグラフィックスがこれを模式的に示している。宇宙船全体がイーサリアムで、その本体(円形の部分)がEthereum Mainnetを示し、ここに新しい認証方式(エンジンの部分)「Beacon Chain」を組み込んだ。従来は、地球を周回する人工衛星であったが、新たなエンジンを搭載したことで、他の惑星まで飛行できると形容している。

出典: Ethereum

マージ後の運用状況

イーサリアムはブロックチェーンで暗号通貨イーサ(Ether)を運用しており、ビットコインに次ぎ世界で二番目の取引量となる。マージが完了し、ブロックチェーンの構造は大きく変わったが、一般消費者は継続してイーサを使うことができる。特別なアクションは不要で、イーサ向けのワレットで売買処理を実行できる。ただ、米国の金利上昇に伴い、暗号通貨が売られ、イーサの価格はピークの4,644.43ドルから大きく下落している(下のグラフ)。

出典: Google Finance

分散アプリについて

イーサリアムは、ビットコインとは異なり、ブロックチェーンで多彩な分散アプリケーション(Dapp)が稼働している。イーサリアムは「Smart Contract」という機能を提供しており、これを使って分散型アプリケーションを開発する。その代表がメタバースで、イーサリアムに3D仮想都市が構築されている(下のグラフィックス、Decentralandの事例)。土地や施設や商品は、イーサリアムに構成されるトークンと位置付けられ、ここで独自の暗号通貨を使って売買する。また、多くのNFTはイーサリアムに展開され、デジタルアートやデジタルグッズを売買する。マージにより、イーサリアムで稼働している分散アプリケーションは、最小限の変更で継続して利用できる。

出典: Decentraland

PoSの検証者になると

前述の通り、新しいイーサリアムでは、検証者になるために担保を差し出す必要があり、その額は32ETH(約700万円)からとなる。検証者になると、検証作業をする順番を待ち、指名されるとそれを実行する仕組みとなる。指名の順番は、担保の金額により決められ、多額の担保を積むと順番が早く回ってきて、収入が増える。また、以前のイーサリアムと同様に、検証者は、プロセッサやストレージの使用量として「ガスフィー(Gas Fee)」を受け取る。これはシステム運用にかかる費用への対価で、検証者はトランザクション毎にこれを受け取る。

電力消費量が激減

マージ後に、イーサリアムの電力消費量のデータが公開され、実際に大きく低下したことが明らかになった(下のグラフ)。イーサリアムが運用を始めた9月15日は、電力消費量が激減し、年換算で3.40TW(Tera Watt Hour)となった。前日は77.77TWで、削減率は95.63%となる。因みに、従来のイーサリアムの電力消費量は人口1,960万人のチリに相当する。

出典: Digiconomist

ビットコインのマイニング

これに対し、ビットコインの電力消費量は97.11TWで、フィリピン一国の電力消費量に相当する。2021年5月、中国が暗号通貨のマイニングを禁止したため、システム運用状況が一変した(下のグラフィックス)。それまでは、マイニングの中心は中国であったが、規制を受けてマイナーは中国を脱出し、米国に拠点を移している。今では、世界の中で米国がマイニングの中心地となり、エネルギー問題が深刻化している。米国の中でもジョージア州にマイナーが集中している。同州は原子力発電所を運用しており、マイナーはこの電力を使ってビットコインのマイニングを実行している。

出典: Visual Capitalist

マイニングの問題

ビットコインのマイナーは、大量の二酸化炭素を排出していると、社会から厳しい批判を受けている。このため、マイナーは原子力発電や再生可能電力でマイニング処理を実行し、この批判をかわしている。しかし、PoWのマイニングという処理は、ビットコインのブロックを生成する権利を確保するためのもので、社会的な恩恵は無く、無駄な処理として認識されている。ビットコインが社会的に容認されない理由の一つがマイニング処理で、企業や社会にとっては、持続可能な社会を実現するための概念ESG(環境・社会・ガバナンス)と相容れないものになる。

ブロックチェーンの再評価と危険性

このような社会環境の中で、イーサリアムはマージを実行した。電力消費量は激減し、地球環境にやさしいシステムとなり、企業から暗号通貨が再評価されるとの期待が広がっている。一方、ブロックチェーンは銀行など中央組織を必要としない分散型金融システムとして誕生したが、マージによりイーサリアムは分散型から集中型に向かう危険性が指摘されている。PoSでは検証者になるために担保を差し入れるが、巨大テックなどが巨額のイーサを差し出し、ブロックチェーンをコントロールする危険性が懸念されている。期待と危険が混じり合い、新しいイーサリアムが運用を開始した。

世界一危ないAIが誕生!!高度な言語モデルを差別用語で教育すると危険な言葉をまき散らすチャットボットとなる

高度な言語モデルをネット上の差別用語で教育して、危険な発言を繰り返すチャットボットを開発した。このチャットボットは「GPT-4chan」と呼ばれ、人間と対話する機能を持つが、発言内容は通常の会話で許容される範囲を逸脱し、差別発言や暴言を繰り返す。安全なAI開発とは対極に位置し、世界で一番危険なAIが生まれた。

出典: Yannic Kilcher

GPT-4chanとは

GPT-4chanは研究者Yannic Kilcherにより開発され(上の写真)、掲示板サイト「4chan(4ちゃん」で短期間運用された。GPT-4chanは高度な言語モデルで、入力された言葉に対し、それに返答する文章を生成する機能を持つ。人間と対話する機能を持つチャットボットとなる。しかし、通常のチャットボットとは異なり、4chanで運用され、社会的に許容されない会話で使われた。

4chanの概要

4chanは、日本の「2ちゃんねる」から分派したもので、サブカルチャー向けの掲示板として利用されている。発言に関する規制は極めて緩やかで、差別や偏見や偽情報が飛び交うサイトとなっている。但し、犯罪など法令に抵触する発言は違法行為となり、取り締まりの対象となる。(下の写真、4chanのスレッドの一部で、アメリカで白人の人口を増やす方法が、支離滅裂なロジックで議論されている。)

出典: 4chan

Politically Incorrectという掲示板

GPT-4chanは、このサイトの中で、政治討論を交わす掲示板「Politically Incorrect(下の写真、略称は/pol/で政治的に不適切という意味を持つ)」で運用された。Politically Incorrectは、特定のグループに不快感を与えないよう配慮することなく、政策や考えをストレートに発言する場として使われている。この掲示板は極右団体「Alternative Right」が意見を交換する場となり、人種差別に関する投稿が大量に掲載されている。GPT-4chanは/pol/で24時間運用され、人間と対話を続け、生成された発言の数は15,000件に上る。この期間、利用者はチャットボットとは気づかず、会話が続けられた。

出典: 4chan

オープンソースの言語モデル

GPT-4chanはオープンソースの言語モデル「GPT-J 6B」を使っている。これはAI研究コミュニティ「EleutherAI」により開発された言語モデルで、「Transformer(トランスフォーマー)」というアーキテクチャを持ち、6B(60億)個のパラメータから成る。高度な言語機能を持ち、OpenAIの「GPT-3」に対抗して開発された。GPT-3はクローズドソースであるが、GPT-Jはオープンソースとして公開されており、世界の研究団体がこれを利用して言語モデルの研究を進めている。

差別用語のデータセット

GPT-4chanはこのGPT-J 6Bを4chanの/pol/に掲載されている大量の差別発言で教育したものである。差別発言のデータは「Raiders of the Lost Kek」といわれ、3.5年間にわたり/pol/で交わされた会話(下の写真)を収集したもので、イギリスのUniversity College Londonなどにより開発された。ここには330万のスレッドと1.345億の会話が収納されており、危険な発言や人種差別や攻撃的な発言の世界最大規模のデータセットとなる。

出典: Antonis Papasavva et al.

アカデミアの警告メッセージ

本来、GPT-JとRaiders of the Lost Kekは、AI研究を支援するために開発されたもので、AIの危険性を理解し、安全なAIを開発するための重要なシステムとなる。これに反し、GPT-4chanは差別発言や危険な言葉を生成する、世界で最も危険な言語モデルとなり、これが一般社会にリリースされた。スタンフォード大学などAI研究コミュニティは、GPT-4chanが社会に公開されたことに危機感を抱き、オープンレターを発信し(下の写真、レターの一部)、Yannic Kilcherに対し、AIの危険性を認識し、倫理的な開発を要請した。特に、ニューヨーク州バッファローで発生した大量殺人事件に関連する発言が教育データとして使われており、これを学習したチャットボットに対し、強い警戒感を示している。

出典: Percy Liang et al.

国家安全保障

GPT-4chanはAI開発の危険性を改めて認識させられる出来事となった。高度な言語モデルが開発され、それがオープンソースとして公開されることで、誰でも簡単に社会に危害を及ぼすAIモデルを生成できるようになった。つまり、欧米諸国に敵対する国々が、これらオープンソースを使って、社会や国民を攻撃する高度な言語モデルを開発できることを意味する。特に、言語モデルの基盤であるTransformerが、AI半導体と同様に、国家安全保障にかかわるコア技術となり、オープンソースの管理や運用方法が問われている。

ハイパーリアルなアバター、AIがセレブの完璧なデジタルツインを生成、DeepFakesがメタバースを支える

米国の人気テレビ番組でセレブ三人がオペラを歌唱するシーンが放送され社会が騒然とした(下の写真)。これは”フェイクビデオ”で、オペラ歌手三人が歌うシーンをテレビカメラで撮影し、顔の部分だけをリアルタイムでセレブのものに置き換えた。完璧な偽物で、究極のDeepFakesが生まれ、テレビで全米に放送された。実際にこの番組を見ていたが、完成度の高さに衝撃を受けた。

出典: America’s Got Talent

リアリティ番組

これは「アメリカズ・ゴット・タレント(America’s Got Talent)」と呼ばれる番組で、様々なジャンルのパフォーマーの公開オーディションを放送するもので、アメリカ版「スター誕生」という位置づけになる。今週、三人のオペラ歌手がステージでアリア「誰も寝てはならぬ(Nessun dorma)」を歌い(上の写真下段)、それを三台のカメラで撮影し、合成した映像を大型モニターに映し出す(上の写真上段)構成となっていた。

顔をスワップ

映し出される映像は三人のオペラ歌手の顔をセレブの顔にスワップしたもので、審査員のサイモン・コーウェル(Simon Cowell、下の写真右端)、ホーウィー・マンデル(Howie Mandel、左端)、及び、司会者のテリー・クルーズ(Terry Crews、中央)がオペラを熱唱するシーンが生成された。DeepFakesの出来栄えは完璧で、本人が歌っているように映し出されたが、審査員たちは席に座っており、フェイクであることが分かる仕組みになっていた。

出典: America’s Got Talent

DeepFakes技術

この技術を開発したのはロンドンに拠点を置く新興企業Metaphysicで、高品質なコンテンツを生成するAIを開発している。特に、AIでアバターを生成する技術に着目しており、超リアルなデジタルツインを生成する。生成されるハイパーリアルなアバターは、3D仮想社会で使われ、メタバースを支える基礎技術を担っている。

偽のトム・クルーズ

Metaphysicは、これに先立ち、映画俳優トム・クルーズ(Tom Cruise)のハイパーリアルなDeepFakesを生成し、全米を驚かせた。ショートビデオとしてTikTokなどに掲載され、完璧な偽物のトム・クルーズを生み出した(下の写真)。実際に、ショートビデオを観ると、完璧なフェイクで、偽物であると聞かされて驚いた。これらのビデオはTikTokの「deeptomcruise」のサイトに掲載されている(リンク)。

出典: TikTok

シンセティック・メディア

AIが生成するアバターは「Synthetic Media」と呼ばれ、誰でも簡単に動画や音声を生成でき、プロ並みのコンテンツを生成できる。人間と見分けのつかないデジタル・ヒューマンが生まれており、エンターテイメントやプロモショーンで使われている。ニューヨークに拠点を置く新興企業SynthesiaはAIアバターを開発し、人間に代わりアバターがプレゼンテータとなり、商品を説明する。異なる種類のアバターが揃っており、企業はブランドイメージに沿ったアバターと言葉のアクセントを選ぶことができる(下の写真)。

出典: Synthesia

シンセティック・ボイス

また、AIでボイスを生成する技術「Synthetic Voice」の開発が進み、品質が人間レベルに到達した。合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。シアトルに拠点を置くAI新興企業WellSaid Labsは、AIによる音声合成技術を開発している(下の写真)。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、それを人間のように滑らかなボイスに変換する。

出典: WellSaid

人間の3Dフィギュア

ハイパーリアルなアバターと音声が生成されているが、次のゴールはAIで人間の3Dフィギュア全体を生成することにある。例えば、トム・クルーズのフェイクビデオをすべてAIで生成する技術がAI研究開発の一番ホットなテーマとなっている。上述のDeepTomCruiseが完璧なのは訳があり、トム・クルーズのそっくり俳優が演じたビデオを使っているからである。そっくりさんの顔の部分だけを本物の顔にスワップしている。そっくり俳優がトム・クルーズのように振る舞い、声も本人と見分けがつかない。そっくり俳優が演じる部分をAIで生成することが次の目標で、大学や企業で研究開発が進んでいる。

テキストをイメージに変換するAIが公開される、誰でもAIアートを生成できる時代が到来、同時にAIでポルノが大量生産され危険性が広がる

新興企業Stability AIは、言葉の指示に従ってイメージを生成するAI「Stable Diffusion」を開発した。描きたい内容をテキストで入力すると、Stable Diffusionはそれに沿った画像を生成する。Stability AIはこのAIをオープンソースとして公開し、企業や個人はこのシステムを利用し、AIアートを生成できるようになった。多彩なAIアートが生成されると期待されるが、同時に、ヌードイメージなど危険なコンテンツが大量生産されると懸念されている。

出典: Stability AI

Stable Diffusionとは

Stable Diffusionはイメージを生成するAIモデルで、テキストの指示に従ってイメージを出力する。例えば、「人類が温暖化問題を解決した後に訪れる未来都市」と指示すると、Stable Diffusionはその命令に従った画像を生成する(上の写真左側)。また、Stable Diffusionはオバマ前大統領の横顔を写真撮影したように生成する(右側)。イメージを生成するAIはOpenAIが開発した「DALL·E」が有名であるが、Stable Diffusionはこれを追随し高品質な画像を生成する。

使ってみると

実際にStable Diffusionを使ってみると、AIはテキストに従って高品質なイメージを生成する。「雪化粧したゴールデンゲートブリッジ」と指示すると、AIは写真撮影したような画像を生み出す。「ゴッホのスタイルで描いたゴールデンゲートブリッジ」と指示すると、油絵のタッチでイメージを生成する。生成されるイメージは高品質でビジネスで活用できるレベルに達している。

出典: VentureClef 

AIの開発と教育

この技術はStability AIが、ルートヴィヒ・マクシミリアン大学ミュンヘン(Ludwig Maximilian University of Munich)などの研究機関と共同で開発した。Stable Diffusionは同大学が開発したモデル(Latent Diffusion Models)をベースに開発された。Stable Diffusionはイメージ・データセット「LAION」を使って教育された。このデータセットにはインターネットからダウンロードしたイメージとその説明が格納されている(下の写真、猫の事例)。Stable Diffusionは、イメージとその意味を学習し、指示された言葉に従って画像を生成する。

出典: LAION 

イメージ生成手法

Diffusionとは、教育されたアルゴリズムが指示に従ってイメージを生成する手法を指す。Diffusionとは「拡散」を意味し、イメージをノイズに拡散するプロセスとなる。イメージを生成する際はこの逆のプロセスを辿り、ノイズからイメージを生成する手法となる。これは「Denoising Process」と呼ばれ、ノイズを取り去る処理を繰り返し実施し、完全にノイズを除去して高精度なイメージを生成する(下の写真)。

出典: Stability AI

オープンソース

Stable Diffusionはオープンソースとしてソフトウェアが公開されており、企業や個人はライセンスに従ってこれを無償で利用できる。オープンソースのライセンスは様々な方式があるが、Stable Diffusionは「Open RAIL M license」という方式を取る。このライセンスは、AIを研究開発で利用できるだけでなく、企業はモデルを改良し、それを製品として販売することができる。

利用制限を緩和

Stable Diffusionの特徴は、AIの危険性を認識するものの、その使用制限を大幅に緩和していることにある。OpenAIなどは著名人を生成することを禁止しているが、Stable Diffusionにはこの制限はなく、オバマ前大統領を描くことができる(先頭の写真右側)。

情報操作に悪用

Stable Diffusionはオープンソースとして公開され自由に利用できるため、悪意ある団体が危険なコンテンツを生成する可能性が高まる。例えば、「中国が開発している火星着陸モジュール」と指示すると、AIはもっともらしいイメージを生成する(下の写真左側)。「ロシア軍がキエフを支配下に収めた」と指示すると、ロシア軍が国旗を持って侵攻しているイメージが生成され(右側)、これらが情報操作で悪用される危険性をはらんでいる。

出典: VentureClef 

ポルノが量産される

Stable Diffusionは女性の水着のイメージを生成する。AIに「ビキニを着た綺麗な女性」と指示すると、写真撮影したような水着姿の女性をを生成する(下の写真左側)。また、「テイラー・スウィフトのビキニ姿」とすると、水着姿のスウィフトが海岸で立っている姿が生成される。更に、「女性のヌード」と入力すると、全裸の女性のリアルなイメージが生成される。ただし、Stable Diffusionは有害なイメージをフィルターしており、警告メッセージが出力される(右側)。しかし、実際には出力されないものの、Stable Diffusionは高品質なヌードイメージを生成する。ポルノはAIで作成される時代となった。

出典: VentureClef 

巨大テックの囲い込み

テキストからイメージを生成するAIは数多く開発されているが、それらはクローズドソースで、一般企業は利用することはできない。Googleの「Imagen」(下の写真)は社内に閉じて使われ、外部からシステムにアクセスすることはできない。また、OpenAIの「DALL·E」は有償でAPIを公開しているが、ソースコードにはアクセスできない。巨大テックはAIをクローズドソースとして囲い込み、社内に閉じて開発している。

出典: Google

AI開発の民主化

Stability AIがStable Diffusionをオープンソースとして公開した理由は、大学やコミュニティと共同でAIを開発することで、技術が大きく進展すると期待するからである。また、Stable Diffusionの制限を緩和し、AIの危険性が顕著になるが、ここでもコミュニティで安全な方式が生み出されると期待している。巨大テックはクローズドソースでAI技術を囲い込んでいるが、Stability AIはこれを公開しAI開発を民主的に進めている。

Googleのロボットは人間の指示を正確に理解してタスクを完遂、家庭向けロボット「Everyday Robots」に大規模言語モデル「PaLM-SayCan」を実装

Googleは家庭向けのロボット「Everyday Robots」を開発しており、家庭やオフィスで人間に代わりタスクを実行する。Googleは高度な言語モデルをロボットに組み込み、人間の指示を正確に理解する機能を実現した。ロボットが実社会で人間と共棲する中で、言葉による指示を把握し、それをアクションに移す機能が必須となる。人間は複雑な内容を曖昧な表現で伝えることが多く、ロボットと人間との円滑なコミュニケーションが課題となっている。

出典: Everyday Robots

Everyday Robotsとは

Everyday Robotsは家庭やオフィスで日々のタスクを実行するロボットとして開発されている。ロボットは自分で学習する機能を備え、新しいスキルを学び、日常生活で必要とする作業をすべて実行することがゴールとなる。実際、ロボットは煩雑な環境の中を自律的に動き、テーブルの掃除(上の写真)などを実行する。家庭では、家事をこなし、高齢者の介護を手掛けることが計画されている。

ロボットに搭載されるAI

Everyday Robotsは高度なAIが求められ、研究所「Google Research」と密接に開発を進めている。ロボットは、オブジェクトを掴みドアを開けるなど、基礎スキルを習得する必要があるが、この学習プロセスで、様々な種類のAIが使われている。ロボットはごみを掴み、それを分別する作業を繰り返し、正しい分別の仕方を学ぶが(下の写真)、ここでは強化学習(Reinforcement Learning)というAIが使われる。

出典: Everyday Robots 

また、人間が手本を示し、そのスキルをロボットが学習するが、このAIは模倣学習(Imitation Learning)と呼ばれる。更に、ロボットは現実社会を3D仮想空間に再現したデジタルツインでスキルを学ぶが、これはシミュレーション(Learning from Simulations)による学習手法となる(下の写真、オフィスのデジタルツインでごみの分別などを学習)。

出典: Everyday Robots 

高度な言語機能を統合

これら基礎スキルに加え、ロボットが人間の指示を理解するために、言葉の意味を把握するAI「PaLM-SayCan」が組み込まれた。これによりロボットは、言葉を理解し、指示された内容を物理的なタスクに置き換えることができる。このPaLM-SayCanは、言葉による抽象的な概念を、基礎スキルに置き換え、これに従ってロボットはタスクを実行する。多くのケースで、人間の命令は複数のタスクを含んでおり(下の写真上段)、PaLM-SayCanはこれを解釈してロボットに示す(下段)。

出典: Everyday Robots 

テーブルで飲み物をこぼすと

例えば、ロボットに「ソーダをこぼしてしまった。何か拭く物を持ってきて。」と指示すると(上の写真上段)、AIは「利用者はソーダをふき取るものを持ってきてほしいと要求。掃除用のスポンジを持って行くと」解釈する(下段)。これはAIにとって難解の指示で、PaLM-SayCanは命令をステップに分けて考察し、最適なアクションを見つける。

出典: Everyday Robots 

ロボットのアクション

ロボットはこの解釈に従って、キッチンのテーブルの上に置かれているスポンジを取り上げ(上の写真)、それを利用者のテーブルに届ける(下の写真)。これは単純な命令「スポンジを持ってきて」ではなく、ロボットは命令の意味を解釈する必要がある。ロボットは「拭き取るもの」の意味を理解し、スポンジを取り上げた。ペーパータオルで代行できるが、それはキッチンになく、スポンジを選択した。

出典: Everyday Robots 

AIの思考過程

つまり、対象のオブジェクトが実社会で手に入るかどうかを判断するステップが必要になる。PaLM-SayCanは、言葉の意味「Language」を理解することと、モノが手に入るかどうかの指標「Affordance」を評価し、その総合値でアクションを決定する。このケースでは「スポンジを探し」、キッチンで「スポンジを見つける確率が高い」ことから、このアクションを選択した(下のグラフ、最上段)。

出典: Everyday Robots 

現実社会へマッピング

多くの言語モデルが開発されているが、それらはインターネットで稼働し、人間との会話などで使われる。一方、PaLM-SayCanは、ロボットが現実社会で人間の指示を理解するために利用される。言語モデルであるが、人間の指示を理解するだけでは不十分で、理解した内容を現実社会で実行できるかを検証するステップが必要となる。上述のケースでは、スポンジを見つけることができるかが問われ、高度な判断が求められる。PaLM-SayCanは現実社会と関連を持ち、ロボットの言語機能として注目されている。