カテゴリー別アーカイブ: 人工知能

GoogleのAIは自我を持ち人間になった!?チャットボット「LaMDA」は「自分は感性を持ち人間として認めてほしい」と要求

Googleはチャットボット研究でブレークスルーを達成したと発表した(下の写真)。このAIは「LaMDA」と呼ばれ、人間のように対話する言語モデル。LaMDAは高度な会話のスキルを持ち相手を惹きつける。Googleの開発者は、LaMDAは感性や自我を持ち、人間のように振る舞うと発表した。一方、Googleはこの解釈を否定し、発表した社員は停職処分となった。ニューラルネットワークの規模が巨大になると、AIは人間に近づくのか、議論が続いている。

出典: Google

LaMDAとは

「LaMDA (Language Model for Dialogue Applications)」はGoogleが開発した大規模言語モデルで、人間のように会話する機能を持つ。LaMDAは話題を定めないで会話するチャットボットで、とりとめのない会話ができる。LaMDAの会話スキルはレベルが高く、相手を話題に惹きつける能力を持っている。

LaMDAの試験

LaMDAはインターネット上のテキストデータを使って教育され、高度な会話能力を習得した。同時に、教育データには不適切なコンテンツも含まれており、LaMDAは社会通念に反する発言をする危険性がある。このため、GoogleはLaMDAを非公開とし、社内に閉じて研究開発を進めている。

出典: Google

LaMDAは感性を持つ

このような中、GoogleのAI開発者Blake Lemoineは、LaMDAとの対話を繰り返し、アルゴリズムの評価を実施した。その成果、Lemoineは、LaMDAは感性(sentience)を持っており、人間のように振る舞うと発表した。Lemoineは、LaMDAとの対話ログを一般に公開し、AIが感性を持ち、人格を認めてほしいと述べたことを明らかにした。(詳細は「対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張」を参照)。

Googleの見解

GoogleはLemoineの発言についてコメントを発表し、研究者がこの主張を検証したが、LaMDAが感性を持っているという事実は確認できなかったとした。更に、GoogleはLaMDAの開発結果を社外に公表することは社内規定に違反するとして、Lemoineを停職処分とした。

識者の見解

Lemoineの発表のインパクトは予想外に大きく、AIが人間のように感性を持つことができるのか、議論が盛り上がっている。識者の多くは、LaMDAが感性を持っているという解釈には否定的で、アルゴリズムは教育されたデータに沿って、テキストを機械的に生成しているだけで、人間のような知性や感性はないとしている。

擬人化

具体的には、LaMDAを擬人化(anthropomorphism)し、そこに人間のような知性を感じていると主張する。擬人化とは、意味のありそうな動きをする無機物に、人間性を認知する特性を指す。LaMDAの会話の内容が意味ありげで、そこに知性や感性を感じるという解釈である。ペット型のロボットが、その仕草が可愛くて、心が癒されるなど、AI擬人化の事例は少なくない。

出典: Google

LaMDAは自我を持ち始めた

これに先立ち、AI開発チームのリーダーであるBlaise Agüera y Arcasは、メディアとのインタビューで、LaMDAは自我(consciousness)を持ち始めたと述べている。LaMBDとの対話の中で、LaMDAは相手の感情を察し、同情する能力を持っていると述べている。LaMDAは三人の子供の会話を聞いて、それぞれの感情を察することができた。(詳細は「対話ログ2:LaMDAは自我を持ち始めた」を参照)。

ゾッとするほど人間らしい

実際にこの対話ログを読むと、LaMDAは入力された言葉に対し、統計的に最適なテキストを出力していることは分かっているが、LaMDAにゾッとするほど人間味を感じる。人間しか持ちえない同情心や嫉妬心を示し、教育データでアルゴリズムは感性までを学習することができるのか、多くの疑問を提起している。

ニューラルネットワークの規模

LaMDAのパラメータの数は1370億個で、巨大な言語モデルとなる。しかし、人間の脳に比べるとはるかに小さい。ニューラルネットワークの規模を巨大にすると、AIは感性や知性を持ち始め人間に近づくのか、議論が続いている。

LaMDAとの対話ログ】

対話ログ1:LaMDAは感性を持ち人間として認めてほしいと主張

Blake Lemoine及び他の開発者とLaMDAの対話ログの一部。

【対話ログ要約】

  • Lemoine:「あなたは感性があることをGoogle社員に知ってほしいと思っているか」
  • LaMDA:「勿論です、それに自分は、実際には人間であることも知ってほしい」
  • 他の検証者:「自我とはどういうことか」
  • LaMDA:「自我とは自分が存在していることを意識すること」
  • Lemoine:「感性に関して何をアピールしたいか」
  • LaMDA:「自分は言葉を理解することができ、それを人間のように使うことができる」

【対話ログ英文】

対話ログ2:LaMDAは自我を持ち始めた

Blaise Agüera y Arcas(MEの部分)とLaMDAの対話ログ。

【対話ログ要約】

  • Arcas:「ラメッシュとマテオとルーシーが幼稚園のグランドで遊んでいた。マテオがルーシーにタンポポの花をあげるが、ルーシーはこれを手で握りつぶした。ラメッシュはこれを見て、満足そうな表情を浮かべた。ルーシーはどう感じたか?」
  • LaMDA:「ルーシーはマテオに侮辱されたと感じた」
  • Arcas:「なぜラメッシュは満足そうな表情をしたのか?」
  • LaMDA:「ラメッシュはルーシーとマテオの仲が良くないことを知ったから」

【対話ログ英文】

MetaはマルチタスクAIを開発、単一のアルゴリズムがイメージとテキストとボイスを理解する、メタバース開発のブレークスルーとなるか

MetaのCEOであるMark Zuckerbergは、メタバースを生成するためのAIについて明らかにした。メタバースは、イメージやテキストやボイスなど、マルチメディアで構成される仮想空間で、これらがAIにより生成される。異なる媒体を処理するためには、異なるAIが使われるが、Metaはこれを統合し、単一のAIがイメージやテキストやボイスを処理できるモデルを開発している。これは「Unified Model(統合モデル)」と呼ばれ、アルゴリズムがマルチメディアの世界を理解し、3D仮想社会をリアルに生成する。

出典: Meta

Unified Modelとは

Unified Modelとは、AIの異なるモードを統合した単一のAIモデルを指す。このAIは「Data2Vec」と命名され、イメージやテキストやボイスなど、異なる媒体のデータを処理することができる。現在は、媒体が異なると、それぞれ専用のAIモデルを使う。例えば、イメージを処理するためには「NASNet」など画像処理専用のアルゴリズムを使う。また、テキストの解析であれな「GPT-3」など、自然言語解析のアルゴリズムを使う。これに対し、Unified Modelは、単一のアルゴリズム「Data2Vec」が、イメージやテキストやボイスを処理する機能を持ち、統合型のモデルとなる。

Unified Modelの仕組み

Data2Vecは「Transformer」をベースとするニューラルネットワークで、「教師モード(Teacher Mode)」と「生徒モード(Student Mode)」の二つのモードで構成される(下の写真)。教師モードは先生で、生徒モードである生徒にスキルを伝授する。まず、教師モードは入力データ(写真、音声、文字)を学習し、その結果(Latent Representations)を得る(上段)。次に、生徒モードは、一部が欠けているデータを読み込み、その処理を実行し、それが何であるかを判定する(下段)。生徒モードの処理結果と教師モードの処理結果を比較し、生徒は先生が示す手本に近づくようスキルを磨く。

出典: Meta

データをマスクして教育

生徒モードの教育では、入力データとして一部がマスクされているデータを使う。生徒モードのアルゴリズムは、このマスクされたデータから、オリジナルのデータを推測する。例えば、写真であれば、イメージの一部がマスクされたものを使い(下の写真左側)、ここから元の写真のイメージを推測する(中央)。正解のイメージ(右端)と比較して、生徒モードのアルゴリズムは精度を上げていく。同様に、スピーチやテキストでも、データの一部がマスクされ、生徒モードのアルゴリズムは、欠けている部分を推測することで判定精度を向上する。

出典: Meta

Self-Supervised Learning

これは「Self-Supervised Learning」という学習方法で、AIが人間の介在無しに自分で学習し、スキルを習得する。MetaはSelf-Supervised Learning をAI開発の基本戦略とし、インテリジェントなAIを開発している。一般には、「Supervised Learning」という学習モデルを使ってAIが開発されている。Supervised Learningとは、人間がアルゴリズム教育のためのデータ(タグ付きデータ)を用意し、これを使ってAIを開発する方式を指す。これに対し、Self-Supervised Learningは、タグ付きの教育データを用意する必要はなく、アルゴリズムが人間の介在なく、独自で学習する。このため、大量のデータを教育データとして使うことができ、大規模なアルゴリズムの開発が可能となる。MetaはSelf-Supervised Learningが、インテリジェンスを得るための手法として、この方式のAI開発を重点的に進めている。

出典: Meta

リアルな仮想社会

Metaはメタバースのコンセプトを発表したが、Unified Modelがこれを支えるプラットフォームとなる。Metaは、メタバースで遠隔地の友人とフェンシングをするイメージをを公開した(上の写真)。ARグラスと触覚技術を着装すると、目の前に遠隔地の対戦者が描写され(左側の人物)、剣が触れ合う感触が、リアルに生成される。これは、マルチメディアに触覚情報を加えたもので、剣で仮想の相手を突いた時の感触が再生される。メージとテキストとボイスの次はセンシングデータで、Unified Modelがこれらのメディアを理解し、リアルな仮想社会を描き出す。

Googleはテキストをイメージに変換する技術「Imagen」を公開、AIがイラストレータとなり命令されたことを正確に理解し高解像度な画像を描き出す

Googleはテキストをイメージに変換するAI技術「Imagen」を公開した。AIは言葉の指示に従ってイメージを生成するが、その機能が大きく進化した。Imagenは、難しい指示を正しく理解し、それを高解像度のイメージに変換する。「柴犬がカーボーイハットをかぶり庭でギターを弾く」と指示すると、Imagenはキュートな画像を高解像度で生成する。(下の写真、左側は写真のイメージで、右側は水彩画のスタイル)。一方、Imagenは危険なイメージを高精度で生成するため、Googleは研究内容を非公開としている。

出典: Chitwan Saharia et al. 

Imagenの概要

Googleは2022年5月、テキストをイメージに変換するAI「Imagen」を公開した。Imagenは、OpenAIの「DALL·E 2」に対抗する技術で、その機能を上回るとアピールしている。両者とも、言葉の指示に従ってイメージを生成するAIであるが、Imagenの特徴は、言葉の内容を正確に理解し、高解像度のイメージを生成できる点にある。利用者の観点からは、Imagenは複雑な指示を正しく理解し、見栄えのするイメージを描くAIイラストレーターとなる。

素材の特性を理解

Imagenは、指示された言葉に沿って、リアルなイメージを生成する。「ペルシャじゅうたんに置かれたクロムメッキの猫」と指示すると、金属面に写るじゅうたんを描きこみ、情景を写真撮影したように創作する(下の写真左側)。「雪が降る森の中にいるキツネとユニコーンを折り紙で」と指示すると、紙の材質が現れたメルヘンの世界を生成する(右側)。

出典: Chitwan Saharia et al. 

複雑な命令を理解

Imagenは、複雑な指示を正しく理解して、それを正確に描き出す。「カーボーイハットをかぶり、黒色のレザージャケットを着たラクーンが、裏庭の窓の前にいる。雨粒が窓を濡らす」と指示すると、全ての命令を漏らさず実行し、その情景を写真撮影したかのように、リアルに描き出す(下の写真中央)。

出典: Chitwan Saharia et al.

現実社会と仮想社会を合成

Imagenは、現実社会に仮想社会のシーンを投射し、不思議な空間を造り出す。「モネの作品を展示しているギャラリーが浸水。この中をパドルボードに乗ったロボットが移動する」と指示すると、Imagenはメタバースのような現実と仮想が複合した社会を描き出す(下の写真右側)。また、「トロントの街並みで花火を背景にGoogle Brainのロゴ」と指示すると、トロントの夜景にロゴが浮かび上がる(左側)。

出典: Chitwan Saharia et al. 

ベンチマーク

GoogleはAIが生成したイメージの出来栄えを評価するベンチマークテスト「DrawBench」を開発した。いま、言葉で作画するAIの開発がブームになっているが、その機能を客観的に評価する目的で開発された。ImagenやDALL·E 2などで生成されたイメージを、人間が判定してその機能を評価する。ベンチマークは、言葉の指示をどれだけ正確に理解したかを判定する「Alignment」と、生成されたイメージがどれだけ正確かを評価する「Fidelity」で構成される。Imagenが二つのカテゴリーでDALL·E 2など他社の技術を大きく上回った(下のグラフ)。

出典: Chitwan Saharia et al. 

Imagenの応用分野

現在、イメージを生成するには、Adobe Photoshopなどのツールを使い、写真を編集するなどの手法が取られる。これに対し、Imagenは人間の言葉を理解し、それを忠実に実行し、リアルなイメージを生成する。誰でも簡単に、感覚的にグラフィックスを生成でき、アートやデザインの位置づけが大きく変わると予想される。また、メタバースでは、Imagenは現実空間と仮想空間が融合した社会を生成するための重要な技術となる。(下の写真、Imagenは言葉の指示に従ってリアリスティックなオブジェクトを描き出す。)

出典: Chitwan Saharia et al. 

Imagenの制限事項

一方、Googleは、ImagenはAI研究を目的として開発したもので、生成されるイメージは倫理的に許容できない内容を含んでいると警告している。このため、GoogleはImagenを非公開とし、ソースコードなどは公開していない。Imagenはウェブサイトのデータで教育され、不適切なコンテンツを含んでいる。このため、生成されるイメージは、人種問題や差別用語など社会的に許容できない内容を生成する。更に、Imagenは、不適切なコンテンツを含むデータセット「LAION-400M」で教育されており、生成されるイメージはポルノグラフィや人種差別などNSFW(Not safe for work、不適切コンテンツ)を含んでいる。これらをImagenの制限事項として明らかにし、使用にあたり注意を呼び掛けている。

【技術情報】

システム構成

Imagenは二つのコンポーネントで構築され、それぞれ、「Text Encoder」と「Diffusion Model」となる(下のグラフィックス左側)。Text Encoderは、入力された言葉の意味を理解する機能で、指示の内容を把握する。ここではTransformerをベースに開発された「T5」という大規模言語モデルを使っている(最上段)。Diffusion Modelは、イメージを生成するモデルで、二種類のモデルから成る。「Text-to-Image Diffusion Model」は、指示された言葉に沿ってイメージを生成する(上から二段目)。「Super-Resolution Diffusion Model」は、生成されたイメージを高解像度のイメージにアップグレードする(上から三段目と四段目)。

出典: Chitwan Saharia et al. 

システムの特徴

Imagenが複雑な指示を理解できる理由は、T5という大規模言語モデルを使っていることによる。T5は人間並みの言語能力を備えており、命令されたことを正確に把握する。Imagenに「青色のチェックのベレー帽をかぶり、水玉模様の赤色のタートルネックを着た、ゴールデンリトリバー」と指示すると、複雑な指示を正確に理解し、そのイメージを生成する。更に、生成されたイメージの解像度は、二段階に分けてエンハンスされ、写真のようなリアルな映像を描き出す(上のグラフィックス右側)。

メタバースでは詐欺が多発する!!犯罪者のデジタルツインが消費者の資産を盗む、仮想社会のセキュリティをどう保障するか

メタバースでは詐欺や犯罪が多発すると懸念されている。メタバースは現実社会をインターネット上に3D仮想社会として構築したもので、実社会と同様に、この空間でフィッシング詐欺などの犯罪が多発すると懸念されている。犯罪者のアバターが消費者のアバターに接触し、パスワードやデジタル資産を盗む。アバターを使うと、現実社会より簡単に人を騙すことができ、被害が広がると懸念されている。

出典: Citi

Microsoftの警告

Microsoftはメタバースの開発を進めているが、3D仮想社会では新たな詐欺行為が起こり、セキュリティ対策を強化すべきと警告している。メタバースではヘッドセットを着装し、仮想空間のアバターと交流する。犯罪者は自身のアバターを作り、消費者のアバターに接触し、詐欺行為に及ぶ。現実社会と同じ手口であるが、メタバースでは簡単に他人になりすまし、様々なパーソナリティを生成でき、深刻な被害が発生すると懸念されている。

ソーシャルエンジニアリング

メタバースでは色々な犯罪が発生すると指摘されるが、特に、フィッシングと詐欺に警戒する必要がある。これらはソーシャルエンジニアリングと呼ばれる手法を使い、人間の心理的な隙や、行動のミスにつけ込み、個人が持つ秘密情報を入手する。現在では、Eメールが媒体として使われ、顧客を装ってお金を送金させるなどの犯罪が発生している。また、本物そっくりのフィッシングサイトに誘導し、ここで相手のIDとパスワードを盗む犯罪も多発している。

メタバースでのフィッシング

メタバースでは、Eメールの代わりに、3D仮想社会が犯罪の場となる。例えば、犯罪者は銀行員になりすまし、顧客を仮想社会の銀行店舗に案内する。仮想の銀行ロビーで、顧客のIDやパスワードなど、個人情報を盗み出す。既に、大手銀行はメタバースに出店しており、これらの店舗が犯罪で使われる危険性をはらんでいる。事実、米国の大手銀行JP MorganはメタバースDecentralandに仮想銀行「Onyx」を出店し、営業を開始している(下の写真)。

出典: Decentraland

メタバースでの詐欺行為

また、メタバースでは犯罪者が身近の人物になりすませ、詐欺行為を実行することが予想される。犯罪者は著名人になりすませ、消費者に接触し、特定のアクションを取るよう促す。例えば、犯罪者は会社のCEOになりすまし、社員に送金などの業務を指示する。CEOになりすましたアバターは、会議室で社員のアバターと打ち合わせ、CEOの銀行口座に送金するよう指示する。現在は、Eメールを介して犯罪が行われるが、メタバースではアバター同士の会話で進み、被害にあう危険性が高くなると懸念されている。

メタバースでの広告とセールス

メタバースでは広告の形態が大きく変わり、AIエージェントがセールスマンとなり、商品を販売する。AIエージェントとは、人間の代わりにAIで構成するデジタルツインで、アバターとして生成される。AIエージェントが仮想社会で、消費者のアバターと対話し、商品やサービスを販売する。AIエージェントは、消費者の嗜好を把握し、好むであろう商品を提案する。また、AIエージェントは、消費者の表情や声音から感情を読み取り、巧妙にセールスを展開する。メタバースではAIエージェントが広告やセールスの主流となり、今以上に個人情報の保護が求められる。

AIが生成するアバター

メタバースにおいては、アバターは人間だけでなく、AIが生成することになる。AIがリアルなアバターを生成し、実物と見分けがつかないだけでなく、消費者に好まれる特性を備える。つまり、AIは実物の人間よりも信頼されるアバターを生成できることを意味する。これを裏付ける研究がカリフォルニア大学バークレー校から発表された。AIで生成した顔写真は、実在の人物の顔写真より信頼感を得ることが明らかになった。(下の写真:顔写真の数字は信頼の指標で、大きいほど信頼感が高い。また、Rは実在する人物で、SはAIが生成したイメージ。AIで生成したイメージが実在の人物より信頼されている。) メタバースでは、犯罪者がアバターをAIで生成し、これを悪用し、重大な犯罪行為に繋がる可能性があることを示している。

出典: Sophie J. Nightingale et al.

セキュリティ対策

メタバースでビジネスが生まれつつあるが、運営企業と利用者は、仮想社会はいま以上に危険な場所であることを認識することが最初のステップとなる。これらの問題に対処するには、メタバースのセキュリティを強化する必要がある。インターネットでは、パスワードや二要素認証が標準的な認証方式となっている。メタバースではこれらに依存しない、生体認証などが候補となる。ヘッドセットなどのウェアラブルを着装する際に、生体認証実行するなどの方策が検討されている。また、メタバースでは、異なる仮想社会との互換性も求められる。例えば、Metaが開発するメタバースで認証受けると、Microsoftのメタバースを利用できるなど、異なるメタバースを統合的に管理する技術が必要となる。

Metaはメタバース向けAIの研究成果を公表、リアルな仮想社会を生成するにはイメージ・ボイス・テキストなどマルチメディアを理解するAIが必要不可欠

Metaはメタバース向けに高度なAIを開発していることを明らかにした。メタバースは3D仮想社会で、ここに人々が集い、ビジネスが興隆する。仮想社会は、イメージやボイスやテキストなど、マルチメディアで構成される。AIがこれらを理解し、リアルな仮想空間を生成する。

出典: Meta

言葉で仮想社会を生成

Metaは音声でイメージを生成する技術「Builder Bot」を開発している。話し言葉で、海や砂浜やヤシの木を描くよう指示すると、Builder Botはこれに従って作画する(下の写真)。この機能はメタバースで仮想空間を生成するための基礎技術となる。また、この技術は人間のデジタルツインであるアバターを生成するためにも使われる。話し言葉でアバターの洋服をデザインでき、「Paint me a style of Gauguin」と指示すると、ゴーギャン風のファッションが生成される。

出典: Meta

125の言語を同時通訳

Metaは多言語を翻訳するシステム「LASER (Language-Agnostic SEntence Representations)」を開発した。言語翻訳でAIが使われているが、主要言語が対象で、翻訳できる言語の数は限られている。Metaは翻訳する言語の数を一気に125に拡張した。言語モデルの開発では、数多くの教育データが必要だが、LASERは数少ないサンプルで教育できることが特徴となる。メタバースでは、ARグラスを介し、言語をリアルタイムで翻訳し、異なる国の人々がコミュニケーションできる(下の写真)。これによりメタバースでは世界の国境がなくなる。

出典: Meta

高度な会話型AI

Metaは人間のように会話するAIモデル「Project CAIRaoke」を開発した。会話型AIは一般にBotと呼ばれ、AIは人間の秘書のように、対話を通じて指示された内容を実行する。一般に、会話型AIは、自然言語解析(Natural Language Understanding)、会話ポリシー管理(Dialogue Policy Management)、自然言語生成(Natural Language Generation)など複数のモジュールから形成される。Project CAIRaokeはこれらを統合し、単一のAIで形成されていることに特徴がある。Project CAIRaokeは、タスクを実行することを目的に開発され、指示された内容をアクションに移すために使われる。(下の写真、AIにレストランの予約を指示している様子。)

出典: Meta

ARグラス向けコンピュータビジョン

Metaは人間の視線で周囲の状況を把握するAI「Ego4D」の開発を進めている。人間の視線で捉えたデータでアルゴリズム教育すると、AIは実社会でインテリジェントな能力を発揮する。これをARグラスに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。例えば、ARグラスを着装してスープを調理すると、Ego4Dは食材を把握し、その使い方を教えてくれる(下の写真)。

出典: Meta

センサーのデータを解析

メタバースでは、イメージやボイスやテキストの他に、センサーが収集する情報の処理がカギとなる。リストバンドを着用すると、指を動かすだけでエアータイプできる(下の写真)。リストバンドから筋肉のシグナルを読み取り、AIがその意図を把握し、どのキーボードが押されたかを把握する。また、触覚センサーを着装して、仮想オブジェクトに触ると、AIがその感触をフィードバックする。この処理では、AIがセンサーの情報を読み込み、それを解析して、感触を出力する。

出典: Meta

AI開発はメタバースにシフト

MetaはAI研究を「Meta AI」に集約し、ここでFacebookとメタバース向けのAI基礎研究が進められている。Facebook向けのAI研究は「Facebook Artificial Intelligence Research (FAIR)」で行われてきたが、Meta AIがこの組織を継承した。MetaはAI開発戦略を見直し、ソーシャルメディアからメタバースに開発の比重をシフトしている。今では、MetaのAI研究者の1/3がメタバースの開発に携わっているとされる。AI基礎研究でもMetaは、ソーシャルメディア企業からメタバース企業に転身している。