月別アーカイブ: 2021年9月

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。

Facebookはお洒落なスマートグラスを発表、Ray-Banサングラスにカメラを実装、ARグラスに向けた第一歩

Facebookはスマートグラス「Ray-Ban Stories」を発表した(下の写真)。これはFacebookが開発した最初のスマートグラスで、お洒落なデザインとなっている。Ray-Banサングラスにテクノロジーを実装したもので、ファッションに軸足を置く構成となっている。スマートグラスは二台のカメラを搭載し、利用者の視点で写真やビデオを撮影する。FacebookはARグラスの開発を進めており、Ray-Ban Storiesがそれに向けた第一歩となる。

出典: Facebook

Ray-Ban Storiesの概要

Ray-Ban Storiesはサングラスに二台のカメラを組み込んだ構造で、写真やビデオを撮影できる。スピーカーとマイクが搭載され、音楽を聴き、また、電話をかけることもできる。価格は299ドルからでRay-Banのサイトで購入する。これはFacebookがEssilorLuxottica(Ray-Banの親会社)と共同開発しもので、米国など六か国で販売が始まった。

カメラと利用方法

スマートグラスはリムの両端に5MPのカメラを搭載している(下の写真)。カメラは利用者の目線で撮影し、日常生活の瞬間(Moments)をとらえるために使われる。撮影するときは右側テンプルに設置されたボタンを押すか、ボイスコマンドを発行する。スマートグラスはAI音声認識機能を備えており、「Hey Facebook, take a video」と語りかけるとビデオ撮影が始まる。写真やビデオを撮影しているときはカメラの隣に搭載されているLEDライトが点灯する。これにより周囲の人はカメラが稼働していることが分かり、プライバシー保護に配慮した設計となっている。

出典: Facebook  

アプリとの連携

スマートグラスは専用アプリ「Facebook View」と連携して利用する。撮影した写真やビデオはアプリに格納され(下の写真左側)、それを編集してオリジナルなコンテンツを生成する(中央)。生成したコンテンツはFacebookやInstagramやWhatsAppなどソーシャルネットワークと共有することができる(右側)。自社ネットワークだけでなく、Twitter、TikTok、Snapchatと共有することができる。

出典: Facebook  

Ray-Banのモデル

スマートグラスはRay-Banのモデル「Wayfarer」、「Round」、「Meteor」から構成される。Wayfarerはクラッシックなデザイン(下の写真)で、オードリーヘップバーン(Audrey Hepburn)が映画「ティファニーで朝食を」(Breakfast at Tiffany’s)で使い有名になった。今では歌手のマドンナ(Madonna)などが愛用し、このスタイルが再びブームになっている。Ray-Banと言えばバイデン大統領が愛用している「Aviator」を連想するが、若い世代にはあまり好まれないようである。

出典: Facebook  

プロセッサなど

スマートグラスは二台のマイクロスピーカーと三台のマイクを搭載している。マイクは特定方向のサウンドをエンハンスする機能(Beamforming Technology)や背景音をキャンセルする機能を持ち、クリアなサウンドを生成することができる。また、テンプルの部分がタッチパネルになっており、指で触って操作する。スマートグラスは専用プロセッサ「Snapdragon」を搭載しており、これらのデバイスをサングラスに組み込んだデザインとなる。

Facebook Reality Labs

スマートグラスはFacebook Reality Labsで開発された。Facebook Reality Labsとは拡張現実(AR)と仮想現実(VR)を研究開発することをミッションとし(下のグラフィックス)、Ray-Ban StoriesはそのAR部門で開発された。VR部門はOculusを核とする組織で、VRヘッドセットを開発している。最新モデルは「Oculus Quest 2」で、PCとの連携を必要としないスタンドアロン型VRヘッドセットとして販売が始まった。

出典: Facebook  

ARグラス

AR部門は既にAR グラスのプロトタイプ「Aria」を開発した。これは研究開発用のAR グラスで、カメラとディスプレイを搭載し、目の前のオブジェクトを把握するだけでなく、そこにテキストやグラフィックスをインポーズし、現実社会と仮想社会を融合させる。Facebook 社員はAria を着装して施設内や市街地を歩き、グラスのカメラで目の前のシーンを記録し、ARグラス向けのマップを制作している。ARグラス商用版に向けた開発が進んでいるが、Ray-Ban Storiesがその第一歩となる。

出典: Facebook  

リモートワークで二社を掛け持ちし給与を倍増する!! シリコンバレーで広がるちょっと危険なワークスタイル

シリコンバレーで多くの企業がリモートワークを導入しているが、二社で勤務し給与を倍増する社員が現れた。テック企業の多くは完全リモートワークを採用しており、社員はオフィスに出社することなく、在宅にて二社掛け持ちで勤務する。会社の就労契約に抵触しており、見つかれば解雇となるが、給与が倍増するというインセンティブは大きい。危険なワークスタイルであるが、リモートワーク時代の働き方として議論を呼んでいる。

出典: Overemployed

リモートワークの実態

シリコンバレーではGoogleやFacebookなどがハイブリッドワークに移り、在宅勤務とオフィス勤務を併用した形態を取る。リモートワークだけを選択するオプションもあり、社員の2割が完全在宅勤務で働いている。一方、DropboxやSpotifyなどはリモートワークを中心とする勤務体系を採用しており、多くの社員はオフィスに出社することなく勤務を続けている。また、Automatticなどはオフィスを持たず全員がリモートで勤務している。

正社員として掛け持ち勤務

このように、テック企業で社員の多くがオフィスに出社することなく在宅で勤務している。このような雇用環境が続く中、二社を掛け持ちして勤務する社員が現れた。ギグワークのような契約社員ではなく、正規社員としてリモートワークで二社を掛け持ちする。パソコンで業務をこなし、打ち合わせはZoomなどテレビ会議で参加する。二社分の仕事をするのは無理と思われていたが、業務内容によりこれが可能であることが分かってきた。サンフランシスコの新興企業Overemployedは二重勤務に関する情報を発信しておりその実態が明らかになってきた。

フィールド・エンジニアのケース

Overemployedによると、エンジニア”sidegigs”はフルタイムで二社を掛け持ちして働いている。ソフトウェア・エンジニアとして20年のキャリアを持ち、現在はフィールド・エンジニアとして二社で勤務している。一社は2020年11月から勤務を始め、もう一社は2021年4月に就職した。二社を掛け持ちして勤務し、年収は67万ドル(7370万円)となる。二社で勤務しているが時間外勤務は少なく、仕事に追われているという様子はない。

出典: Overemployed  

二社で働くためには

二社で働くためにはそれなりのスキルを必要とする。最も重要なポイントは秘密の保持で、二社で勤務していることを口外してはいけない。家族内に情報を留めておき、友人や他の家族に打ち明けないようアドバイスしている。また、仕事に優先順位をつけ、掛け持ちしている2番目の仕事はプライオリティを下げるよう指示している。具体的には、LinkedInなどに仕事の履歴を掲載するときは、メインの会社の職業を掲示し、サブの会社については何も触れない。履歴書も同様で、サブの会社の仕事については何も記載しない。

時間管理のポイント

実際に仕事を始めると、打ち合わせ時間の調整が最大の課題となる。Zoom会議で二社の打ち合わせ時間が重なるときの対応がカギとなる。基本的には、二台のパソコンで業務をこなし、会社ごとに使うマシンを決めておく。会議はできるだけ手短に効率的に運用し、存在感を印象づける行動を取る。どうしても二つの会議が重なるときは、丁寧に断ることを推奨している。

何故こんなことが可能になるのか

ワークスタイルが柔軟なシリコンバレーであるが、二社を掛け持ちする正規社員が出現したことは驚きをもって受け止められている。コロナでリモートワークが始まった当初は緊張感をもって仕事を進めてきたが、このワークスタイルが定着した今は社員の印象が希薄になり、管理職の目が届きにくくなっている。対面で会ったことのない社員が増え、人間関係が疎遠になっていることが原因の一つとされる。

二重勤務できる企業とできない企業

また、二重勤務に向いている企業と避けるべき企業がある。二重勤務が可能となるのは安定した大企業で、厳しいアウトプットが求められないところが多い。更に、仕事の内容が明確に定義されているテック企業が適している。また、銀行など金融関連企業も候補になる。反対に掛け持ちできないのはスタートアップで、社員の数が少なく、仕事の成果が厳しく評価される。また、GAFAMなど大手テックはリモートワークのルールが明確に規定されており、二重勤務することは難しいとしている。

出典: Overemployed  

二重勤務に移行するパターン

実際にどれだけの人が二重就職しているかについての統計情報は無いが、この形態が徐々に増えつつある。いきなり二社に就職するのではなく、転職する際に会社を辞める前に、次の会社の勤務を開始し、トライアルで掛け持ちするケースが増えている。実際にダブルで仕事をしてみて、上手くいくことが分かると、本格的に二重就職するパターンが多い。二重就職が発覚すると、就労規定に抵触するため解雇になり、危険と隣り合わせのワークスタイルといえる。

二重勤務を容認する?

これから企業の管理職は二重就職社員を見抜くスキルが求められる。一方で、労働力不足が深刻なシリコンバレーで、テック企業は優秀なエンジニアを雇い入れることに苦慮している。今後、二社掛け持ちのワークスタイルを容認する企業がでてくるのか動向を注視する必要がある。