カテゴリー別アーカイブ: 人工知能

Facebookは創設以来最大の危機に直面、安全より利益を選択、アルゴリズムが有害な情報を配信し閲覧数を増やす

Facebookは創業以来最大の危機に直面している。Facebookの内部告発者がアメリカ連邦議会公聴会で証言し、アルゴリズムの危険性を訴えた。Facebookは有害情報を発信すると閲覧回数が増えることを理解しており、利用者の安全を犠牲に利益を上げる手法を選択したと証言。一方、Facebookは、この解釈は正しくなく、アルゴリズムの改良で有害記事が減り、友人や家族からの記事が増えたと反論。連邦政府は、アルゴリズムの公開も含め、ソーシャルメディアに関するルールを制定する方向に動き始めた。

出典: C-SPAN

アメリカ連邦議会公聴会

10月5日、アメリカ連邦議会上院の公聴会「Senate Commerce Subcommittee on Consumer Protection」で元Facebook社員であるFrances HaugenがFacebookのビジネス手法について証言した(上の写真)。公聴会はインターネットから子供を守ることを目的に開催され、Haugenは、FacebookはInstagramが子供の健康を害していることを把握しているが、企業の利益を優先して有害なコンテンツを送り続けていると証言。このビジネス慣行は容認できるものではなく、ソーシャルネットワークを規制する法令の制定を訴えた。Haugenは議員からの質問に答える形で、Facebookの技術内容を説明し、子供をターゲットとする手法やアルゴリズムの概要などを明らかにした。

内部告発の背景

HaugenはFacebookでProduct Managerとしてアルゴリズムの開発に従事してきた。Haugenは退社する前に、大量の内部資料をコピーして報道機関Wall Street Journalに提供し、同紙がこれをベースに告発記事を書き、Facebookの問題が表面化した。更に、これら内部資料は米国証券取引委員会と米国連邦議会に提出されている。Haugenの証言はこれら大量の社内データに基づき、Facebookのビジネス慣行の詳細が明らかになった。

Instagramは少女に有害

HaugenはInstagramが若い女性に有害である点を中心に証言した。Facebookは内部調査でInstagramが子供の健康を害することを把握しているが、この事実を隠匿し、有害なコンテンツの配信を続けていると指摘した。具体的には、英国における調査で、女性ティーンエイジャーの13.5%はInstagramを使い始めてから自殺を考えるようになった、という問題が明らかになった。また、別の調査で、女性ティーンエイジャーの17%はInstagramを使い始めてから摂食障害を引き起こしたことも判明。更に、身体の容姿にコンプレックスがある少女の32%は、Instagramを見ると精神状態が悪化したことも報告されている。

出典: Instagram

アルゴリズムの危険性

これらの問題はコンテンツを配信するロジックを規定するアルゴリズムにある。Facebookはアルゴリズムを使って読者に最適なコンテンツを配信する方式を取る。このアルゴリズムは「Engagement Based Ranking」と呼ばれ、どのような内容のコンテンツを配信するかを決定する。Facebookは友人や家族間でコミュニケーションが増進するコンテンツを配信する方式を採用している。これは「Meaningful Social Interactions(MSI)」と呼ばれ、読者がコンテンツに対してリアクションするものを優先して配信する。具体的には、読者がクリックしたり、いいねボタンを押したり、他者と共有するコンテンツを配信する。アルゴリズムは読者がどんどんシェアしてくれるコンテンツを中心に配信する。

アルゴリズムの評価

つまり、アルゴリズムはMeaningful Social Interactions(MSI指標)が向上するよう設定されている。実際には、Facebookでは多数のアルゴリズムが稼働しており、それぞれのアルゴリズムの設定を変更して、コンテンツがシェアされる回数が増えるように調整される。アルゴリズムでMSI指標を上げると、より多くのコンテンツがシェアされ、ページビューが向上し、収益が上がる構造となる。つまり、FacebookとしてはMSI指標を向上することが究極のゴールで、これにより事業が拡大し収益があがる。

ヘイトスピーチが増える

しかし、Facebookは内部調査で、MSI指標を上げると、その副作用として、ヘイトスピーチや偽情報や暴力を扇動するコンテンツが増えるという事実を把握した。アルゴリズムがこれら有害なコンテンツを配信すると、利用者のインタラクションが増え、その結果MSI指標が向上する。利用者の観点からは、有害なコンテンツに惹きつけられ、これらをシェアする回数が増え、ソーシャルネットワークで拡散することになる。アルゴリズムが有害コンテンツの拡散機となることを意味する。

出典: Facebook

安全より利益を選択

Facebookはこれらの事実を把握していたにも拘わらず、これを隠匿してMSI指標を高めてきた。MSI指標を上げると利用者に有害なコンテンツが配信され危険であるが、企業としてはページビューが増え広告収入が増える。つまり、Facebookは危険性を隠匿し、利用者の安全より企業の収益を優先させることを選択した。

AIが未熟

同時に、Facebookはヘイトスピーチなど有害なコンテンツをAIで検知し、これらを削除する研究を進めているが、技術は未熟でこれらを正確に検知することができない。2021年の夏に、Facebookはコロナウイルスに関する偽情報をAIでフィルタリングする試験を実施した。その結果、検知精度は80%から90%で、多くのコンテンツがフィルターをすり抜けた。このAIは英語のコンテンツを対象とし、他の言語には対応できていない。

出典: Facebook

Facebookの反論

公聴会での証言を受けて、Mark Zuckerbergはメッセージを発信し、Haugenの主張は間違っていると反論した。議論の核心はFacebookが安全より利益を優先しているとの主張で、これは完全に間違いだと述べている。具体的には、FacebookはMSI指標を導入したが、その結果有害ビデオ(Viral Videos)が減り、友人や家族からのコンテンツが増えたと説明。また、Facebookは意図的に有害コンテンツを拡散しているとの主張に対し、Facebookは広告でビジネスを構築しており、企業は有害コンテンツには広告を掲載しないと反論した。Instagramに関しては、子供たちにスマホが普及しており、これを制限するのではなく、子供たちのニーズに沿って安全な機能を提供することがFacebookの役割と説明した。

ルールの制定

Haugenは公聴会で証言した目的は議会にソーシャルメディアに関するルールの設定を促すためと述べている。同様に、ZuckerbergはFacebookのような企業がコンテンツ選別に関す決定を下すのではなく、政府が法令を改定して新しい時代に沿ったルールを制定すべきと発言している。HaugenもZuckerbergも政府がソーシャルネットワークを規制する法令を制定すべきという点では共通の理解を持っている。

Facebookの転機

早くからソーシャルネットワークの危険性が指摘されてきたが、Haugenによる証言でアルゴリズムなどシステムの詳細が明らかになり、Facebookの問題の本質が見えてきた。Facebookはソーシャルネットワークでトップのシェアを持つが、利用者数は伸び悩み事業拡大が難しくなっている。Facebookは有害コンテンツの拡散を押さえ、事業を拡大するという難しいかじ取りを迫られる。

Amazonは家庭向けロボットを投入、高度なAIを搭載し家の中を自動走行するが機能は限定的、5年後を見据えた開発の最初のステップとなる

今週、Amazonは発表イベントで家庭向けのロボット「Astro」を公開した(下の写真)。ロボットは子犬ほどの大きさで、頭部にディスプレイが搭載され表情を表し情報を表示する。ロボットはカメラの映像をAIで解析し、家の中で障害物を避けて自動で走行する。ベーシックな機能だけを搭載したロボットで、Amazonはこれを「Day 1 Editions」と呼ぶ。完結した製品になるまでには5年程度の時間が必要で、Amazonはロボットの普及に向け第一歩を踏み出した。

出典: Amazon

Astroの利用方法

ロボットはエンターテイメントとセキュリティを目的に開発された。ロボットは”移動式AIスピーカー”という構成で、人間の言葉を理解してタスクを実行する。ロボットに指示するときは、「Astro」と呼びかける。「Astro, call Mom」と指示すると、ロボットはお母さんに電話してビデオで通話する(下の写真、左側)。ロボットは利用者をフォローする機能があり、家の中で移動しながら通話できる。また、「Astro, Take this to Alicia」と言えば、飲み物を指示した人物に届ける(中央)。ロボットは顔認識機能があり、人物を見分けることができる。更に、「Astro, remind Lucas…」と言えば、指示した人物にリマインダーを送信する(右側)。

出典: Amazon

セキュリティ機能

一方、住人が不在の時はロボットが警備員となり家の中をパトロールして安全を確認する。ロボットは潜望鏡を搭載しており、これを伸ばして先端のカメラで家の中を監視する(下の写真)。高い視点でモニターでき、キッチンのガスコンロがオフになっていることなどをモニターする。カメラが捉えた映像は利用者のスマホアプリに送信される。因みに、利用者はスマホアプリからロボットに監視する場所の指示を出す。

出典: Amazon

シニアの健康管理

ロボットの利用法で期待されているのがシニアの健康管理である。これは「Alexa Together」というサービスをロボットに適用したもので、離れて暮らす年老いた両親の健康状態をモニターする(下の写真)。異常があればロボットは遠隔地にいる管理者にアラートを送信する。また、本人にかわりショッピングリストを生成し、リマインダーを送信するなどの機能もある。ロボットが介護士となり家の中でシニアの健康状態をモニターする。

出典: Amazon

ナビゲーションシステム

ロボットは高度なAIを搭載しセンサーの情報を解析し部屋の中を自動で走行する。これは「Intelligent Motion」と呼ばれ、ロボットのナビゲーションシステムとなる。ロボットは三セットのセンサー「Navigation Sensors」、「Obstacle Sensors」、「Depth Sensors」を搭載し、これをAIで解析して移動ルートを算出する。また、ロボットはSimultaneous localization and mapping (SLAM)という技法で、家の中のマップを生成し、現在の位置を把握する。(下の写真、SLAMの手法で生成された3Dマップでロボットはこれをベースに走行ルートを決定する。)

出典: Amazon

多種類のセンサー

ロボットは三種類のセンサーを使い家の中を自律走行する。マップ生成においては「Navigation Sensors」が使われる。このセンサーは家の中のランドマーク(テーブルの角やドアのフレームなど)を把握し、マップにこの情報を組み込む。ロボットが家の中を移動する際の目印として利用する。一方、「Obstacle Sensors」はロボットの目の前のオブジェクトを把握し、近傍のマップを高精度で生成する。このほかに「Depth Sensors」は人物を把握するために使われる。(下の写真、Navigation SensorsとObstacle Sensorsはロボット本体正面に搭載されている。Depth Sensorsはディスプレイ上部に搭載されている。)

出典: Amazon

自動走行の仕組み

生成されたマップでロボットは目的地に移動するための最適なルールを算出する。アルゴリズムは数百のルートを検証し、そこから最適なものを選ぶ(下の写真)。AIは長期的な経路(下の写真、青色の線)と短期的な(2-3秒先の)経路(緑色の線)を算出する。更に、自動運転車とは異なり、家の中では決められたレーンは無く、また、床に物が置かれるなどして経路が塞がれる事象が発生する。周囲の状況は頻繁に変わり、その都度、アルゴリズムがルートを再計算し、新しい環境に適応する。

出典: Amazon

人間とのインタラクション

ロボットは人間とモノを見分けることができ、人間に対しては礼儀正しい対応をする。ロボットは人間に合わせた速度になり、また、社会的に適切なインタラクションを行う。具体的には、ロボットは人間に接するときは、正面からアプローチし、最適な距離を取って停止する。また、ソファに腰かけている時は、隣に停止するなどのアクションを取る(下の写真)。人間に接するときは、「Navigation Sensors」と「Depth Sensors」が使われ、優雅な動作で対応する。

出典: Amazon

Amazonがロボットを開発する理由

高度なAIで構成されるAstroであるが、その利用形態はエンターテイメントやセキュリティに限られる。ロボットはアームを搭載しておらず、冷蔵庫を開けてビールを届けるなどのタスクはできない。また、洗濯物をたたみ、部屋を掃除するなどの家事が出来るわけでもない。Astroはロボットとしての最小限の機能だけで、利用方法は限られる。Amazonはこれを認識したうえでAstroを投入し、これをDay 1 Editionsと呼び、ベータ版であることを強調している。Astroの販売価格は999.99ドル(導入価格)で年末から出荷が始まる。Amazonは5年から10年後には家庭にロボットが普及する時代になると予測しており、Astroの開発はこれに向けた第一歩となる。

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。

Teslaは世界最高速のAIプロセッサを発表、自動運転車開発でメーカーがAIスパコンを開発し垂直統合が進む

TeslaはAIイベント「AI Day」で自動運転車開発の最新状況を公開した。自動運転の中核技術は高度なコンピュータビジョンで、これを開発するためにはAIスパコンが必要となる。TeslaはAIプロセッサを開発し、これをベースに独自のAIスパコンを構築した。更に、自動運転技術をロボットに応用したヒューマノイドを開発することを明らかにした。

出典: Tesla

発表概要

Teslaの自動運転技術は「Full Self-Driving(FSD)」(上の写真)と呼ばれ、他社とは異なり、カメラだけでクルマが自律走行する。AIはカメラの映像を解析し周囲のオブジェクトを把握するが、ニューラルネットワークの規模が巨大になり、また、アルゴリズムを教育するために大量のデータを必要とする。このため、Teslaは独自でAIプロセッサ「D1 Chip」を開発し、アルゴリズム教育を超高速で実行する。自動車メーカーがスパコン開発まで手掛け、自動運転車で垂直統合が進む。

AI専用スパコン

TeslaはAI専用プロセッサD1をベースとするAIスパコン「ExaPOD」を開発した(下の写真)。このシステムはアルゴリズムの教育などで使われ、一般に「Dojo Supercomputer」と呼ばれる。現在は、GPUをベースとするAIスパコンを運用しているが、これを独自半導体D1 Chipで構成する。最大性能は1.1 ExaFlopsで、世界で第五位の処理能力を持つスパコンとなる。Teslaは既に、独自技術で車載プロセッサ「FDS Chip」を開発しており、クルマでアルゴリズムを実行するために使われている。今回発表のD1 Chipは超高速のプロセッサで、ExaPODでアルゴリズム教育などで使われる。

出典: Tesla

AIプロセッサ

AIプロセッサD1 Chipは354の計算ユニット(Training Node)から成るプロセッサで、最大性能は362 TeraFlopsとなる(下の写真)。計算ユニットはマトリックス計算とベクトル計算機構を備え、ニューラルネットワークの教育に最適のアーキテクチャとなる。従来は、Nvidia GPUを使っていたが、TeslaはAI処理に特化したD1 Chipを独自に開発した。

出典: Tesla  

AIプロセッサの性能比較

D1 Chipの特徴は他のチップと高速でデータ通信できることで、このクラスで最大の能力を持つ。D1 Chipはデバイスの周囲に通信機構(I/O Ring)を搭載し、他のチップとデータを送受信する。D1 Chipの通信性能が高いため、数多くのチップと連結でき、スパコン大規模なスパコンの開発可能となる。(下のグラフはAIチップの処理性能を示している。横軸が演算性能で縦軸が通信速度。GoogleのTPUやGPUに比べ通信性能が高いことが分かる。)

出典: Tesla  

ボードの構造

D1 Chipはボード「Training Tile」(下の写真)に搭載される。ボードには25個のD1 Chipが搭載され、他のボードと高速でデータ通信する。更に、このボード6枚をラックに搭載し、これを24ユニット使い、AIスパコン「ExaPOD」が構成される。つまり、ExaPODは3000個のD1 Chipを搭載し、最大性能は1.1 ExaFlopsとなる。

出典: Tesla  

コンセプト

TeslaはLidarを使わないでカメラだけで自動運転できる技術を開発している。カメラの映像をAIで解析することでクルマが自動走行する。コンピュータビジョンが視覚となり、クルマは動物のように、周りの状況を判断して安全なルートを走行する。クルマは8台のカメラを搭載し、これをAIで解析して周囲のオブジェクトを把握する。

出典: Tesla

自動運転AIの構造

上のグラフィックスはAIのアーキテクチャを示している。それぞれのカメラの映像をCNNで解析し特徴量を把握する(下段の部分)。これをTransformerで融合し、周囲を見渡せる3Dモデルを生成する。3Dモデルはベクトル空間(Vector Space)として構成され、クルマは周囲の状況を3Dで把握するだけでなく、その意味を理解する。更に、AIは過去のオブジェクトを“記憶”する機能を持ち、視界が遮られても周囲の状況を把握できる。(下のグラフィックス、ピックアップトラックがクルマの視界を遮ってもRNNは背後に二台のクルマがいることを覚えている(赤丸で囲った部分)。)

出典: Tesla

スパコンが必要な理由

Teslaが開発しているAIモデルは巨大で、更に、このニューラルネットワークを大量のデータで教育する必要がある。ニューラルネットワークのパラメータの数は数億個といわれ、自動運転車の開発は巨大AI開発でもある。Teslaは市販車両のカメラで撮影した映像をクラウドに集約しており、これが教育データとして使われる。大量の教育データを保有していることがTeslaの強みとなる。巨大なニューラルネットワークを大量のデータで教育するためにはAIスパコンが必須となる。

ロボット開発を開始

イベントの最後にMuskはヒューマノイドロボット「Tesla Bot」(下の写真)を開発することを明らかにした。自動運転車のカメラやAIをロボットに適用することでヒューマノイドを開発し、来年、プロトタイプの完成を目指す。ロボットは繰り返し作業など人間が嫌がるタスクを実行し、買い物に行くなどの利用法が示された。ただ、実際にロボットが完成するかどうかについて、Muskは難しいとの見解を示している。つまり、ロボット開発はMusk流のマーケティング手法で、市場の注目を集め、優秀なエンジニアを雇い入れることが目的との解釈もある。

出典: Tesla

Autopilotの事故が続く

Teslaは運転支援技術「Autopilot」で事故が続き、その対応に苦慮している。Autopilotで自動走行中に停車中の緊急車両に衝突する事故が11件続き、連邦政府(National Highway Transportation and Safety Administration)は調査を開始した。事故は夜間に発生しており、コンピュータビジョンの精度が調査の対象となる。AutopilotのAIに疑問が呈された形となり、Teslaはカメラだけで安全に走行できることを早期に実証する必要性に迫られている。