Teslaは完全自動運転車を年内に投入すると表明、AIがクルマを運転する仕組みと解決すべき課題も判明

Tesla CEOのElon Muskは中国・上海で開催されたAIイベントで、完全自動運転車を今年末までにリリースすることをビデオメッセージで表明した。これは「Full Self-Driving」と呼ばれ、レベル5の自動運転機能で、ドライバーの介在無しにクルマが自律的に走行する。また、これを支えるAIについて、基本機能は問題ないが、まだ解決すべき課題があることも明らかにした。

出典: Tesla  

自動運転車の方式

自動運転技術は完成度が上がり、無人走行の試験が進んでいるが、クルマはどこでも走れるわけではない。自動運転車は事前に定められた域内だけで運行できる設計で、域外では自動走行できない。これに対しTeslaは、AIが人間のドライバーのように視覚(カメラ)の映像だけでハンドルを操作し、初めての街でも自律的に走行できる。これを支えているのが高度なAIでその構造と課題が明らかになった。

Waymoのアプローチ

Waymoなど多くの自動運転車はLidar(レーザーセンサー)とカメラを組み合わせて周囲の状況を把握する。更に、走行前にその地域の詳細なマップ(Base Map)を作成しておき、クルマはこれに沿って自動走行する。マップは仮想レールともいわれ、クルマは事前に定められたコースを忠実に走行する。

Teslaのアプローチ

これに対して、Teslaはカメラだけで自動運転機能を実現する極めて先進的なアプローチを取る。また、詳細マップは不要で、AIが人間のドライバーのように、初めての街でも運転できる。つまり、メーカーはクルマを販売するだけで、詳細マップの開発や更新は不要となり、事業規模を制約なしに拡大(Scalability)できる。Teslaは自動運転車事業を成功させるためにはこのアプローチしかないと主張する。

Teslaの自動運転技術

Teslaは「Autopilot」と「Full Self-Driving」の二種類の自動運転機能を提供している。Autopilotは運転支援機能で、ドライバーに代わりソフトウェアがクルマを制御する。クルマは周囲の車両の速度に合わせて走行し、車線を認識しレーンをキープする。Autopilotは限定的な自動運転機能で、ドライバーは両手をステアリングに添えておく必要がある。Autopilotはすべての車両に搭載されている。

Full Self-Driving

Full Self-Drivingは高度な自動運転機能で、高速道路や市街地を自動で走行する。高速道路では、入り口から出口まで自動走行し(Navigate on Autopilot)、車線変更も自動で行う(Auto Lane Change)。また、自動で駐車する機能や、駐車場からドライバーのところに自動で移動する機能もある(Smart Summon)。更に、市街地においては信号を認識し、自動で走行する。これは「Autosteer on City Streets」と呼ばれ、完全自動運転車の中核機能となる(下の写真)。この機能は2020年末までにリリースされる予定で、これでレベル5の完全自動運転車が完成する。

出典: Tesla  

完全自動運転車がデビュー

市販されているクルマはFull Self-Drivingに必要なセンサーやプロセッサ(FSD Computer)を搭載しており、ソフトウェアのアップデートで完全自動運転車となる。クルマを購入する際にFull Self-Drivingを選択するとこの機能を使え、価格は8,000ドルに設定されている。Full Self-Drivingのリリース時期は当初の予定から遅れたが、ついに年内に製品が登場する見込みが濃厚となった。他社が苦戦する中でTeslaが先行して完全自動運転車を市場に投入することになる。

【技術情報:Full Self-Drivingの仕組みと課題】

システム全体の構造

Teslaは自動運転システムについて明らかにしており(下の写真、左側)、AIのアルゴリズム教育から実行までを統合して実行する。市販車両はカメラで路上のオブジェクトを撮影するが、これらはデータベース「Data」に集約される。これを使ってアルゴリズムを教育(「Dojo Cluster」と「PyTorch Distributed Training」)し、その結果を検証「Evaluation」する。教育されたアルゴリズムはオンボードコンピュータ「FSD Computer」に実装されクルマを制御する。これに加えもう一つのAIがこの背後で稼働し、密かに自動運転の訓練を積んでいる(Shadow Mode)。

出典: Tesla  

ニューラルネットワークの構造

ニューラルネットワークは「HydraNet」と呼ばれ、カメラが撮影した映像を解析する。HydraNetは共通機能「Shared Backbone」に特定機能を搭載した構造となる(上の写真、右側)。共通機能はイメージ判定ネットワーク(ResNet 50)で構成され、ここでオブジェクトの種別を判定する。この情報を元に、特定機能がオブジェクト判定(Objects)や信号機の読み取り(Traffic Lights)などを行う。共通機能に複数の特定機能が首のようについており、その形が妖怪ヒドラに似ていることから、HydraNetと呼ばれる。

ニューラルネットワークの機能

HydraNetは道路周辺のオブジェクトを認識し、信号機や車線などを把握する。クルマはこの情報を元にレーンをキープし、赤信号で停止する。HydraNetは単体で使われるだけでなく、複数のネットワークを組み合わせ、複雑なタスクを実行する。例えば、二つのカメラが撮影した映像を二つのHydraNetで処理し、それを重ね合わせてオブジェクトを3Dで把握する(下の写真)。この他に、複数のHydraNetで道路のレイアウトを把握することもできる。

出典: Tesla  

AI専用プロセッサ

TeslaはAI処理専用プロセッサ「FSD Computer」(下の写真、左側)を独自で開発し、これをクルマに搭載し、AIを高速で処理する。このボードは二つのチップ「FSD Chip」を搭載し、チップにはAI処理装置「NPU」を積んでいる。クルマに搭載されているAIの数は多く、これらを処理するためには高性能AIプロセッサーが必要になる。クルマで48のニューラルネットワークが稼働し、1,000種類の判定結果(Tensor)を出力する。高速で走行するクルマはリアルタイムでこれらのAIを実行することが必須要件となる。

出典: Tesla  

クルマがオブジェクトを認識

クルマに搭載されたHydraNetは走行中にカメラが撮影した映像から、そこに映っているオブジェクトを判定する(下の写真、左側)。クルマや歩行者などの他に、道路の車線や道路標識などを把握する。このケースは一時停止標識「Stop」を検知した状況で、HydraNetが正しく道路標識を認識できるかがクルマの安全性に結び付く。

出典: Tesla  

アルゴリズム教育

このため、HydraNetは写真に写っている市街地の様々なオブジェクトを使って教育される。市販のクルマは搭載しているカメラで走行中に車線や道路標識や歩行者など数多くのオブジェクトを撮影し、これらの映像はTeslaのクラウドに送信される。Teslaは、写真に写っているオブジェクトの名称を付加し(上の写真、右側)、これを教育データとして使う。市販車両が撮影した大量の映像が教育データとして使われ、ドライバーはAI教育に寄与していることになる。

Data Engine

アルゴリズム教育では如何に多種類のデータを揃えるかでAIの認識精度が決まる。例えば、一時停止標識の見え方は様々で、街路樹に隠れて見えにくいケースや、夜間の暗がりで判別しにくいものがある(下の写真、左側)。Teslaは収集した映像の中から、異なるケースのオブジェクトを見つけ出すAI「Data Engine」を開発した。Data Engineは路上で起こりえる様々なケースを見つけ出し、アルゴリズムの判定精度を向上させる。

出典: Tesla  

データのロングテール

つまり、HydraNetの教育ではロングテールのデータを如何に大量に収集できるかで判定精度が決まる。クルマは走行中に考えられない事象に出くわす。トラックの荷台から椅子が落ち、クルマで犬を散歩させているシーン(上の写真、右側)に遭遇する。Data Engineはこれら非日常的なシーンを見つけ出し、これらのデータでアルゴリズムを教育すると、めったに起こらない事象にも対応できるAIが完成する。TeslaによるとAI開発の難しさはアルゴリズムではなく、これらロングテールのデータを揃えることにあるとしている。

Software 2.0

クルマのソフトウェアはAIとコーディングの部分で構成される。初期のソフトウェア(Software 1.0)はAIの判定結果を人間がC++でコーディングしてオブジェクトの意味を判断していた。最新のソフトウェア(Software 2.0)では、AIが独自でオブジェクトの意図を把握する。今ではソフトウェアに占めるAIの部分が大きくなり、入力から出力までプログラムの介在なく、AIが処理を担う方向に進んでいる。(下の写真、割り込みを検知する事例:Software 1.0ではルールをコーディングしてこれを検知(左側)、Software 2.0ではAIが事例を学習してこれを検知(右側)。)

出典: Tesla  

Bird’s Eye View Network

クルマが走行中に走行経路を予測するために専用のAI「Bird’s Eye View Network」が開発された。これは複数のカメラの映像(下の写真、上段)を繋ぎ合わせ、車線や道路の端や移動オブジェクトを把握し(下の写真、下段:青色が車線で赤色が道路の端を示す)、安全に走れるルートを算出する。クルマはこの解析データを元に走行する車線を決め、このネットワークが自動走行のブレインとなる。

出典: Tesla  

自動運転技術の最後の壁

Bird’s Eye View Networkの精度が自動走行できる範囲を決める。実社会には上の事例のようにシンプルな交差点だけでなく、複雑な交差点が多数存在する。人間でもうまく運転できない場所は多く、走行経路をニューラルネットワークが如何に正確に予測できるかがカギとなる。こがTeslaの自動運転技術開発の大きな壁となり、これを乗り越えないと完全自動運転車は完成しない。AIがカメラだけで道路の形状を認識、走行経路を算定できるのか、学術研究のテーマとしても大きな意味を持っている。このため、Teslaは大学に呼びかけ、共同研究を通じブレークスルーを目指している。

Lidar対カメラ

自動運転車のアーキテクチャは二つに分かれ、WaymoのようにLidarを使う方式と、Teslaのようにカメラを使う方式になる。前者が主流でクルマはLidarとカメラを併用して自動走行を実現する。一方、Teslaは独自の道を歩み、カメラだけでこれを実現する。ハードウェアの助けを借りないでソフトウェアでこれを実現するもので、AIの開発成果が成否を握る。この方式が成功すると、製造コストは劇的に下がり、自動運転車が幅広く普及することとなる。Teslaはハイリスク・ハイリターンなルートを進んでいる。