最新のビデオゲームを見るとシーンが余りにもリアルで写真と区別がつかない。精巧に描写されたビデオゲームを自動運転車開発に利用するアイディアが登場した。長い年月をかけ市街地で走行試験を重ねる代わりに、ビデオゲームに描かれる街中を走りAIアルゴリズムを開発する。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun
インテル研究所などが開発
この技法を開発したのはIntel Labs (インテル研究所) とDarmstadt University (ダルムシュタット大学) で、ビデオゲームを使って自動運転車を教育する。この研究ではビデオゲーム「Grand Theft Auto」が使われた。これは三人組がクルマで市街地を走り犯罪を重ねるビデオゲームで、ここから抽出したフレームでアルゴリズムを教育する。上のグラフィックがその事例で、雨が降る市街地を描写しているが現実世界と区別がつかない。この成果は論文「Playing for Data: Ground Truth from Computer Games」として発表された。
Deep Learningが自動運転技術を支える
自動運転技術開発で成否のカギを握るのがクルマ周囲のオブジェクトを正確に把握する技法だ。自動運転車は搭載しているカメラで周囲を撮影し、そこに何が写っているかを判定する。カメラがクルマの眼となり、乗用車、バス、歩行者、自転車、信号機、歩道、道路などを認識する。AIの一技法であるDeep Learningが自動運転技術を支える。
オブジェクトを識別する方法
AIがビデオからオブジェクトを識別するには二つの手法がある。一つは「Object Detection」と呼ばれ、写真に写っているオブジェクトを箱で囲って示す。オブジェクトの位置と大きさを示すとともに、その区別を表示する。もう一つは「Semantic Segmentation」と呼ばれ、写真の中のオブジェクトをピクセルレベルで表示する。オブジェクトの区別は色分けして示される。
Semantic Segmentationの事例
下の写真がSemantic Segmentationの事例で、左側の写真を処理すると右の側のグラフィックスとなる。道路、自動車、歩行者、建物などのオブジェクトが色分けして示される。前者より高度な技術で、自動運転車は進行方向に何があるのかを理解でき、ナビゲーションの信頼度が大きく向上する。(下の事例はUniversity of Cambridgeの研究成果で、写真をアップロードするとその意味を色分けして表示する。)

出典: VentureClef / University of Cambridge
自動運転技術開発のプロセスと障害
自動運転車が走行する時には、カメラで撮影したイメージを車載システムに入力しリアルタイムで周囲のオブジェクトを把握する。クルマがこの判定をできるようになるためには、事前にアルゴリズムを教育しておく必要がある。教育のためには大量の写真が必要となり、自動運転車は街中を走り回り、走行の様子をビデオで撮影する。次に、撮影された写真に写っているオブジェクトを人間が手作業で名前付けをする。つまり、写真と名前付けされたグラフィックス (上の写真の関係) から成る基準データ (Ground Truth) を整備するという大作業が発生する。これが自動運転車開発で大きな障害となっている。
効率的に教育データを生成する手法
Intel Labsらはこの作業をビデオゲームで行うことで効率的にアルゴリズムを教育する手法を開発した。ビデオゲームから抽出したフレームでSemantic Segmentationする技法である。実際にこの技法を使ってSemantic Segmentation処理をしたものが下のグラフィックスである。入力したフレームは先頭の写真で、色がオブジェクトのクラスを示し、ピクセルレベルで処理されているのが分かる。道路は紫色、建物はレンガ色、空は灰色、乗用車は群青色、トラックは水色、バスは桃色などで示されている。クルマは目の前のオブジェクトの意味が分かり、安全に走行できる経路を見つけ出す。この技法では一枚のイメージを処理する時間は平均で7秒と極めて短いのが特長。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun
ビデオゲームのフレームを大量に使う
この研究ではビデオゲームから25,000枚のフレームが抽出された (下の写真はその一部)。ビデオゲームはロスアンジェルスをモデルにしている。カリフォルニアの太陽が降り注ぐ昼間だけでなく、様々な気象条件のフレームが使われた。雨が降り注ぐ幹線道路や雨上がりの交差点のフレームが使われた。また、霧が立ち込めたシーンなども登場する。
想定しうるすべての環境を学習
幹線道路だけでなく、商店がひしめき合う路地裏の狭い道路のフレームも使われた。更に、一日のうち異なる時間帯のフレームが使われた。夜間にヘッドライトを点けたクルマが行きかうシーンや、夕方に空が赤く染まったフレームなどが使われた。自動運転車にとってはオブジェクトの識別が難しい条件である。人間は初めて走る道路でも運転できるが、アルゴリズムは想定しうるすべての環境を学習する必要がある。
人間との共同作業
システムはイメージをすべて区別できる訳ではない。Semantic Segmentationで色付けできるところと、できないところが混在する。このため専任スタッフがマニュアルで名前付けをする。システムは名前が付けられるとそれを学習し、次のフレームから自分で名前を付けることができるようになる。システムは学習を重ね、オブジェクトを判定し名前付けができるようになる。
ビデオゲームを使った教育技法に大きな期待
アルゴリズムをビデオゲームで教育できることが示された。ただ、ビデオゲームだけで教育するにはまだ制約もある。ビデオゲームのフレームだけでアルゴリズムを教育するとオブジェクトの認識率は43.6%とあまり高くない。そこで、実際に市街地を撮影した写真をミックスして教育すると認識率は65.2%と大きく向上した。写真だけで教育した方法の精度を上回り、ビデオゲームを使った教育技法に大きな期待が寄せられている。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun
フレームだけでなく一連の動きを把握
論文は研究のロードマップについても言及している。今回の成果はビデオで捉えたイメージからオブジェクトを判別する技術「Class-Level Segmentation」を示している。次のステップではフレームを重ね、動画の中でオブジェクトを判定する。更に、オブジェクトの判定だけでなく一連の動きが持つ意味「Instance-Level Segmentation」を抽出する。つまり、路上で自転車を把握するだけでなく、ライダーが右腕を水平に上げると、それは右折するというサインであることを把握する。アルゴリズムは他車や人の行動の意味を理解できるようになる。
AIは犯罪行為を学習するのか
Grand Theft Autoという犯罪を繰り返すアクションゲームで運転技術を学習すると、自動運転車はこの環境にバイアスした認識能力を獲得すると懸念される。クルマが赤信号の交差点を猛スピード横切るシーンが頻繁に登場するが、違法行為をどうフィルタリングするかなどが課題となる。
高度に進化したビデオゲームを利用する
一方、Grand Theft Autoはゲーマーが街のシーンを自由に設定できる。気象条件や時間帯だけでなく、都市部、郊外部、工業地帯など、ゲーム環境を自由に設定できる。クルマが道にあふれるニューヨーク都市部や、霧が立ち込めて運転しにくいサンフランシスコなどを簡単に再現できる。雨が降る街での走行試験のためにKirkland (ワシントン州) に出向く必要はなくなる。高度に進化したビデオゲームが自動運転車のシミュレーション環境として注目されている。