月別アーカイブ: 2017年12月

移動式スーパーマーケットが登場、店舗がクルマになり無人運転で自宅にやって来る

シリコンバレーで移動式のスーパーマーケットがデビューした (下の写真)。店舗がクルマに搭載された形だが、人は乗っておらず自動運転で街中を移動する。Amazon Goのような無人店舗が、Waymoのような自動運転車と合体した構造だ。買い物は、スーパーマーケットに出向くのではなく、消費者がスマホで店舗を呼ぶ時代になった。

出典: Robomart

移動式スーパーマーケット

このシステムは「Robomart」と呼ばれ、無人車両に商品を搭載した形で、街中を自動走行で巡回する。消費者はアプリで配車をリクエストすると、Robomartが自宅までやって来る。Robomartが道端に停車し、ドアが開き、車内に陳列された商品を買うことができる。商品は生鮮食料品、パン類、調理品などが対象となる。RobomartはSanta Clara(カリフォルニア州)に拠点を置く同名のベンチャー企業Robomartが開発した。

ショッピングの仕方

多くのRobomartが街中を巡回しており、消費者は専用アプリでクルマをリクエストする (下の写真、左側)。そうすると、近くを巡回しているRobomartがリクエストに応え自宅までやって来る。消費者はRobomartのドアを開け、並べられている商品から希望のものを取り出す。Robomartは取り上げられた商品を自動で認識し、登録されているカードに課金する (下の写真、右側)。

出典: Robomart  

商品棚の構造

Robomartの中は商品棚となっている (下の写真)。ここに生鮮食料品などが並べられる。棚には値札が付いており商品名と値段が表示される。「Tomatoes $0.92 each, 13/oz」などと記載され、トマト一つが92セントであることが分かる。量り売りの機能は無いためか、商品は一個当たりの料金になっている。棚にはカメラが設置されており、取り出された商品を把握し、クレジットカードに課金する。ここに、冷蔵庫や保温機などを搭載できるとしている。

出典: Robomart  

自動走行技術

Robomartは完全自動運転車でLevel 5の走行技術を持っている。屋根の上にはLidar (レーザーセンサー) を搭載し、周囲のオブジェクトを認識する。この他にカメラとレーダーを搭載しており、信号機や道路標識を把握し、障害物を検知する。これは「Sensor Fusion」という方式で、複数のセンサーで捉えた画像を解析し安全な経路を算定する。事前に、走行する領域の3Dマップを生成しておく。走行時には3Dマップを参照し、ピンポイントに位置を決定し、走行経路を計算する。Robomartは既にプロトタイプを製造し、シリコンバレーで試験走行を計画している。

EVとワイアレス充電

Robomartはバッテリーで稼働するEVで、走行距離は80マイルで、最大速度は時速25マイル。Robomartは専用ステーションでワイアレスで充電する。これはHEVO Power社の技術が使われ、プレートの上にクルマを停めるだけで充電できる。HEVO Powerを使ったシステムはまだ市場に出ていないが、Waymo自動運転車がこの技術を採用すると噂されている。

ビジネスモデル

Robomartは小売店舗に車両をリースする形で事業を展開する。小売店舗はRobomart使って生鮮食料品などを販売する。つまり、小売店舗は販売チャネルを拡大するためにRobomartを導入すると期待される。また、小規模事業者にとっては事業拡大のチャンスでもある。新規に出店するにはコストがかかり過ぎるが、Robomartを導入するのであれば手軽に事業を拡大できる。

遠隔で監視する

Robomartは自動で走行するが、運行状態については各店舗のオペレーターが遠隔で監視する (下の写真)。オペレーターはRobomartの配車リクエストや走行経路をデスクトップでモニターする。また、品切れの際はRobomartを運用している小売店舗が商品を補充する。更に、遠隔通信機能があり、オペレーターは消費者と直接会話することができる。買い物で支障が出た時はオペレーターがサポートする。経路上で警察官とコミュニケーションが必要な時もこの機能を利用する。

出典: Robomart  

Nvidiaのインキュベーションプログラム

RobomartはNvidiaが運営する「Inception Program」で開発された。これは新興企業を育成するプログラムで、NvidiaのGPUやDeep Learning技術を使った先進的なAI技術開発を支援する。Nvidiaは自動運転技術開発環境として「Drive Platform」を提供している。自動車メーーカーはこのプラットフォームで自動運転技術を開発している。Robomartもこの環境を利用し、Nvidiaの自動運転専用プロセッサ「Drive PX」を使いこのシステムを開発した。

開発コンセプト

小売店舗はAmazonに対抗するため、オンラインショッピングを拡充し巻き返しを図っている。しかし、生鮮食料品のオンライン販売は売り上げが伸びていないという厳しい現実がある。消費者は野菜や果物など生鮮食料品については、自分の手に取って買い物をしたいという要求がある。また、生鮮食料品の宅配サービスは料金が高いことも売り上げが伸びない原因とされる。このような背景からRobomartが開発され、顧客は商品を手に取って買い物ができ、無人運用で配送コストを最小限に抑える。

課題もある

Robomartは画期的な構想であるが解決すべき問題も少なくない。サンフランシスコ市当局は配送ロボットが歩道を通行することを制限している。ロボットが歩道を無人走行すると、事故が起きる危険性が高いと判断しているためだ。Robomartが他の車両に交じり市街地を走行することに対し、当局がどのような判断を下すのか注視する必要がある。特に、家の前に停車して営業する形態で、交通への影響を査定し、買い物客の安全性を如何に担保するかが課題となる。

むしろ日本社会に向いているのか

Robomartは日本社会に適しているのかもしれない。日本は世界最速で高齢化が進み、買い物弱者が増え、その対策が求められている。Robomartを日本で展開すると、スーパーマーケットに買い物に行けない高齢者に、生鮮食料品や調理済み食材を配送できる。また、ドライバーが不足する中でRobomartがその代替手段となり、一般消費者向けにも需要が見込まれる。移動するコンビニとして新規顧客を獲得できる可能性を含んでいる。

Googleは画像認識を誤作動させるステッカーを発表、AIを悪用した攻撃への備えが求められる

社会の安全を担保するためにAIが活躍している。市街地や空港の監視カメラの映像をAIが解析しテロリストや犯罪者を特定する。一方、今年はAIを悪用した攻撃が広まると予想される。守る側だけでなく攻める側もAIを使い、社会生活が脅かされるリスクが高まると懸念される。

出典: Google

Googleの研究成果

Googleの研究グループはAIを誤作動させるステッカー(上の写真) を論文の中で公開した。このステッカーは「Adversarial Patch (攻撃ステッカー)」と呼ばれ、これを貼っておくと画像認識アルゴリズムが正しく機能しなくなる。ステッカーは円形で抽象画のようなデザインが施されている。これをバナナの隣に置くと、画像認識アプリはバナナをトースターと誤認識する。ステッカーを街中に貼っておくと、自動運転車が正しく走行できなくなる。

ステッカーを使ってみると

実際にステッカーを使ってみると画像認識アプリが誤作動を起こした。先頭のステッカーを印刷して、円形に切りぬき、バナナの隣に置いて画像認識アプリを起動した。そうすると画像認識アプリはバナナを「トースター」と誤認識した (下の写真、右側)。アプリにはこの他に「ライター」や「薬瓶」などの候補を示すが、バナナの名前はどこにも出てこない。バナナだけを撮影すると、画像認識アプリは「バナナ」と正しく認識する (下の写真、左側)。ステッカーは抽象画のようで、人間の眼では特定のオブジェクトが描かれているとは認識できない。

出典: VentureClef

画像認識アプリ

画像認識アプリとしてiPhone向けの「Demitasse – Image Recognition Cam」を利用した。これはDenso IT Laboratoryが開発したもので、画像認識アルゴリズムとして「VGG」を採用している。このケースではその中の「VGG-CNN」で試験した。VGGとはオックスフォード大学のVisual Geometry Groupが開発したソフトウェアで、写真に写っているオブジェクトを把握し、それが何かを判定する機能がある。VGG-CNNの他に、ネットワーク階層が深い「VGG-16」などがあり、画像認識標準アルゴリズムとして使われている。

ステッカーの危険性

画像認識機能を構成するニューラルネットワークは簡単に騙されることが問題となっている。多くの論文で画像認識アルゴリズムを騙す手法やネットワークの脆弱性が議論されている。Googleが公開した論文もその一つであるが、今までと大きく異なるのは、この手法を悪用すると社会生活に被害が及ぶ可能性があることだ。先頭のステッカーを印刷して貼るだけでAIが誤作動する。

自動運転車の運行に影響

その一つが自動運転車の運行を妨害する危険性である。自動運転車はカメラで捉えたイメージを画像認識アルゴリズムが解析し、車両周囲のオブジェクトを把握する。もし、道路標識にこのステッカーが貼られると、自動運転車はこれをトースターと誤認識する可能性がある。つまり、自動運転車は道路標識を認識できなくなる。Tesla Autopilotは道路標識を読み取り制限速度を把握する。このステッカーが貼られるとAutopilotの機能に支障が出る。当然であるが、道路標識にステッカーを貼ることは犯罪行為で処罰の対象となる。

Street Viewで番地が読めなくなる

自宅にこのステッカーを貼っておくとGoogle Street Viewによる道路地図作成で問題が発生する。Street Viewは位置情報をピンポイントに把握するため、建物に印字されている通りの番号をカメラで撮影し、画像解析を通し番地を把握する。番地プレートの隣にステッカーを貼っておくと、画像解析アルゴリズムはこれをトースターと誤認識する。ステッカーをお守り代わりに使い、自宅に貼っておくことでプライバシーを守ることができる。

ステッカーの作り方

Google研究チームは論文でステッカー「Adversarial Patch」の作り方を公開している。ステッカーは複数の画像認識アルゴリズムを誤作動させるようにデザインされる。ステッカーの効力は、デザインだけでなく、オブジェクトの中での位置、ステッカーの向き、ステッカーの大きさなどに依存する。(ステッカーの向きを変えると認識率が変わる。先頭の写真の方向が最大の効果を生む。ステッカーのサイズを大きくすると効果が増す。最小の大きさで最大の効果を生むポイントがカギとなる。オブジェクト全体の10%位の大きさで90%の効果を発揮する。)

ステッカーを生成するアルゴリズム

ステッカーは特別なアルゴリズム (Expectation Over Transformationと呼ばれる) で生成される。上述の条件を勘案して、ステッカーの効果が最大になるよう、ステッカー生成アルゴリズムを教育する。効果を検証するために代表的な画像認識アルゴリズム (Inceptionv3, Resnet50, Xception, VGG16, VGG19) が使われた。先頭のステッカーは「Whitebox – Ensemble」という方式で生成され、これら五つの画像認識アルゴリズムを誤作動させる構造となっている。この事例では「トースター」を対照としたが、任意のオブジェクトでステッカーを作成できる。

出典: Google  

画像認識アルゴリズムの改良が求められる

社会でAIを悪用した攻撃が始まるが、これを防御するには画像認識アルゴリズムの精度を改良することに尽きる。既に、画像認識クラウドサービスは高度なアルゴリズムを取り入れ、先頭のステッカーで騙されることはない。事実、Googleの画像認識クラウド「Cloud Vision」でステッカーを貼った写真を入力しても誤認識することはない (上の写真)。犬の写真に先頭のステッカーを貼っているが、アルゴリズムは「犬」と正しく判定する。回答候補にトースターの名前は出てこない。

エッジ側での処理

自動運転車だけでなく、ドローンやロボットも生活の中に入り、ステッカーを使った攻撃の対象となる。更に、農場ではトラクターが自動走行し、工事現場ではブルドーザーが無人で作業をする。これらは、画像認識アルゴリズムはクラウドではなく、車両やデバイス側で稼働している。これらエッジ側には大規模な計算環境を搭載できないため、限られたコンピュータ資源で稼働する画像認識アルゴリズムが必要となる。リアルタイムで高精度な判定ができる画像認識アルゴリズムと、これを支える高度なAI専用プロセッサの開発が必要となる。

AIを使った攻撃と防御

GoogleがAdversarial Patchに関する論文を公開した理由はAIを使った攻撃の危険性を警告する意味もある。AIを悪用した攻撃が現実の問題となり、我々はその危険性を把握し、対策を講じることが求められる。具体的には、画像認識アルゴリズムの精度を改良していくことが喫緊の課題となる。ただ、Adversarial Patchの技術も向上するので、それに応じた改良が求められる。スパムとスパムフィルターの戦いで経験しているように、いたちごっこでレースが続くことになる。これからは守る側だけでなく攻める側もAIを使うので、セキュリティ対策に高度な技能が求められる。

グーグルスマホ「Pixel 2」でAIチップが稼働、ARでスターウォーズをリアルに生成でき現実と仮想の境界が消滅

映画「スターウォーズ」がGoogleスマホ「Pixel 2」にやってきた。極めて精巧なキャラクターをビデオの中に取り込むことができる (下の写真)。街の中を銀河帝国軍の機動歩兵が歩き、上空をXウイング戦闘機が飛び交うビデオを撮影できる。今までのARとは比べ物にならない精度で、リアルなキャラクターがスマホで生成される。これを可能にしたのがスマホ向けAIプロセッサで、大規模な計算を瞬時にこなす。このプロセッサはAIエンジンとしても使われ、スマホはAIマシンであることが鮮明になった。

出典: Google

拡張現実アプリ

Googleは2017年12月、拡張現実アプリ「AR Stickers」を投入した。このアプリを使うと、ビデオや写真にオブジェクトやテキストをAR (Augmented Reality、拡張現実) として組み込むことができる。多くのスマホでARアプリを使えるが、AR Stickersの特長は高精度でARを実装していることだ。もはや現実と仮想の区別ができない。

銀河帝国軍の機動歩兵が動き出す

AR Stickersは様々なセットを提供しているが、一番人気は映画スターウォーズ最新作「Star Wars: The Last Jedi」のキャラクターである。このセットを選ぶと、映画に登場するキャラクターをビデオの中に取り込める。例えば、銀河帝国軍の機動歩兵「Stormtrooper」を選ぶと、ビデオの中に配置できる。撮影を始めるとビデオの中でStormtrooperが動き喋り出す(下の写真)。一人だけでなく複数のStormtrooperを配置でき、それぞれが独自に動く。これらの機動歩兵は極めてリアルに描写され、動きは滑らかで、現実のキャラクターと見分けがつかない。

出典: VentureClef

反乱同盟軍の戦闘機

反乱同盟軍の戦闘機「X-wing Fighter」を選ぶと、可変翼をX状に広げ空中をホバリングする。戦闘機は背景の明るさに調和し、地上にはその影を落とす。戦闘機を前から撮影するだけでなく、周囲をぐるっと一周して360度のアングルから撮影できる。戦闘機は背景に溶け込み、仮想イメージであるとは思えない。

出典: VentureClef

可愛いロボットBB-8

異なるキャラクターを組み合わせて使うこともできる。雪だるまのようなかわいいロボット「BB-8」を選ぶと、画面の中をころころと動き回る。ここにStormtrooperを加えると、二つのキャラクターがそれぞれ独自の動きをする。時に、二つのキャラクターが鉢合わせして、コミュニケーションが始まる (下の写真)。StormtrooperがBB-8に「向こうに行け」と指示しているようにも見える。

出典: VentureClef

宇宙戦闘機は極めてリアル

「TIE Fighter」を選ぶと、二つのイオンエンジン (Twin Ion Engines) で飛行する宇宙戦闘機が登場する。宇宙戦闘機はイオンエンジン特有の音を出して飛行し、時々レーザーキャノンで攻撃する。TIE Fighterに近寄ってアップで撮影すると、細部まで克明に描写されていることが分かる。機体についた傷や角の摩耗などが極めてリアルに描かれている (下の写真)。モックアップで撮影したとしか思えず、これが仮想のオブジェクトであるとは驚きだ。

出典: VentureClef

開発環境「ARCore」

これらはARアプリ開発プラットフォーム「ARCore」で開発された。GoogleはARCoreを公開しており、パートナー企業もこの環境でARアプリを作ることができる。ARCoreがサポートしているデバイスはGoogle Pixel、Google Pixel 2、及びSamsung Galaxy S8である。AR基礎技術はGoogleの特別プロジェクト「Tango」で開発された。今般、ARCoreが公開されたことで、Tangoはここに集約されることになる。

ARの仕組み

ARとは仮想コンテンツ (スターウォーズのキャラクターなど) を現実社会 (ビデオや写真) に組み込む技術を指し、ARCoreは三つのモジュールから構成される。「Motion Tracking」はARコンテンツの現実社会における位置を把握し、スマホでコンテンツをトラックする技術 (キャラクターの位置決め技術)。「Environmental Understanding」は現実社会でフラットな箇所を検知し、その場所と大きさを把握する技術 (平らな場所を検知する技術)。「Light Estimate」は現実社会における光の状態を把握する技術 (明るさを把握する技術)。

Motion Tracking

カメラが動くにつれ、ARCoreはConcurrent Odometry and Mapping (COM) というプロセスを実行し、カメラの位置関係を把握する。イメージの中の特徴的なポイント (Feature Point、下の写真で○印の個所) を把握し、それらがどのように変化するかをトラックし、空間の中でカメラの位置を把握する。ARCoreはこの動きとスマホの加速度計のデータを組み合わせ、カメラの位置とカメラの向き 「Pose」を把握する。GPSなどの位置情報が無くてもARCoreはピンポイントで位置を把握できる。

出典: Google  

Environmental Understanding

ARCoreは現実社会の中で平らな場所を検知する (下の写真でドットで示されたマトリックスの部分)。平らな場所とはFeature Pointが共通した水平面を持っているところで、これを「Planes」と呼ぶ。テーブルや床などの平らな部分がPlanesとなる。また、ARCoreはPlanesの境界を把握する。これらの情報がアプリに渡され、キャラクターが立つことのできる場所とその範囲を把握する。

出典: Google  

Light Estimate

ARCoreは現実社会の光の状態を把握する。具体的には、カメラで捉えたオブジェクトの平均的な光の強さを把握する。この情報をアプリに渡し、生成するオブジェクトをこれと同じ明るさにする (下の写真、明るい場所の猫は明るく描かれる)。これにより、生成したオブジェクトがリアルさを増し、背景のイメージに溶け込めるようになる。

出典: Google  

Anchors and Trackables

現実社会が理解できると、ARCoreはオブジェクトを生成しその中に置くこととなる。オブジェクトは現実社会に馴染み、自然な形で配置される。ARCoreは周囲の状況を把握しており、利用者はPosesを変えることができる。つまり、カメラを動かしオブジェクトの周囲を周回し、異なる方向から撮影できる。X-wingを周回し背後からも撮影できる (下の写真)。オブジェクトの周りを移動してもX-wingはホバリングを続け、アンカーで固定されているようにその場所に留まる。

出典: VentureClef

AI専用プロセッサ

高度なAR処理をPixel 2で実行できるのはAI専用プロセッサによる。Pixel 2は画像処理と機械学習のための専用プロセッサ「Pixel Visual Core」を搭載している。ARCoreはPixel Visual Coreで処理され、毎秒60フレームを生成し高精度な画像を創り出す。その結果、細部まで詳細に描かれたキャラクターが、画像処理の遅延時間はなくビデオの中を滑らかに動き、本物と見分けがつかなくなる。

ARアプリに先立ち、Pixel Visual Coreは写真撮影やAIで使われている。Pixel 2のカメラアプリは「HDR+」という機能を持ち、ダイナミックレンジの広い写真を撮影する。画像処理では大量の演算が発生するが、これらをPixel Visual Coreで高速実行する。

(下の写真、教会の中で薄暗い祭壇をHDR+で撮影すると、照明が当たっているように鮮明に描き出される。今まではHDR+処理に時間がかかり多くの電力を消費したが、Pixel Visual Coreでこの処理を瞬時に実行する。)

出典: VentureClef

画像処理と機械学習実行

Pixel Visual CoreはGoogleが設計したプロセッサでPixel 2のアクセラレータとして位置づけられる。Pixel 2のメインプロセッサはSnapdragon 835で、画像処理と機械学習実行がPixel Visual Coreにオフロードされる。開発環境としては、画像処理で「Halide」が、機械学習では「TensorFlow Lite」をサポートする。Pixel Visual CoreはAndroid 8.1 Oreoから使うことができる。つまり、Pixel 2にはPixel Visual Coreが搭載されているが、Android 8.1が公開された今月からこのプロセッサを使えるようになった。これに併せて、AR Stickersでスターウォーズのセットが提供された。

Neural Networks API

GoogleはAndroid 8.1で機械学習向けAPI「Neural Networks API」を公開した。エンジニアはこのAPIを使い機械学習機能をアプリに組み込むことができる (下のダイアグラム、Androidスマホやデバイス向けAI開発環境)。Neural Networks APIはPixel Visual Coreの他にGPUなどのプロセッサにも対応している。TensorFlow Liteは軽量のAI開発環境で、教育済みのAIアプリをスマホで実行 (Inference処理) するために使われる。パートナー企業もAndroid向けにAIアプリ開発ができ、スマホ上でリアルタイムに稼働するAIの登場が期待される。

出典: Google

少し危険な香りのするアプリ

GoogleはスターウォーズをモチーフにしたAR Stickersをテレビ放送でPRしており、全米で話題となっている。AR Stickersのインパクトは大きく、これ程リアルな仮想オブジェクトをスマホで生成できるとは驚きである。今まではプロの世界に限られていた特撮をPixel 2でできるようになった。ワクワクするアプリであるとともに、現実と虚構の世界の垣根がなくなり、少し危険な香りのするアプリでもある。

IBM Watsonがロボットと結びつく、情緒的な会話ができるAIへの挑戦

AIスピーカーの進化は目覚ましく、Amazon Echoはほぼ完全にこちらの言葉を理解し、会話が成立する。これだけで十分であるが、いつも同じ調子で応答するEchoは機械的であるとも感じる。次のステップは利用者の感情を理解して、それに応じた対応をする会話技術の開発となる。ベンチャー企業で情緒的な会話ができるAIの開発が進んでいる。

出典: Soul Machines

AIで人間を表現する

この研究を進めているのはニュージーランドに拠点を置くベンチャー企業Soul Machinesで、AIで人間を表現する「Human Computing」を目指している。人間のようにパーソナリティを持ち、固有の性格を備えた「Digital Humans」を開発している (上の写真)。言葉による会話に加え、感情を表現してコミュニケーションするAIを目指している。会話するAIはIBM WatsonのConversation機能を使い、Soul Machinesは感情表現の部分を開発している。

相手の感情を読み取り自分の感情を表現

Digital Humansは人間と同じように、知性と感性でコミュニケーションする。相手の言葉を理解し、同時に、相手の感情を読み取ることができる。発せられた言葉に込められたメッセージをリアルタイムに把握し、インタラクティブに反応する。更に、Digital Humansは多彩な感情を表現することができる。つまり、Digital Humansは相手の感情を読み取り、それに応じて自身の感情を表しコミュニケーションするAIとなる。

3D Facesで感情表現

Digital Humansの顔は「3D Faces」と呼ばれる。3D Facesは文字通り三次元の顔で、人間の顔を精細に再現する。 顔の表情は筋肉をベースにして生成され、目は見たものに対して反応して動く。Digital Humansは身体全体を表現するもので、3D Facesはその顔の部分となる。但し、Digital Humansはロボットではなくソフトウェアとして生成される。通常のディスプレイに表示されるほかARやVRで使われる。次のステップでヒューマノイドとして開発することが計画されている。

パーソナリティを持つ

Digital Humansは企業の仮想アシスタントとして利用され、固有のパーソナリティを持っている。パーソナリティは業務内容によって設定される。例えば、Digital Humansがコールセンターのエージェントとなる場合、その会社を代表するにふさわしいパーソナリティを持つ。具体的には、顧客への応対方法が設定され、感情表現や挙動振る舞いまでも規定される。

出典: Soul Machines

人間の脳を模して感情を持つ

Digital HumansはNeural Network Modelsに基づき、センサーで収集した情報を解析し挙動を決定する。Neural Network Modelsとは人間の脳をモデルにしたもので、Digital Humansは人間の反応や感情を模倣する。脳のニューロンを構成し、神経伝達物質 (Neurotransmitter) とホルモン (Dopamineなど) が主要機能を制御する。これらの挙動がDigital Humansの生理学的機能 (フィーリングや動き) を決める。

表情を学習する

相手の表情と言葉はカメラとマイクで読み込む。入力された音声は自然言語解析 (Natural Language Processing) で解析され、意味を理解しそれに返答する。言葉を喋るときは、顔の表情が変化し唇が動く。これらの動きは上述のNeural Network Modelsで表現する。このネットワークのアルゴリズムを教育して人間の表情に近づける。唇の動きでLip Reading(読唇術)できる精度を持つ。

コールセンターの仮想エージェント

Soul Machinesは2017年11月、ソフトウエア企業Autodeskと共同でAva (Autodesk’s Virtual Agent) を開発した (上の写真)。Avaはコールセンターの仮想エージェントで、顧客の質問に答え、必要な情報を提供する。AvaはDigital Humansの基本機能を実装したもので、パーソナリティを持ち、感情を表現することができる。また、相手の言葉を理解するだけでなく、顔の表情やボディーランゲージを把握できる。人間のエージェントのようにAvaは理性と感性でコミュニケーションする。

なぜ感情表現が必要か

Digital Humanは本物とそっくりで、人間かソフトウェアか見分けがつかない。対話においても感情豊かにコミュニケーションする。対話では相手の顔が見えることで、信頼感が格段に向上する。そもそも、人間は顔を見ながら会話することを好む。人間のエージェントに代わりAvaが顧客と応対しても、顧客との信頼関係を築くことができると期待される。顧客は音声だけのチャットボットではなく、表情と感情を持った仮想エージェントと会話することで親近感が醸し出され絆が強くなる。

ロードマップ

Soul Machinesは相手の表情を読み取り、会話時の感情を生成するAI技法を開発している。今はディスプレイやAR・VRで顔を3Dで表現するが、将来は物理的な顔や人体を生成するとしている。表情豊かなヒューマノイドの開発が次のステップとなる。

3D映画として大ヒットしたAvatarは、James Cameron監督のSFファンタジー映画で、三次元空間でストーリーが展開される。映画の画像の6割はコンピューターグラフィックスで、これをニュージーランドの企業が開発した。Soul Machinesもここに拠点を置き、ニュージーランドは伝統的にコンピューターグラフィックスで高い技術を持っている。

AIのグランドチャレンジ、人間のように会話するチャットボットの開発

Amazonは会話するAIの開発コンペティション「Alexa Prize」を開催した。目標は20分間会話できるチャットボットを開発することで、22か国から100を超える大学チームが技術を競った。初年度の2017年は、米国のUniversity of Washingtonが優勝した。

出典: Amazon  

コンペティションの目的

AmazonがAlexa Prizeを始めた理由は、AIスピーカー「Echo」が目指している会話するAIを開発するためだ。AIの中で会話技法は極めて難しく、永遠に目標に到達できないという意見もある。AmazonはAlexaでこの技術を探求しているが、大学に参加を呼びかけ、若い頭脳によるブレークスルーを期待している。

Socialbotを開発

Amazonは会話するAIを「Socialbot」と呼んでいる。Socialbotとはチャットボットとも呼ばれ、AlexaのSkill (アプリに相当) に区分される。SocialbotはEchoを介し、幅広い話題で利用者と音声で会話する。話題としては、芸能、スポーツ、政治、ファッション、テクノロジーが対象で、人間とスムーズに対話が進むことがゴールとなる。

判定基準

参加大学はAmazonが提供するボイスアプリ開発環境 (Alexa Skills Kit) を使ってSocialbotを開発する。審査員がSocialbotと20分間会話し、会話能力を採点する。具体的には、Socialbotが話題に一貫性を持ち(Coherently)、相手を惹きつける(Engaging)能力などが評価される。但し、これはTuring Test (AIが人間のふりをする能力の試験) ではなく、あくまで会話能力が試される。

Socialbotと会話してみると

上位3チームのSocialbotは公開されており、Amazon Echoから会話することができる。実際に、Socialbotと話してみたが、技術は未完で会話はたどたどしい。しかし、Socialbotが話す話題は興味深く、話術も感じられ、会話に惹きつけられた。人間レベルに到達するにはまだまだ時間がかかるが、大きな可能性を秘めていることを実感した。

会話シーンのサマリー

優勝校のSocialbotとの会話は次のように進行した。Amazon EchoでSocialbotを起動すると、Socialbotは冒頭で挨拶 (「調子はどうですか?」) をしてから会話に入った。この技法は「Icebreaker」と呼ばれ、いきなり会話に入るのではなく、堅苦しさをほぐしてくれた。

興味ある話題を提示

ほぐれたところで、Socialbotは会話の話題を提示した。「休暇や人工知能や・・・の話をしましょうか?」。これは「Topic Suggestion」と呼ばれる技法で、相手の興味をそそる話題を提示する。Socialbotとは初対面なので、一般に受け入れられる話題が示された。

出典: Amazon  

最新の面白い話題を紹介

この問いかけに「人工知能」と返答すると、Socialbotはとっておきの面白い話を聞かせてくれた。「Facebookは利用者が投稿する写真からその人の感情を推測するAIを開発している・・・」。これは「Knowledge Ingestion」という技法で、Socialbotは最新の話題を常に取り入れ、会話でうんちくを披露し相手を惹きつける。人間の会話と同じように、フレッシュな話題が相手を惹きつける。

意地悪な質問

これに対して少し意地悪な質問をした。「どういう仕組みなの?」と尋ねると、Socialbotはこちらの質問を復唱した。Socialbotが、こちらの質問を正しく理解していることが分かり、少し気持ちよく感じた。

掘り下げて説明

しかしSocialbotはこの質問には回答できなかった。「I ask myself the same question」と返答した。相手が興味を持っていることを掘り下げて説明することを「Deep Dive」という。Deep Diveすることで話が深くなり対話が進む。ただし、このシーンではうまくいかなかった。

対話をリードする

Socialbotはこれにもめげず、「人工知能の話を続けますか」と質問してきた。これは「Leading Conversation」と呼ばれる手法で、会話のトピックスを示し、対話をリードする。会話がとん挫しそうになったが、これに対し「Yes」と回答し、人工知能の話題がさらに続いた。

出典: Amazon

話題が展開する

その後、Socialbotは「クラウドの友人が興味深いアドバイスをしてくれたが、聞きたい?」と興味をそそる。「Yes」と答えるとその話を始めた。「過酸化水素が入ったホワイトニングを使って歯磨きしたあとは、数分間そのままでいると効果があるよ」と生活のコツを紹介してくれた。「この話より人工知能に興味ある」と言ったが、この発言は無視され、Socialbotはホンジュラスの大統領選挙の話を始めた。

全体の感想

こちらの発言を無視されると、Socialbotであると分かっているが、あまり快く感じない。また、会話の話題が急に変わると、どうしたのかと不安を覚える。まだSocialbotが人間のように会話できるとは言い難いが、会話の内容は興味深く、対話時間は13分に及んだ。20分がゴールであるので、まだ研究開発は続く。

システム構成

SocialbotはAmazonのボイスアプリ開発環境で開発された。学生チームは、Amazonが提供している音声認識 (Automatic Speech Recognition、声をテキストに変換) とスピーチ合成 (Text-to-Speech、テキストを声に変換) を使うことができる。こちらが喋った言葉をシステムが認識し、Socialbotの発言は聞きなれたAlexaの声となる。

会話技術の開発

チームはその中間の会話技術を開発し、その技量が試験される。スムーズに会話するのは勿論であるが、Socialbotの話術やキャラクターなども開発目標となる。Socialbotが興味深い話題を話すだけでなく、自分の主張を持ち意見を述べることも視野に入る。更に、相手の言葉に対してジョークで返答すると完成度がぐんと上がる。

来年に向けて

Amazon EchoやGoogle Homeの爆発的な普及で会話するAIがホットな研究テーマになっている。企業で開発が進むが、大学の研究にも期待がかかっている。自動運転車は大学間のコンペティションで開発が一気に進んだ。Alexa Prizeは2018年度も計画されており、会話するAIはどこまで人間に近づけるか、グランドチャレンジが続く。