カテゴリー別アーカイブ: 人工知能

NvidiaはAI自動運転車を公開、Deep Learningが人間の運転テクニックを模倣する

Nvidiaは半導体製造から自動運転車開発に軸足を移している。NvidiaはAIで構成される自動運転車の試験走行を公開した。Googleなどは自動運転技術の一部をAIで実装するが、NvidiaはこれをすべてDeep Learningで処理する。AI自動運転車は人間の運転を見るだけでドライブテクニックを学ぶ。

出典: Nvidia

自律走行のデモ

Nvidiaは2016年9月、自動運転車が自律走行する模様をビデオで公開した (上の写真、右側手前の車両)。このクルマは「BB8」と命名され、テストコースや市街地で走行試験が実施された。クルマはハイウェーを自動運転で走行できる。ハイウェーは自動運転車にとって走りやすい場所である。しかし、クルマは路面にペイントされている車線が消えているところも自動走行できる。

道路というコンセプトを理解

自動運転車の多くはペイントを頼りにレーンをキープするが、BB8は道路というコンセプトを理解でき、車線が無くても人間のように運転できる。このためBB8は道路が舗装されていない砂利道でも走行できる。路肩は明確ではなく道路の両側には草が生えている。この状況でもクルマは道路の部分を認識して自律的に走行する。

ニュージャージー州で路上試験を展開

クルマは工事現場に差し掛かると、そこに設置されているロードコーンに従って走行する。ドライバーが搭乗しないでクルマが無人で走行するデモも示された。BB8はカリフォルニア州で運転技術を習得した。一方、路上試験は全てニュージャージー州で実施された。クルマは学習した運転技術を異なる州で使うことができることを示した。ちなみにNvidiaはカリフォルニア州では路上試験の認可を受けていない。

Deep Learningを使った運転技術

これに先立ちNvidiaは自動運転技術に関する論文「End to End Learning for Self-Driving Cars」を発表した。この論文でDeep Learningを使った運転技術を示した。自動運転システムは「DAVE-2」と呼ばれ、ニューラルネットワークで構成される。システムはクルマに搭載されているカメラの画像を読み込み、それを解析しステアリングを操作する。

出典: Nvidia

データ入力から出力までをニューラルネットワークで処理

システムの最大の特徴はデータ入力から出力までをニューラルネットワークで処理することだ。カメラのイメージをネットワークが読み込み、それを解析しステアリング操作を出力する。システムが自律的に運転技術を学ぶので、教育プロセスがシンプルになる。カメラで捉えた走行シーンとドライバーのステアリング操作が手本となり、ネットワークがこれを学ぶ。このため、道路に車線がペイントされていなくても人間のように走行できる。また、駐車場で走行路が明示されていなくても、クルマは走ることができる (上の写真)。

ドライバーの運転データを収集して教育

このためドライバーの運転データを収集しネットワークを教育する。具体的には、カメラで撮影したイメージとそれに同期したステアリング操作を収集する。収集した運転データでニューラルネットワークを教育する。ネットワークを構成するConvolutional Neural Network (CNN) にカメラの映像を入力し、ステアリング操作を出力する。この出力を人間のドライバーが運転したときのステアリング操作と比較する。差分を補正することでCNNは人間のドライバーに近づく。

クルマが遭遇するすべての条件を再現

教育データは様々な明るさの状況のもと、また、異なる天候で収集された。データの多くがニュージャージー州で収集された。道路の種別としては二車線道路、路肩にクルマが駐車している生活道路、トンネル内、舗装していない道路が対象となった。気象状況としては、晴れの日だけでなく、雨、霧、雪の条件で走行データが集められた。また、昼間だけでなく夜間の走行データが使われた。つまり、クルマが遭遇するすべての条件が再現された。テスト車両はLincoln MKZとFord Focusが使われた。

車載スーパーコンピューター

教育したネットワークを車載スーパーコンピューター「Drive PX 2」(下の写真)にインストールすると自動運転車が完成する。Drive PX 2は自動運転車向けのAI基盤で自動車メーカーや部品メーカーに提供される。Drive PXはカメラ、Lidar、レーダー、ソナーなどのセンサーで捉えた情報を処理し、クルマ周囲の状況を理解する。これはSensor Fusionと呼ばれ、上述のConvolutional Neural Networkで処理する。ただし、Nvidiaの自動運転車はセンサーとしてカメラだけを使っている。定番技術であるLidarを使わないため、アルゴリズム側で高度な手法が求められる。

出典: Nvidia

アルゴリズムの安全性を確認

システムを教育した後は、路上で試験する前にシミュレータでアルゴリズムを検証する。教育データを入力し、シミュレータでクルマが自動運転できる割合を計算する。このケースでは600秒の運転で10回運転を補正する必要があった。自動運転車がレーンの中心をそれると、仮想ドライバーが元に戻す操作をする。実際の路上試験ではHolmdelからAtlantic Highlands (ニュージャージー州) まで自動運転で走行し、その98%を自動運転モードで運行できた。

AIがルールを学習する

この手法は人間がアルゴリズムに走行のためのルールを教えるのではなく、CNNが画像からそれを読み取る。例えば、CNNはカーブしている道路のイメージを読むと、そこから運転に必要な道路の特徴を把握する (下の写真)。上段がカメラが捉えた画像で、下段がCNNが把握した道路の特徴 (Feature Maps) を示している。CNNは運転に必要な道路の境界部分を捉えていることが分かる。これは人間が教えたものではなくCNNが自律的に学習した成果だ。100時間程度の運転データでCNNを教育すると様々な環境で運転できるようになる。

出典: Mariusz Bojarski et al.

ルールベースの自動運転車

これに対して、自動運転車の多くは画像を解析しルールに従って特徴を抽出する。アルゴリズムは車線ペイントなど道路の特徴や周囲のオブジェクトを把握し、進行経路を計算し、実際にクルマを操作する。これらは事前にプログラムのロジックで定義される。クルマは常に想定外の事象に遭遇するので、それらをIF-THENでプログラミングする。この条件の複雑さ (Curse of Dimensionalityと呼ばれる) が自動運転やロボット開発のネックとなっている。

自動運転技術のロードマップ

Nvidiaの自動運転技術開発は始まったばかりで、次のステップはアルゴリズムの精度を改良する。現在98%を自動運転できるが、この精度を向上させる。また、アルゴリズムの精度をどう検証するかが大きな課題となる。実際に試験運転して精度を測定するだけでなく、これを検証するシステムが必要になる。更にAI自動運転車で問題が発生するとその原因探求が難しい。AIというブラックボックスが周囲の状況を把握し運転する。このため、CNNが把握しているイメージの可視化精度を上げる必要がある。実際にCNNが認識しているイメージを人間が見ることでAIのロジックを理解する。これを手掛かりに問題を解決しアルゴリズムを改良する。

自動運転車はAIアルゴリズムの勝負

NvidiaはDeep Learning向けハードウェアや開発環境を提供する。自動運転車を重点市場としてDrive PXなどをメーカーに提供する。更に、上述のDeep Learningを駆使したソフトウェアも自動運転車開発キットとして提供する。既に80社以上がNvidia技術を使っており、自動運転車のエコシステムが拡大している。多くのメーカーがNvidiaプラットフォームを採用する中、AIアルゴリズムが自動運転市場での勝ち組を決める。

自動運転車のテストコースはビデオゲーム、AIがカーチェイス見て運転テクニックを学ぶ

最新のビデオゲームを見るとシーンが余りにもリアルで写真と区別がつかない。精巧に描写されたビデオゲームを自動運転車開発に利用するアイディアが登場した。長い年月をかけ市街地で走行試験を重ねる代わりに、ビデオゲームに描かれる街中を走りAIアルゴリズムを開発する。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun

インテル研究所などが開発

この技法を開発したのはIntel Labs (インテル研究所) とDarmstadt University (ダルムシュタット大学) で、ビデオゲームを使って自動運転車を教育する。この研究ではビデオゲーム「Grand Theft Auto」が使われた。これは三人組がクルマで市街地を走り犯罪を重ねるビデオゲームで、ここから抽出したフレームでアルゴリズムを教育する。上のグラフィックがその事例で、雨が降る市街地を描写しているが現実世界と区別がつかない。この成果は論文「Playing for Data: Ground Truth from Computer Games」として発表された。

Deep Learningが自動運転技術を支える

自動運転技術開発で成否のカギを握るのがクルマ周囲のオブジェクトを正確に把握する技法だ。自動運転車は搭載しているカメラで周囲を撮影し、そこに何が写っているかを判定する。カメラがクルマの眼となり、乗用車、バス、歩行者、自転車、信号機、歩道、道路などを認識する。AIの一技法であるDeep Learningが自動運転技術を支える。

オブジェクトを識別する方法

AIがビデオからオブジェクトを識別するには二つの手法がある。一つは「Object Detection」と呼ばれ、写真に写っているオブジェクトを箱で囲って示す。オブジェクトの位置と大きさを示すとともに、その区別を表示する。もう一つは「Semantic Segmentation」と呼ばれ、写真の中のオブジェクトをピクセルレベルで表示する。オブジェクトの区別は色分けして示される。

Semantic Segmentationの事例

下の写真がSemantic Segmentationの事例で、左側の写真を処理すると右の側のグラフィックスとなる。道路、自動車、歩行者、建物などのオブジェクトが色分けして示される。前者より高度な技術で、自動運転車は進行方向に何があるのかを理解でき、ナビゲーションの信頼度が大きく向上する。(下の事例はUniversity of Cambridgeの研究成果で、写真をアップロードするとその意味を色分けして表示する。)

出典: VentureClef / University of Cambridge

自動運転技術開発のプロセスと障害

自動運転車が走行する時には、カメラで撮影したイメージを車載システムに入力しリアルタイムで周囲のオブジェクトを把握する。クルマがこの判定をできるようになるためには、事前にアルゴリズムを教育しておく必要がある。教育のためには大量の写真が必要となり、自動運転車は街中を走り回り、走行の様子をビデオで撮影する。次に、撮影された写真に写っているオブジェクトを人間が手作業で名前付けをする。つまり、写真と名前付けされたグラフィックス (上の写真の関係) から成る基準データ (Ground Truth) を整備するという大作業が発生する。これが自動運転車開発で大きな障害となっている。

効率的に教育データを生成する手法

Intel Labsらはこの作業をビデオゲームで行うことで効率的にアルゴリズムを教育する手法を開発した。ビデオゲームから抽出したフレームでSemantic Segmentationする技法である。実際にこの技法を使ってSemantic Segmentation処理をしたものが下のグラフィックスである。入力したフレームは先頭の写真で、色がオブジェクトのクラスを示し、ピクセルレベルで処理されているのが分かる。道路は紫色、建物はレンガ色、空は灰色、乗用車は群青色、トラックは水色、バスは桃色などで示されている。クルマは目の前のオブジェクトの意味が分かり、安全に走行できる経路を見つけ出す。この技法では一枚のイメージを処理する時間は平均で7秒と極めて短いのが特長。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun

ビデオゲームのフレームを大量に使う

この研究ではビデオゲームから25,000枚のフレームが抽出された (下の写真はその一部)。ビデオゲームはロスアンジェルスをモデルにしている。カリフォルニアの太陽が降り注ぐ昼間だけでなく、様々な気象条件のフレームが使われた。雨が降り注ぐ幹線道路や雨上がりの交差点のフレームが使われた。また、霧が立ち込めたシーンなども登場する。

想定しうるすべての環境を学習

幹線道路だけでなく、商店がひしめき合う路地裏の狭い道路のフレームも使われた。更に、一日のうち異なる時間帯のフレームが使われた。夜間にヘッドライトを点けたクルマが行きかうシーンや、夕方に空が赤く染まったフレームなどが使われた。自動運転車にとってはオブジェクトの識別が難しい条件である。人間は初めて走る道路でも運転できるが、アルゴリズムは想定しうるすべての環境を学習する必要がある。

人間との共同作業

システムはイメージをすべて区別できる訳ではない。Semantic Segmentationで色付けできるところと、できないところが混在する。このため専任スタッフがマニュアルで名前付けをする。システムは名前が付けられるとそれを学習し、次のフレームから自分で名前を付けることができるようになる。システムは学習を重ね、オブジェクトを判定し名前付けができるようになる。

ビデオゲームを使った教育技法に大きな期待

アルゴリズムをビデオゲームで教育できることが示された。ただ、ビデオゲームだけで教育するにはまだ制約もある。ビデオゲームのフレームだけでアルゴリズムを教育するとオブジェクトの認識率は43.6%とあまり高くない。そこで、実際に市街地を撮影した写真をミックスして教育すると認識率は65.2%と大きく向上した。写真だけで教育した方法の精度を上回り、ビデオゲームを使った教育技法に大きな期待が寄せられている。

出典: Stephan R. Richter and Vibhav Vineet and Stefan Roth and Vladlen Koltun

フレームだけでなく一連の動きを把握

論文は研究のロードマップについても言及している。今回の成果はビデオで捉えたイメージからオブジェクトを判別する技術「Class-Level Segmentation」を示している。次のステップではフレームを重ね、動画の中でオブジェクトを判定する。更に、オブジェクトの判定だけでなく一連の動きが持つ意味「Instance-Level Segmentation」を抽出する。つまり、路上で自転車を把握するだけでなく、ライダーが右腕を水平に上げると、それは右折するというサインであることを把握する。アルゴリズムは他車や人の行動の意味を理解できるようになる。

AIは犯罪行為を学習するのか

Grand Theft Autoという犯罪を繰り返すアクションゲームで運転技術を学習すると、自動運転車はこの環境にバイアスした認識能力を獲得すると懸念される。クルマが赤信号の交差点を猛スピード横切るシーンが頻繁に登場するが、違法行為をどうフィルタリングするかなどが課題となる。

高度に進化したビデオゲームを利用する

一方、Grand Theft Autoはゲーマーが街のシーンを自由に設定できる。気象条件や時間帯だけでなく、都市部、郊外部、工業地帯など、ゲーム環境を自由に設定できる。クルマが道にあふれるニューヨーク都市部や、霧が立ち込めて運転しにくいサンフランシスコなどを簡単に再現できる。雨が降る街での走行試験のためにKirkland (ワシントン州) に出向く必要はなくなる。高度に進化したビデオゲームが自動運転車のシミュレーション環境として注目されている。

GoogleはAIメッセージング「Allo」をリリース、仮想アシスタントとの対話は近未来のライフスタイルを感じる

Googleは2016年9月、AIを搭載したメッセージングアプリ「Allo」をリリースした。AlloはLineのようにテキストやマルチメディアを使って会話するメッセンジャーとして位置づけられる。これに加え、Alloは仮想アシスタント「Google Assistant」を搭載しているのが最大の特徴 (下の写真左側)。仮想アシスタントとは会話型AIで、コンシェルジュのように対話しながら応対してくれる。使ってみると、まだまだ開発途上であるが、会話型AIが巨大ビジネスに成長する兆しを感じる。

出典: VentureClef

Googleはメッセージング市場で苦戦

メッセージング市場ではFacebook MessengerとSnapchatが先行し、AppleがMessageでこれを追っている。日本ではLineがトップを走り世界市場を目指している。Googleはメッセージングプラットフォーム「Hangouts」を運用しているが苦戦を強いられている。Googleは新たに、Alloを投入しAIを基軸に製品ラインアップを大幅に見直している。

メッセージングの表現力が豊かになる

この市場で勝つためには若者層を引き付ける必要がある。Alloは表現力が豊かで、メッセージをグラフィカルに示する。これは「Whisper or Shout」と呼ばれ、メッセージ欄のスライドを上下してテキストの大きさを変更できる。上にあげると文字やシンボルが大きくなる (下の写真右側上段)。またAlloオリジナルのStickerが数多く揃っており、メッセージで表現できる幅が広がった。 (上の写真右側下段)。

返信文を自動で生成

Alloは受信メッセージを読み、これを理解して、自動で返信文を生成する。これは「Smart Reply」と呼ばれる。「Do you like to drive」とのメッセージを受信すると、それに対してAlloはリアルタイムで「Sure」、「Yes」、「No」の返信文を生成する (下の写真左側)。自分でタイプする必要はなく、ボタンにタッチするだけで返信でき大変便利。Smart Replyは既にメール「Inbox」で導入され人気の機能となっている。

出典: VentureClef

写真に対しても返信文を生成

AlloのSmart Replyはテキストだけでなく写真に対しても使える。空港で撮影した飛行機の写真を受信すると、Alloは「Nice plane」、「Have a nice flight」、「Bon voyage!」と返信文を生成する (上の写真右側)。Alloは高度なイメージ認識能力を持っている。ひまわりの写真を受信すると、Alloは「Beautiful」、「Nice sunflower」、「Pretty」と返信文を生成する (下の写真左側)。Alloは花だけでなく、この花がひまわりであることを把握する。花の種別を判定するには高度な技術を要し、この背後にはニューラルネットワークが使われている。

出典: VentureClef

利用者のスタイルを反映した返信文

しかしAlloは食べ物の写真についてはうまく判定できない。サラダの写真に対し、「Yummy!」、「Wish I could try」と返信文を生成する (上の写真右側)。Alloはこれは食べ物であると理解するが料理の種類までは特定できない。Googleはイメージ認識技術で世界のトップを走っており、料理の種類を認識することは容易い。近々にこの機能がAlloに実装されると思われる。Alloは機械学習を重ねることで利用者の表現方法を学んでいく。利用者のスタイルを反映した返信文を作成できるようになる。

Assistantが手助けする

Alloの最大の特徴は仮想アシスタントGoogle Assistantをメッセージングに導入したこと。Assistantがコンシェルジュのように、会話しながら生活の手助けをする。Assistantは利用者同士のチャットを聞いており、手助けが必要と判断すると会話に割り込みアドバイスする。背後で会話を聞かれているのは奇異な気がするが、使ってみると便利な機能であることに気付く。

Assistantがレストランを教えてくれる

今日はイタリア料理を食べようと話していると、Assistantが気を利かせて近所のイタリア料理店を紹介する。友人に「Let’s go for Italian food」とメッセージを送ると、Assistantはコンテキスト理解してして「Italian food places nearby」と語り、近所のイタリア料理店を紹介する (下の写真左側)。ここではGoogle Knowledge Graph機能が使われている。

レストランのカードにタッチするとその詳細情報が表示され、店舗内の写真などをみることができる。気に入ればこのレストランをそのまま予約できる。ただ、レストランを予約するには専用アプリ「OpenTable」を起動し、ここから予約する仕組みとなる (下の写真右側)。まだ、Alloから直接予約することはできなくて、別アプリで実行することになる。Assistantと会話しながらタスクを実行できれば生活が格段に便利になる。

出典: VentureClef

Assistantとの直接対話

友人との会話を離れ、直接Assistantと対話することができる。Assistantに指示すれば有能な秘書のようにこれに答えてくれる。「Cute dog pictures」と指示すると、Assistantは「Check out these pictures」と述べ、可愛い犬の写真を探してくる。更に「Cute puppy images」と指示すると、子犬の写真を表示する。ここではGoogle Image Searchの検索結果が使われている。

Assistantがこなせるタスク

Assistantは対応できるタスクをカードとして示する。それらは「Subscription (ニュース購読)」、「Action (タイマーセットなど)」、「Fun (ゲームなど)」、「Translation (翻訳)」、「Weather (天気予報)」、「Travel (旅行案内)」、「Sports (スポーツニュース)」、「Answer (Q&A)」、「My Assistant (Assistantの自己紹介)」となる。

旅行案内で格安フライトを探す

Travelカードにタッチすると旅行関連の情報が表示される。フライトを探すときには「Flights to New York」と指示すると、現在地 (San Francisco) からNew Yorkまでの航空運賃が表示される。条件で絞り込んで希望のフライトを探す。また、到着地のホテルの検索もできる。ここでもフライトやホテルの予約はリンク先のウェブサイトで行う。まだ、Assistantから直接予約することはできない。

一日のスケジュールを管理

Assistantは利用者のスケジュールを把握しており、秘書のように会議予定などを管理をする。例えば、「Show my flights」と指示すると、予約しているフライト情報を表示する (下の写真左側)。また、「What’s my next meeting」と言えば、今日の予定を表示する (下の写真右側)。Assistantは忙しい生活の中でなくてはならない存在になりつつある。AssistantはGoogle Calendarとリンクしスケジュールを把握している。

出典: VentureClef

AlloとGoogle音声検索

Alloはメッセージング機能では目新しさを感じないが、Assistantの会話型AIは便利であると感じる。Assistantがインターフェイスとなり対話を通してGoogleを利用する。ただ、Assistant機能の多くはGoogle音声検索からも使える。Googleに「What’s my schedule today?」語り掛けると、今日のスケジュールを教えてくれる。音声検索とAlloでできることに大きな違いはないが、Alloは会話を通して利用者とインタラクションする点が大きく異なる。検索結果が表示されそこで会話が止まるのではなく、連続して対話が進む点が大きな特徴となる。

メッセージを暗号化して送る

Alloはセキュリティにも配慮している。匿名モード「Incognito Mode」を選択すると、Alloのメッセージは暗号化される (下の写真左側)。また、メッセージは指定時間だけ表示され、制限時間を過ぎると消去される。例えば、相手に送るメッセージは10秒間だけ表示されるよう設定することもできる (下の写真右側)。この方式はSnapchatなどで人気を呼び、ティーンエイジャーから圧倒的な支持を得ている。きわどい内容のメッセージでも記録に残らないので、安心して伝えることができるためである。

通常モードのメッセージの安全性

つまり、Alloの通常モードのメッセージは暗号化されているわけではない。ハッシュ処理 (HTTPSのプロトコール) で最低限のセキュリティは確保されるが、Alloはハッカーによる盗聴に対して弱点がある。ただ、Alloだけでなく、Facebook Messengerも同様に、暗号化オプション (Secret Conversation) を指定しない限りメッセージは暗号化されない。前述の通り、Alloは利用者のメッセージを背後で聞いており、メッセージが暗号化されるとこの機能が使えない。

出典: VentureClef

データ保存とAI開発

Googleは当初、Alloで交わされるメッセージを一時的に利用するが、長期的にサーバに保管することはないと述べていた。しかし、Googleはこの指針を変え、Alloで交わされたメッセージを長期間保管する。目的はアルゴリズムの開発で、保管されたデータを使ってAIを教育する。AIがインテリジェントになるためにはデータがカギを握る。メッセージングデータがAI開発の宝の山で、Googleは長期間保管に踏み切った。

プライバシー保護とクールな機能

これに対して市場からは懸念の声も聞かれる。米国国防総省諜報機関の元職員Edward SnowdenはAlloを使わないように呼び掛けている。Googleが保管するメッセージングデータが犯罪捜査などで利用されることを懸念しているためだ。個人のプライバシー保護に配慮するのは当然であるが、厳しすぎるとAIが提供する便利な機能の恩恵を受けられない。プライバシー保護とクールな機能のバランスが難しい。

インターフェイスに温かみを感じる Alloは「Preview Edition」と表示されているように、使ってみると開発途上のベータ版との印象を受ける。まだまだ生活するうえでの必須ツールとは言い難い。一方、Alloは人間とマシンの関係で大きな将来性を感じる。Assistantと対話できることでインターフェイスに温かみを感じる。音声検索で機械的に結果を表示されるのとは異なり、言葉を交わしながら目的を達成できるのはフューチャリスティックでもある。対話型AIが巨大ビジネスに成長する兆しを感じる。

Appleの人工知能戦略、SiriはiOS 10でボイスクラウドに進化

Appleは2016年9月13日、iPhone向け基本ソフトiOS 10をリリースした。早速使ってみたが、Siriが大きく成長する兆しを感じた。Siriの機能が一般に公開され、企業は音声で操作するアプリを作ることができる。SiriはもはやOS機能ではなく、ボイスクラウドとして位置づけられる。AIで足踏みをしているAppleが巻き返しに転じた。

出典: VentureClef

メッセージングが劇的に機能アップ

iOS 10を使って驚いたのはメッセージング「Messages」の機能が飛躍的に向上したこと。絵文字やマルチメディアが使えるだけではなく、画面いっぱいのアニメーションが目を引く。お祝いメッセージの背後で紙吹雪が舞い散る (上の写真左側)。沢山の風船が舞い上がり、夜空に大輪の花火が上がるシーンもある。文字も大文字でジャンプしながら表示され、インパクトのあるメッセージを送ることができる。Apple Watchで登場した心臓が鼓動するアニメーションやキスマーク (上の写真右側) が使え、メッセージが格段にカラフルになった。Messengerはお洒落でハイセンスでAppleらしい製品に仕上がっている。ヒットすること間違いない。

メッセージングに若者が集う

ここにはFacebook MessengerやSnapchatに対抗するAppleの姿勢がうかがえる。ソーシャルメディアは伸び悩み、若者はメッセージングに集っている。ここが人気スポットで、生活の基盤であり、買い物をする場所でもある。ビジネスとして大きな可能性を秘め、Appleが全力でキャッチアップしている姿勢が見て取れる。

オープンなプラットフォーム

iOS 10の最も重要なポイントはプラットフォームが広範囲にわたり公開されたこと。音声アシスタントSiriはApple製アプリだけで使われてきたが、iOS 10ではサードパーティが開発したアプリから利用できる。企業はSiriの機能を組み込んだアプリを開発できるようになり、ユーザインターフェイスが格段に向上した。音声操作のアプリが勢いを増す中で、Siriを組み込んだボイスアプリのエコシステムが広がっている。

写真を言葉で検索する

Apple製アプリについてもSiriがカバーする範囲が広がった。特に便利なのは写真アプリ「Photos」を言葉で操作できる機能。「Show my photos from airports」と言えば空港で撮影した写真を表示する (下の写真左側)。旅行で撮影した写真を探すときは「Find my pictures from my trip to San Francisco」と言うと、サンフランシスコで撮影した写真を表示する (下の写真右側)。Deep Learningでイメージ検索技術が格段に向上し、質問に対しズバリ結果を表示する。使ってみてとても便利と感じる。

出典: VentureClef

電車の乗り換えを教えてくれる

Siriは電車の路線案内ができるようになった。現在地からサンフランシスコ空港に行くには「Give me public transit directions to San Francisco Airport」と言えば、バスと電車を乗り継いで空港に行く経路を示す (下の写真左側)。また、クルマの中で目的地までの道順を尋ねるときは「Give me directions to San Jose Airport」と指示する。ナビゲーションが始まるので、それに沿って運転する。

出典: VentureClef

Appleのスマートホーム

iOS 10からスマートホームアプリ「Home」が登場した (下の写真)。このアプリがハブとなり開発キット「HomeKit」で定義された家電を操作する。Siriに「Turn on the living light」と言えばリビングルームの電灯が灯る。Homeでは家の中の雰囲気を設定する「Scene」という機能がある (下の写真左側、中央部)。Siriに「Set my movie scene」といえば、テレビで映画を見るために最適な暗さになる。電灯の輝度が落ちうす暗くなる。

また、Automationという機能を使うと、家の中の家電を自動制御できる (下の写真右側)。家の中が暗くなったら自動で電灯が点灯する。「At Sunset」という機能を使うと日没時に電灯がオンとなる。また、「When I Arrive Home」という機能を使うと、自宅に到着すると部屋の電灯が灯る。シンプルな機能だが電灯が自動でオンオフするのは便利と感じる。

出典: VentureClef

Siriでクルマを呼ぶ

iOS 10の最大の特徴はパートナー企業がSiriの機能を組み込んだアプリを開発できること。企業はSiri開発キットである「SiriKit」でアプリを開発する。SiriKitで開発されたアプリはSiriの機能を実装し、利用者が音声でアプリを操作できる。

ライドシェア「Lyft」はSiriKitでアプリを開発した。Siriに「Get me a ride to San Francisco Airport」というとLyftのクルマを呼ぶことができる (下の写真左側)。Siriの画面にLyftアプリのウインドウが表示され、近所にいるLyftのクルマがマップ上に表示される。Siriはクルマは7分で来ますが呼びますかと尋ねる。これにYesと答えるとクルマが配車される。ライドシェアではLyftの他にUberも使える。

出典: VentureClef

Siriでお金を送る

Siriから送金することができる。「Send money with Venmo」と指示すると、無料の送金アプリ「Venmo」の送金プロセスが起動する (下の写真左側)。Siriは誰に送るのか、また、金額と添えるメッセージを聞いてくるので、これらに応えると確認画面が表示される (下の写真右側)。ここで「Yes」と答えると送金が完了する。Venmoの他に「Square Cash」で送金することもできる。

出典: VentureClef

Siriからメッセージを送り電話をかける

Siriからメッセージアプリ「WhatsApp」を起動しメッセージを送信できる。「Send a WhatsApp message to Alice..」と指示する (下の写真左側)。また、ソーシャルネットワーク「LinkedIn」で友人にメッセージを送信できる。「Send a LinkedIn message to John..」と指示する (下の写真右側)。この他にSiriから「Skype」や「Vonage」を使って電話をかけることができる。

出典: Apple

Apple WatchからSiriを利用すると便利

SiriはApple Watchからも利用できる (下の写真左側)。家の中や外出先では、iPhoneを取り出す代わりにApple WatchでSiriを使うのが便利。Apple Watchに「Hey Siri, Set my movie scene」と語り掛けタスクを実行する (下の写真右側)。iPhoneでも「Hey Siri、」と呼び掛けてSiriを起動できるが、その際はiPhoneを電源に接続しておく必要がある。

出典: VentureClef

SiriKitで音声アプリを開発

前述の通り、SiriKitは開発者向けのツールで、これを利用してSiriの音声機能を組み込んだアプリを開発する。SiriKitは業務領域「Domain」ごとに提供される。DomainはVoIP calling、Messaging、Payments、Photo、Workouts、Ride bookingなどから構成される。SiriKitがユーザとのやり取り全てを担う。音声認識や自然言語解析などのAI機能はSiriKitが提供する。ただし、開発者は業務に固有の言葉を登録し、Siriのボキャブラリーを増やす必要がある。

Siriは輝きを取り戻すか

新しくなったSiriを使うと利用できるシーンが増えてとても便利になったと感じる。同時に、Siriの音声認識精度についてフラストレーションを感じることも少なくない。GoogleやAmazonと比べるとその差が歴然としてきた。iOS 10からはSiriの機能が公開され、ボイスクラウドに進化した。この基盤上でクールなアプリが登場しようとしている。AIに対して及び腰であったAppleであるが、Open Siriで機能アップが期待される。最初にSiriを使った時の驚きは鮮明で、SiriKitはこの輝きを取り戻す切っ掛けになるのかもしれない。

感情を理解するAI ~ 声のトーンから心情を読む、Apple Siriが優しくなる?

マシンが人間の感情を理解してヒューマンタッチな振る舞いをする。マシンが話し言葉からその場の空気を読むことができる。いまマシンと人間の関係が変わろうとしている。人間の感情を理解するAIが登場している。マシンとの信頼関係が生まれる日もそう遠くはない。

出典: White House

人の声を解析して感情や特質を抽出

人間の声はコンテンツを伝えるだけでなく、その人の心情を映し出す。会話で伝達される情報の多くは声のトーンや顔の表情や体の動きにある。イスラエルに拠点を置くベンチャー企業「Beyond Verbal」は、人の声を解析して感情や特質を抽出する技術を開発している。この技法は「Emotions Analytics (感情解析)」と呼ばれ、マーケットリサーチに応用されている。また、声から病気を診断する研究で大きな成果が報告されている。これらの研究は人間のように振る舞うマシンに繋がると期待されている。

オバマ大統領の広島スピーチ

この技術を我々も使うことができる。Beyond Verbalはスマホ向けのアプリ「Moodies」をリリースした。このアプリはEmotions Analyticsの技法を実装している。アプリに向かって喋ると、声のトーンを解析しそこに含まれる感情を抽出する。このアプリでオバマ大統領の演説を解析してみた。これは広島平和公園でのスピーチで、最初の3分間をアプリに入力した。「Seventy-one years ago, on a bright cloudless morning, death fell from the sky and the world was changed…」で始まる演説で、重々しい口調で進行する (上の写真)。

アプリで大統領の心情を読む

戦争の悲惨さを訴える演説であるが、アプリの解析は異なる見解を示した。オバマ大統領の心情は、冒頭の部分は「Motivation (鼓舞)」と判定した (下の写真、左側)。聴衆を動機づける演説であり、同時に、問題に対する解を模索していると解釈した。演説のトーンは時間ごとに変わり、このほかに「Dominance (威厳)」や「Hope(希望)」や「Friendliness(親しみ)」などの評価が続く (下の写真、右側のグラフが心情の変化を表す)。

出典: VentureClef

高揚感と失望感が交錯

総合評価として、解を求めて進む点が心情的にポジティブと評価された (上のグラフの緑色の分部)。一方、希望を伝えようとするが現実は異なると感じている点が感情的に落ち込んでいると評価された (上のグラフで谷の分部)。我々には重く苦渋に満ちた演説と聞こえたが、オバマ大統領の心中は、世界に平和を呼びかける高揚した気持ちと、プラハ宣言以来進まない核兵器廃絶への挫折感が交錯したものになっていたことが分かる。

トランプ大統領候補者の演説を分析

Beyond VerbalはEmotions Analyticsを使って大統領選候補者Donald Trumpの演説を分析した結果を公開した。これは公開討論会でFox NewsのMagen KellyがTrumpに質問する形式で進められた (下の写真)。Emotions Analyticsの解析によると、この演説は「Charisma(カリスマ)」で「Creativity(クリエイティブ)」で「Playfulness(遊び心に富む)」と評価された (写真最下部のキャプション)。

この討論会をテレビで見ていたが、Trumpの発言はとても面白く、聴衆を惹きつける魅力を持っていると感じた。Emotions Analyticsでの解析結果の通り、機知に富み遊び心が豊かで、エンターテイナーとしての偉大な能力を感じた。しかし、発言の内容は不適切な言葉遣いや偏った解釈も多く、政治家としてのTrumpの評価は必ずしも高くはない。政治的な手腕については疑問視されるものの、Beyond VerbalはTrump人気の秘密は言葉の情緒的な面にあると指摘する。

出典: Beyond Verbal

自分の心情を正しく理解できない

このアプリは日常生活で健康管理のツールとして利用できる。自分の感情を正しく理解するのは極めて難しいと感じることが多い。筆者は電話での会話などをアプリで解析し、その時の心情がどうであったかを把握している。自分では活気に満ちた話し方をしたと思っていたが、アプリで計測すると「Loneliness (寂しい)」や「Unhappy (楽しくない)」と判定されたことも少なくない。自分が思っている心持と、実際の評価が異なることに驚いた。

健康管理に利用できる

元気のない時は少し大きめの声で音程を揚げて話すように努めてきた。しかし、アプリで分析するとこの作戦は全く通用しないことが分かった。心情は声の大きさや音程とは相関関係がなく、このような小手先の技で相手を欺くことはできない。元気のな時は抜本的な対策が必要と感じる。これは人により異なるが、筆者の場合は好きな音楽を聴いた後はアプリの判定はポジティブとなることが多い。声から自分の心理状態を判断することで、健康な生活を送る手がかりをつかめる。

マーケットリサーチで利用されている

Beyond Verbalは企業向けのソリューションを提供しており、マーケットリサーチなどで活用されている。企業が商品のブランドやデザインについて調査する際にEmotions Analyticsを利用する。また、広告効果を検証する際にも利用されている。被験者に対象物に関する情緒的な質問をして、その回答を録音する。この音声をEmotions Analyticsで解析し、被験者の対象物に対する評価を査定する。解析するのは言葉の意味ではなく、音声に含まれている感情を読み取る。人間が発する言葉は真実と異なることが多々あるが、音声に含まれるシグナルは嘘をつかない。

病気の判定で効果を上げる

この技法は医療分野で成果を上げている。Beyond VerbalはMayo ClinicやScrippsなど米国の先端医療機関と共同研究を展開している。最新研究によると、声は感情を含むだけでなく、健康状態を内包することが分かった。被験者の声が心臓疾患に関連するシグナルを含んでいることが判明した。音声シグナルが心臓疾患のバイオマーカーになり、音声を録音するだけで病気を判定できる。これに先立ち、音声は自閉症やパーキンソン病と関連性があることも解明されている。また、音声とうつ病やディスレキシア (難読症) との関係も解明されている。我々が喋る言葉は健康を映し出す鏡でもある。

Appleの臨床試験プラットフォーム

音声と疾患の関係を医学的に解明したのはBeyond Verbalが初となる。いまスマートフォンやウェアラブルで病気を診断をする技術が登場している。Appleは臨床試験のためのプラットフォーム「ResearchKit」を提供している。医療機関はこのプラットフォームを利用して短時間で大規模な臨床試験を実施できる。臨床試験に参加する被験者はResearchKitで提供されるアプリで簡単な試験を行う。

パーキンソン病の臨床試験アプリ

パーキンソン病に関する臨床試験アプリ「mPower」が注目されている (下の写真)。これは非営利団体「Sage Bionetworks」により開発され、被験者はこのアプリをiPhoneで利用する。アプリの指示に沿って操作すると、パーキンソン病を判定できる。三つの操作を指示され、被験者は指でボタンをタップし、マイクにあ~と発声し、また、記憶力を試す問題に答える。被験者の試験結果を集約することで、大規模なパーキンソン病の臨床試験を展開できる。

出典: Sage Bionetworks

マシンに感情を理解させる

Beyond Verbalの最終目標はマシンに人間の感情を理解させることにある。今のマシンは人間の感情を理解することができなく、Emotional Blindといわれる。Beyond Verbalの目的はマシンが感情のレベルで人間とコミュニケーションすることにある。このためには、マシンが人間の感情をリアルタイムで把握することが必要となる。この情報をマシンにフィードバックすることで、マシンは利用者の感情に沿った対応ができる。

Apple Siriが感情を理解すると

Apple Siriに「What am I doing?」と質問すると「Interesting question」と受け流される。もしSiriが感情を理解すると、人間のような反応が期待できる。仕事が忙しく疲れていると把握すると、Siriは「少し休憩してお茶を飲みましょう」と提案する。落ち込んでいる時はSiriが好きな曲を再生してくれるのかもしれない。Siriだけでなく、Amazon EchoやGoogle Homeも声に含まれている感情を理解し、ヒューマンタッチな機能を開発しているのは間違いない。Beyond Verbalの技術が感情を理解するマシンの基礎となる。