Appleの人工知能戦略、SiriはiOS 10でボイスクラウドに進化

Appleは2016年9月13日、iPhone向け基本ソフトiOS 10をリリースした。早速使ってみたが、Siriが大きく成長する兆しを感じた。Siriの機能が一般に公開され、企業は音声で操作するアプリを作ることができる。SiriはもはやOS機能ではなく、ボイスクラウドとして位置づけられる。AIで足踏みをしているAppleが巻き返しに転じた。

出典: VentureClef

メッセージングが劇的に機能アップ

iOS 10を使って驚いたのはメッセージング「Messages」の機能が飛躍的に向上したこと。絵文字やマルチメディアが使えるだけではなく、画面いっぱいのアニメーションが目を引く。お祝いメッセージの背後で紙吹雪が舞い散る (上の写真左側)。沢山の風船が舞い上がり、夜空に大輪の花火が上がるシーンもある。文字も大文字でジャンプしながら表示され、インパクトのあるメッセージを送ることができる。Apple Watchで登場した心臓が鼓動するアニメーションやキスマーク (上の写真右側) が使え、メッセージが格段にカラフルになった。Messengerはお洒落でハイセンスでAppleらしい製品に仕上がっている。ヒットすること間違いない。

メッセージングに若者が集う

ここにはFacebook MessengerやSnapchatに対抗するAppleの姿勢がうかがえる。ソーシャルメディアは伸び悩み、若者はメッセージングに集っている。ここが人気スポットで、生活の基盤であり、買い物をする場所でもある。ビジネスとして大きな可能性を秘め、Appleが全力でキャッチアップしている姿勢が見て取れる。

オープンなプラットフォーム

iOS 10の最も重要なポイントはプラットフォームが広範囲にわたり公開されたこと。音声アシスタントSiriはApple製アプリだけで使われてきたが、iOS 10ではサードパーティが開発したアプリから利用できる。企業はSiriの機能を組み込んだアプリを開発できるようになり、ユーザインターフェイスが格段に向上した。音声操作のアプリが勢いを増す中で、Siriを組み込んだボイスアプリのエコシステムが広がっている。

写真を言葉で検索する

Apple製アプリについてもSiriがカバーする範囲が広がった。特に便利なのは写真アプリ「Photos」を言葉で操作できる機能。「Show my photos from airports」と言えば空港で撮影した写真を表示する (下の写真左側)。旅行で撮影した写真を探すときは「Find my pictures from my trip to San Francisco」と言うと、サンフランシスコで撮影した写真を表示する (下の写真右側)。Deep Learningでイメージ検索技術が格段に向上し、質問に対しズバリ結果を表示する。使ってみてとても便利と感じる。

出典: VentureClef

電車の乗り換えを教えてくれる

Siriは電車の路線案内ができるようになった。現在地からサンフランシスコ空港に行くには「Give me public transit directions to San Francisco Airport」と言えば、バスと電車を乗り継いで空港に行く経路を示す (下の写真左側)。また、クルマの中で目的地までの道順を尋ねるときは「Give me directions to San Jose Airport」と指示する。ナビゲーションが始まるので、それに沿って運転する。

出典: VentureClef

Appleのスマートホーム

iOS 10からスマートホームアプリ「Home」が登場した (下の写真)。このアプリがハブとなり開発キット「HomeKit」で定義された家電を操作する。Siriに「Turn on the living light」と言えばリビングルームの電灯が灯る。Homeでは家の中の雰囲気を設定する「Scene」という機能がある (下の写真左側、中央部)。Siriに「Set my movie scene」といえば、テレビで映画を見るために最適な暗さになる。電灯の輝度が落ちうす暗くなる。

また、Automationという機能を使うと、家の中の家電を自動制御できる (下の写真右側)。家の中が暗くなったら自動で電灯が点灯する。「At Sunset」という機能を使うと日没時に電灯がオンとなる。また、「When I Arrive Home」という機能を使うと、自宅に到着すると部屋の電灯が灯る。シンプルな機能だが電灯が自動でオンオフするのは便利と感じる。

出典: VentureClef

Siriでクルマを呼ぶ

iOS 10の最大の特徴はパートナー企業がSiriの機能を組み込んだアプリを開発できること。企業はSiri開発キットである「SiriKit」でアプリを開発する。SiriKitで開発されたアプリはSiriの機能を実装し、利用者が音声でアプリを操作できる。

ライドシェア「Lyft」はSiriKitでアプリを開発した。Siriに「Get me a ride to San Francisco Airport」というとLyftのクルマを呼ぶことができる (下の写真左側)。Siriの画面にLyftアプリのウインドウが表示され、近所にいるLyftのクルマがマップ上に表示される。Siriはクルマは7分で来ますが呼びますかと尋ねる。これにYesと答えるとクルマが配車される。ライドシェアではLyftの他にUberも使える。

出典: VentureClef

Siriでお金を送る

Siriから送金することができる。「Send money with Venmo」と指示すると、無料の送金アプリ「Venmo」の送金プロセスが起動する (下の写真左側)。Siriは誰に送るのか、また、金額と添えるメッセージを聞いてくるので、これらに応えると確認画面が表示される (下の写真右側)。ここで「Yes」と答えると送金が完了する。Venmoの他に「Square Cash」で送金することもできる。

出典: VentureClef

Siriからメッセージを送り電話をかける

Siriからメッセージアプリ「WhatsApp」を起動しメッセージを送信できる。「Send a WhatsApp message to Alice..」と指示する (下の写真左側)。また、ソーシャルネットワーク「LinkedIn」で友人にメッセージを送信できる。「Send a LinkedIn message to John..」と指示する (下の写真右側)。この他にSiriから「Skype」や「Vonage」を使って電話をかけることができる。

出典: Apple

Apple WatchからSiriを利用すると便利

SiriはApple Watchからも利用できる (下の写真左側)。家の中や外出先では、iPhoneを取り出す代わりにApple WatchでSiriを使うのが便利。Apple Watchに「Hey Siri, Set my movie scene」と語り掛けタスクを実行する (下の写真右側)。iPhoneでも「Hey Siri、」と呼び掛けてSiriを起動できるが、その際はiPhoneを電源に接続しておく必要がある。

出典: VentureClef

SiriKitで音声アプリを開発

前述の通り、SiriKitは開発者向けのツールで、これを利用してSiriの音声機能を組み込んだアプリを開発する。SiriKitは業務領域「Domain」ごとに提供される。DomainはVoIP calling、Messaging、Payments、Photo、Workouts、Ride bookingなどから構成される。SiriKitがユーザとのやり取り全てを担う。音声認識や自然言語解析などのAI機能はSiriKitが提供する。ただし、開発者は業務に固有の言葉を登録し、Siriのボキャブラリーを増やす必要がある。

Siriは輝きを取り戻すか

新しくなったSiriを使うと利用できるシーンが増えてとても便利になったと感じる。同時に、Siriの音声認識精度についてフラストレーションを感じることも少なくない。GoogleやAmazonと比べるとその差が歴然としてきた。iOS 10からはSiriの機能が公開され、ボイスクラウドに進化した。この基盤上でクールなアプリが登場しようとしている。AIに対して及び腰であったAppleであるが、Open Siriで機能アップが期待される。最初にSiriを使った時の驚きは鮮明で、SiriKitはこの輝きを取り戻す切っ掛けになるのかもしれない。

感情を理解するAI ~ 声のトーンから心情を読む、Apple Siriが優しくなる?

マシンが人間の感情を理解してヒューマンタッチな振る舞いをする。マシンが話し言葉からその場の空気を読むことができる。いまマシンと人間の関係が変わろうとしている。人間の感情を理解するAIが登場している。マシンとの信頼関係が生まれる日もそう遠くはない。

出典: White House

人の声を解析して感情や特質を抽出

人間の声はコンテンツを伝えるだけでなく、その人の心情を映し出す。会話で伝達される情報の多くは声のトーンや顔の表情や体の動きにある。イスラエルに拠点を置くベンチャー企業「Beyond Verbal」は、人の声を解析して感情や特質を抽出する技術を開発している。この技法は「Emotions Analytics (感情解析)」と呼ばれ、マーケットリサーチに応用されている。また、声から病気を診断する研究で大きな成果が報告されている。これらの研究は人間のように振る舞うマシンに繋がると期待されている。

オバマ大統領の広島スピーチ

この技術を我々も使うことができる。Beyond Verbalはスマホ向けのアプリ「Moodies」をリリースした。このアプリはEmotions Analyticsの技法を実装している。アプリに向かって喋ると、声のトーンを解析しそこに含まれる感情を抽出する。このアプリでオバマ大統領の演説を解析してみた。これは広島平和公園でのスピーチで、最初の3分間をアプリに入力した。「Seventy-one years ago, on a bright cloudless morning, death fell from the sky and the world was changed…」で始まる演説で、重々しい口調で進行する (上の写真)。

アプリで大統領の心情を読む

戦争の悲惨さを訴える演説であるが、アプリの解析は異なる見解を示した。オバマ大統領の心情は、冒頭の部分は「Motivation (鼓舞)」と判定した (下の写真、左側)。聴衆を動機づける演説であり、同時に、問題に対する解を模索していると解釈した。演説のトーンは時間ごとに変わり、このほかに「Dominance (威厳)」や「Hope(希望)」や「Friendliness(親しみ)」などの評価が続く (下の写真、右側のグラフが心情の変化を表す)。

出典: VentureClef

高揚感と失望感が交錯

総合評価として、解を求めて進む点が心情的にポジティブと評価された (上のグラフの緑色の分部)。一方、希望を伝えようとするが現実は異なると感じている点が感情的に落ち込んでいると評価された (上のグラフで谷の分部)。我々には重く苦渋に満ちた演説と聞こえたが、オバマ大統領の心中は、世界に平和を呼びかける高揚した気持ちと、プラハ宣言以来進まない核兵器廃絶への挫折感が交錯したものになっていたことが分かる。

トランプ大統領候補者の演説を分析

Beyond VerbalはEmotions Analyticsを使って大統領選候補者Donald Trumpの演説を分析した結果を公開した。これは公開討論会でFox NewsのMagen KellyがTrumpに質問する形式で進められた (下の写真)。Emotions Analyticsの解析によると、この演説は「Charisma(カリスマ)」で「Creativity(クリエイティブ)」で「Playfulness(遊び心に富む)」と評価された (写真最下部のキャプション)。

この討論会をテレビで見ていたが、Trumpの発言はとても面白く、聴衆を惹きつける魅力を持っていると感じた。Emotions Analyticsでの解析結果の通り、機知に富み遊び心が豊かで、エンターテイナーとしての偉大な能力を感じた。しかし、発言の内容は不適切な言葉遣いや偏った解釈も多く、政治家としてのTrumpの評価は必ずしも高くはない。政治的な手腕については疑問視されるものの、Beyond VerbalはTrump人気の秘密は言葉の情緒的な面にあると指摘する。

出典: Beyond Verbal

自分の心情を正しく理解できない

このアプリは日常生活で健康管理のツールとして利用できる。自分の感情を正しく理解するのは極めて難しいと感じることが多い。筆者は電話での会話などをアプリで解析し、その時の心情がどうであったかを把握している。自分では活気に満ちた話し方をしたと思っていたが、アプリで計測すると「Loneliness (寂しい)」や「Unhappy (楽しくない)」と判定されたことも少なくない。自分が思っている心持と、実際の評価が異なることに驚いた。

健康管理に利用できる

元気のない時は少し大きめの声で音程を揚げて話すように努めてきた。しかし、アプリで分析するとこの作戦は全く通用しないことが分かった。心情は声の大きさや音程とは相関関係がなく、このような小手先の技で相手を欺くことはできない。元気のな時は抜本的な対策が必要と感じる。これは人により異なるが、筆者の場合は好きな音楽を聴いた後はアプリの判定はポジティブとなることが多い。声から自分の心理状態を判断することで、健康な生活を送る手がかりをつかめる。

マーケットリサーチで利用されている

Beyond Verbalは企業向けのソリューションを提供しており、マーケットリサーチなどで活用されている。企業が商品のブランドやデザインについて調査する際にEmotions Analyticsを利用する。また、広告効果を検証する際にも利用されている。被験者に対象物に関する情緒的な質問をして、その回答を録音する。この音声をEmotions Analyticsで解析し、被験者の対象物に対する評価を査定する。解析するのは言葉の意味ではなく、音声に含まれている感情を読み取る。人間が発する言葉は真実と異なることが多々あるが、音声に含まれるシグナルは嘘をつかない。

病気の判定で効果を上げる

この技法は医療分野で成果を上げている。Beyond VerbalはMayo ClinicやScrippsなど米国の先端医療機関と共同研究を展開している。最新研究によると、声は感情を含むだけでなく、健康状態を内包することが分かった。被験者の声が心臓疾患に関連するシグナルを含んでいることが判明した。音声シグナルが心臓疾患のバイオマーカーになり、音声を録音するだけで病気を判定できる。これに先立ち、音声は自閉症やパーキンソン病と関連性があることも解明されている。また、音声とうつ病やディスレキシア (難読症) との関係も解明されている。我々が喋る言葉は健康を映し出す鏡でもある。

Appleの臨床試験プラットフォーム

音声と疾患の関係を医学的に解明したのはBeyond Verbalが初となる。いまスマートフォンやウェアラブルで病気を診断をする技術が登場している。Appleは臨床試験のためのプラットフォーム「ResearchKit」を提供している。医療機関はこのプラットフォームを利用して短時間で大規模な臨床試験を実施できる。臨床試験に参加する被験者はResearchKitで提供されるアプリで簡単な試験を行う。

パーキンソン病の臨床試験アプリ

パーキンソン病に関する臨床試験アプリ「mPower」が注目されている (下の写真)。これは非営利団体「Sage Bionetworks」により開発され、被験者はこのアプリをiPhoneで利用する。アプリの指示に沿って操作すると、パーキンソン病を判定できる。三つの操作を指示され、被験者は指でボタンをタップし、マイクにあ~と発声し、また、記憶力を試す問題に答える。被験者の試験結果を集約することで、大規模なパーキンソン病の臨床試験を展開できる。

出典: Sage Bionetworks

マシンに感情を理解させる

Beyond Verbalの最終目標はマシンに人間の感情を理解させることにある。今のマシンは人間の感情を理解することができなく、Emotional Blindといわれる。Beyond Verbalの目的はマシンが感情のレベルで人間とコミュニケーションすることにある。このためには、マシンが人間の感情をリアルタイムで把握することが必要となる。この情報をマシンにフィードバックすることで、マシンは利用者の感情に沿った対応ができる。

Apple Siriが感情を理解すると

Apple Siriに「What am I doing?」と質問すると「Interesting question」と受け流される。もしSiriが感情を理解すると、人間のような反応が期待できる。仕事が忙しく疲れていると把握すると、Siriは「少し休憩してお茶を飲みましょう」と提案する。落ち込んでいる時はSiriが好きな曲を再生してくれるのかもしれない。Siriだけでなく、Amazon EchoやGoogle Homeも声に含まれている感情を理解し、ヒューマンタッチな機能を開発しているのは間違いない。Beyond Verbalの技術が感情を理解するマシンの基礎となる。

家全体が人工知能で覆われる、Amazon Echoで創るスマートホーム

AIスピーカー「Amazon Echo」はデバイスからAIクラウドに進化した。音声で家電を操作でき、近未来のスマートホームを創りだす。屋外ではウエアラブルがEchoとして機能し、音声でデバイスを操作できる。生活空間全体がAIで覆われる。Echoは我々に言葉の重要性を気付かせてくれた。ボイスファーストの設計思想がAmazon Echoの大ヒットに繋がった。

出典: VentureClef

ハードウェアからボイスクラウドに

Amazon EchoはAIを駆使した音声認識スピーカー (上の写真) で、キーボードは無く言葉で操作する。EchoはAmazonのヒット商品で、2015年末までに300万台が出荷された。今ではEchoの他に、普及モデルの「Echo Dot」と「Tap」が加わり、製品ラインが拡充された。Amazonのビジネスモデルも進化を続け、ハードウェアからAIを活用した音声サービスに向かっている。Amazon Echoの音声機能を一般に公開し、企業がボイスクラウドで独自のサービスを構築する。

Echoで稼働する音声アプリ

この音声サービスは「Alexa」と呼ばれ、企業はこの機能を使いAmazon Echoで稼働する音声アプリを開発する。この音声アプリは「Skill」と呼ばれる。Skillはアプリストアーに相当する「Alexa App」に掲載され、今では1500本が稼働している (下の写真)。気に入ったSkillを読み込みEchoで利用する。Amazonが開発したSkillは同名の「Alexa」と呼ばれ、Echoに組み込まれている。

出典: Amazon

Alexaの基本機能

毎日の生活でAmazon Echoを使っているが、今では家族の一員となった。EchoでAlexaを呼び出し、ニュースを聞くのが基本パターンである。Echoに対して「Alexa, what’s in the news?」と尋ねると、最新のニュースを話してくれる。Echoは常に周囲の声を聞いているので、「Alexa」と言えばそれに続く指示を理解する。その他に、音楽を再生したり、情報を検索できる。Echoと対話できるので、人間と話しているような気分になる。

音声操作のスマートホーム

Amazon Echoで一番便利だと感じるのが家電を音声で操作する機能だ。スマートライト「Philips Hue」を使っているが (下の写真、左がハブで右がLEDライト)、これを言葉で操作できる。HueはLEDライトに通信機能 (ZigBee) を内蔵しており専用アプリで操作する。オンオフの操作やライトの輝度や色を変えることができる。これをEchoと連携すると音声で操作できる。「Alexa, turn on the light」と指示すると、Alexaは「Okay」と答えライトを点灯する。「Alexa, dim the light」と言えば明かりを絞ってくれる。部屋が近未来の居住空間に変身する。

出典: VentureClef

Apple HomeKitとの連携

Philips HueはAppleのスマートホーム「HomeKit」からも利用できる。専用アプリでSiriと連携することで音声操作ができる (下の写真)。Siriに「Turn off the light」と言えば、ライトを消灯する。Apple WatchのSiriを使うこともできる。

出典: VentureClef

実際に使ってみるとAppleとAmazonの製品コンセプトは決定的に異なることが分かる。Siriの場合はiPhoneを取り出してホームボタンを押す操作が必要となる。Apple Watchではクラウンを長押しする。それ以上に、そもそも家族のメンバーがiPhoneやApple Watchを持ってなくては操作できない。Echoであれば誰でも操作でき、スマートホームのハブとして機能する。HomeKitは個人が操作することを念頭に設計されているが、Amazon Echoは家族みんなが使える構造になっている。

空調やガレージドアとの連携

Echoをサーモスタット「Nest」と接続すると音声で空調の温度を調整できる。「Alexa, set the living room to 72 degrees」と指示すると温度を華氏72度に設定する。ガレージドア開閉装置「Garagio」をEchoとリンクすると音声でドアの開閉ができる。帰宅してEchoに「Alexa, tell Garagio to close my door」と指示すればガレージドアが閉まる。住居の中でEchoの守備範囲が広がっている。

Echoでピザを注文する

Alexa Appに便利なSkillが増えてきた。よく利用するのがピザを注文する「Domino’s」というSkillだ。Echoに「Alexa, ask Domino’s to place my Easy Order」と言うだけでピザを注文できる。Echoは料金と配送時間を告げ、これに「Yes」と答えるだけで焼き立てのピザが届く (下の写真)。ただ、Echoでピザの種類などを指定することはできないため、事前にDomino’sのサイトで好みのメニュー「Easy Order」を指定しておく。これでけで驚くほど簡単に出前を注文できる。

出典: VentureClef

Amazon Voice Service

Amazonは前述の音声サービスAlexaに加え、新たな会話サービス「Amazon Voice Service (AVS)」の提供を始めた。この機能をデバイスに組み込むことで、Echoのような製品を作ることができる。AlexaはEchoなどAmazon製品で稼働するアプリを開発するために利用される。これに対して、AVSはハードウェア製品にAmazon音声サービスを組み込むために利用される。Amazonのビジネスはデバイスから音声サービスに向かっている。

スマートウォッチに音声サービスを組み込む

ベンチャー企業からAVSを組み込んだ製品が登場している。Omate Riseはスタンドアロンで稼働するスマートウォッチを開発している (下の写真)。スマホは必要なく単独で稼働する。3G/Bluetooth/WiFiを搭載し新世代のウエアラブルとして注目されている。Omate Riseで電話、音声検索、音声メモ、ナビゲーション、音楽再生ができ、フィットネストラッカーとしても使われる。Omate RiseはAVSを統合し200以上のSkillをスマートウォッチで使うことができる。Omate RiseがEchoとなり、屋外でもAlexaを使うことができる。

出典: Omate

マシンが利用者の感情を理解する

AmazonはAlexaが利用者の感情を理解する機能を開発している。話し方のトーンで利用者がどう感じているのかを把握する。使い方としては、利用者の意図が伝わらなくてイライラしていることをAlexaは声のトーンから把握する。そうするとAlexaは利用者に申し訳なさそうに謝罪する。Machine Learningの手法で声に含まれている感情を高精度に把握する。マシンが利用者の心の動きに沿った対応をする。

ボイスファースト

Amazon Echoの最大の特徴は入力モードは音声だけであること。ボイスファーストのコンセプトで製品が開発され、クールなSkillが続々登場している。マシン操作で音声がいかに重要であるかをAlexaは再認識させてくれた。特にスマートホームの操作では音声が決定的に重要なインターフェイスになる。Amazon Echoの大ヒットを追って、GoogleはAIアシスタント「Google Home」を開発している。AppleはAIスピーカー「Apple Home」を開発していると噂されている。

AIクラウドでの音声サービス

音声認識の精度だけで比較するとGoogleがAmazonを上回る。しかし、人間のように会話する能力はAmazonが上回る。小さな女の子が遊びに来てEchoと話をしたが、スピーカーが人間のように話をするので気味悪がって近づかなくなった。小さな子供への対策が必要かもしれないが、これからはボイスクラウドが大きなビジネスとなる。ロボットやチャットボットなどと同様に、AIの進化が音声サービス機能を急速に向上させている。