PixelはAIスマホとして位置づけられ、Assistantはコンシェルジュのように会話を通して生活をサポートする。Pixelに対し「Ok Google」と語り掛けるとAssistantが立ち上がり、これに続く言葉を認識する。「When does the San Francisco Moma close」と質問すると、「Moma is open now, it closes at 5 pm」と答える。美術館は5時に閉館するのでまだ開いていることが分かる (下の写真左側)。Assistantは声を聞き分ける生体認証機能があり、筆者のPixelに対して他人が「Ok Google」と呼びかけれも反応しない。
出典: VentureClef
Assistantで撮影した写真を探す
Assistantは写真検索で威力を発揮する。「Show
me my photos in the rain」と指示すれば、雨の日に撮影した写真を表示する (上の写真中央上段)。「Show me my pictures taken at
Google campus」と指示すると、Googoleキャンパスで撮影した写真を表示する
(上の写真中央下段)。音声で操作できるのでスマホでサクサク検索できる。Pixelで撮影した写真はオリジナルサイズで写真アルバム「Google Photos」に格納される。ストレージ容量の制限は無く何枚でも格納できる。
Assistantでレストランを予約する
Assistantは情報検索だけでなく指示されたタスクを実行する。レストランを予約する時はAssistantと対話しながら場所や時間などを決めていく。最後に確認画面が表示され、Yesと答えるとレストランアプリ「OpenTable」で予約が完了する。電話で話すように驚くほど簡単にレストランの予約ができる。また、Assistantは一日のスケジュールを管理する。「What’s next on my calendar」と質問するとAssistantは次の予定を回答する。ここでは予約したレストランの概要が示された (上の写真右側)。
Assistantでアプリを操作する
AssistantはPixelアプリを操作できる。つまり、搭載しているアプリを音声で利用できる。Assistantに「Katy
Perry on Instagram」と指示すると、インスタグラムのPerryのページを開く
(下の写真左側)。また、「Open Snapchat」と指示すると、スナップチャットが起動してメッセージを読むことができる (下の写真中央)。Assistantに「Play music by Beyoncé」と指示すると、音楽アプリ「Google Music」が起動しビヨンセの音楽を再生する
(下の写真右側)。Assistantの音声認識精度は高く、言葉でスマホを操作できるのはとても便利だ。
Pixelカメラは音声で写真を撮影できる。これはAssistantの一部で、フロントカメラで自撮りする時は、「Ok Google, take a selfie」と語るとシャッターが下りる。腕を伸ばして難しい姿勢でシャッターを押す必要はない。メインカメラで写真撮影をするときも、「Ok
Google, take a picture」と言えばシャッターが下りる。タイマーを使う代わりに音声で集合写真を撮影できる。メインカメラからフロントカメラに切り替えるときは、Pixelを縦に持ち二回ひねる。
Fi Networkは単に通信網を提供するだけでなく、両者のうち電波強度の強いネットワークに自動で接続する。また、LTEやWiFiなど異なるネットワーク間で最適な通信網を選択し、サービスを途切れなく利用できる。屋内では通話やテキストメッセージはWiFi経由で交信する。屋外に出るとGoogleの移動体ネットワークFi Networkに接続される。
Fi Networkの料金体系はシンプルで基本料金とデータ料金の組み合わせで構成される。基本料金は月額20ドルで、ここに通話、テキストなどが含まれる。データ通信は月額10ドル/GBで、例えば2GBで契約すると月額20ドルとなる。制限量まで使っていない場合は、翌月分の料金から差し引かれる、良心的な料金体系となっている。またデータ通信料はグラフで示され
(上の写真右側) 使用量を明確に把握できる。(ロックスクリーン左上にFi
Networkと表示される、下の写真左側。アイコンは小さめの円形になりホームスクリーンのデザインがすっきりした、下の写真右側。)
この市場で勝つためには若者層を引き付ける必要がある。Alloは表現力が豊かで、メッセージをグラフィカルに示する。これは「Whisper or Shout」と呼ばれ、メッセージ欄のスライドを上下してテキストの大きさを変更できる。上にあげると文字やシンボルが大きくなる (下の写真右側上段)。またAlloオリジナルのStickerが数多く揃っており、メッセージで表現できる幅が広がった。 (上の写真右側下段)。
返信文を自動で生成
Alloは受信メッセージを読み、これを理解して、自動で返信文を生成する。これは「Smart
Reply」と呼ばれる。「Do you like to drive」とのメッセージを受信すると、それに対してAlloはリアルタイムで「Sure」、「Yes」、「No」の返信文を生成する (下の写真左側)。自分でタイプする必要はなく、ボタンにタッチするだけで返信でき大変便利。Smart
Replyは既にメール「Inbox」で導入され人気の機能となっている。
出典: VentureClef
写真に対しても返信文を生成
AlloのSmart Replyはテキストだけでなく写真に対しても使える。空港で撮影した飛行機の写真を受信すると、Alloは「Nice
plane」、「Have a nice flight」、「Bon
voyage!」と返信文を生成する (上の写真右側)。Alloは高度なイメージ認識能力を持っている。ひまわりの写真を受信すると、Alloは「Beautiful」、「Nice sunflower」、「Pretty」と返信文を生成する (下の写真左側)。Alloは花だけでなく、この花がひまわりであることを把握する。花の種別を判定するには高度な技術を要し、この背後にはニューラルネットワークが使われている。
出典: VentureClef
利用者のスタイルを反映した返信文
しかしAlloは食べ物の写真についてはうまく判定できない。サラダの写真に対し、「Yummy!」、「Wish
I could try」と返信文を生成する (上の写真右側)。Alloはこれは食べ物であると理解するが料理の種類までは特定できない。Googleはイメージ認識技術で世界のトップを走っており、料理の種類を認識することは容易い。近々にこの機能がAlloに実装されると思われる。Alloは機械学習を重ねることで利用者の表現方法を学んでいく。利用者のスタイルを反映した返信文を作成できるようになる。
今日はイタリア料理を食べようと話していると、Assistantが気を利かせて近所のイタリア料理店を紹介する。友人に「Let’s
go for Italian food」とメッセージを送ると、Assistantはコンテキスト理解してして「Italian
food places nearby」と語り、近所のイタリア料理店を紹介する (下の写真左側)。ここではGoogle Knowledge Graph機能が使われている。
友人との会話を離れ、直接Assistantと対話することができる。Assistantに指示すれば有能な秘書のようにこれに答えてくれる。「Cute
dog pictures」と指示すると、Assistantは「Check
out these pictures」と述べ、可愛い犬の写真を探してくる。更に「Cute puppy images」と指示すると、子犬の写真を表示する。ここではGoogle Image Searchの検索結果が使われている。
Travelカードにタッチすると旅行関連の情報が表示される。フライトを探すときには「Flights
to New York」と指示すると、現在地 (San Francisco) からNew
Yorkまでの航空運賃が表示される。条件で絞り込んで希望のフライトを探す。また、到着地のホテルの検索もできる。ここでもフライトやホテルの予約はリンク先のウェブサイトで行う。まだ、Assistantから直接予約することはできない。
一日のスケジュールを管理
Assistantは利用者のスケジュールを把握しており、秘書のように会議予定などを管理をする。例えば、「Show
my flights」と指示すると、予約しているフライト情報を表示する (下の写真左側)。また、「What’s my next meeting」と言えば、今日の予定を表示する
(下の写真右側)。Assistantは忙しい生活の中でなくてはならない存在になりつつある。AssistantはGoogle Calendarとリンクしスケジュールを把握している。
出典: VentureClef
AlloとGoogle音声検索
Alloはメッセージング機能では目新しさを感じないが、Assistantの会話型AIは便利であると感じる。Assistantがインターフェイスとなり対話を通してGoogleを利用する。ただ、Assistant機能の多くはGoogle音声検索からも使える。Googleに「What’s
my schedule today?」語り掛けると、今日のスケジュールを教えてくれる。音声検索とAlloでできることに大きな違いはないが、Alloは会話を通して利用者とインタラクションする点が大きく異なる。検索結果が表示されそこで会話が止まるのではなく、連続して対話が進む点が大きな特徴となる。
Apple製アプリについてもSiriがカバーする範囲が広がった。特に便利なのは写真アプリ「Photos」を言葉で操作できる機能。「Show
my photos from airports」と言えば空港で撮影した写真を表示する (下の写真左側)。旅行で撮影した写真を探すときは「Find my pictures from my trip to San Francisco」と言うと、サンフランシスコで撮影した写真を表示する (下の写真右側)。Deep Learningでイメージ検索技術が格段に向上し、質問に対しズバリ結果を表示する。使ってみてとても便利と感じる。
出典: VentureClef
電車の乗り換えを教えてくれる
Siriは電車の路線案内ができるようになった。現在地からサンフランシスコ空港に行くには「Give
me public transit directions to San Francisco Airport」と言えば、バスと電車を乗り継いで空港に行く経路を示す
(下の写真左側)。また、クルマの中で目的地までの道順を尋ねるときは「Give
me directions to San Jose Airport」と指示する。ナビゲーションが始まるので、それに沿って運転する。
出典: VentureClef
Appleのスマートホーム
iOS 10からスマートホームアプリ「Home」が登場した (下の写真)。このアプリがハブとなり開発キット「HomeKit」で定義された家電を操作する。Siriに「Turn on the living
light」と言えばリビングルームの電灯が灯る。Homeでは家の中の雰囲気を設定する「Scene」という機能がある (下の写真左側、中央部)。Siriに「Set my movie scene」といえば、テレビで映画を見るために最適な暗さになる。電灯の輝度が落ちうす暗くなる。
また、Automationという機能を使うと、家の中の家電を自動制御できる (下の写真右側)。家の中が暗くなったら自動で電灯が点灯する。「At Sunset」という機能を使うと日没時に電灯がオンとなる。また、「When
I Arrive Home」という機能を使うと、自宅に到着すると部屋の電灯が灯る。シンプルな機能だが電灯が自動でオンオフするのは便利と感じる。
ライドシェア「Lyft」はSiriKitでアプリを開発した。Siriに「Get
me a ride to San Francisco Airport」というとLyftのクルマを呼ぶことができる
(下の写真左側)。Siriの画面にLyftアプリのウインドウが表示され、近所にいるLyftのクルマがマップ上に表示される。Siriはクルマは7分で来ますが呼びますかと尋ねる。これにYesと答えるとクルマが配車される。ライドシェアではLyftの他にUberも使える。
出典: VentureClef
Siriでお金を送る
Siriから送金することができる。「Send
money with Venmo」と指示すると、無料の送金アプリ「Venmo」の送金プロセスが起動する
(下の写真左側)。Siriは誰に送るのか、また、金額と添えるメッセージを聞いてくるので、これらに応えると確認画面が表示される
(下の写真右側)。ここで「Yes」と答えると送金が完了する。Venmoの他に「Square Cash」で送金することもできる。
出典: VentureClef
Siriからメッセージを送り電話をかける
Siriからメッセージアプリ「WhatsApp」を起動しメッセージを送信できる。「Send a WhatsApp message to Alice..」と指示する (下の写真左側)。また、ソーシャルネットワーク「LinkedIn」で友人にメッセージを送信できる。「Send a LinkedIn message to John..」と指示する (下の写真右側)。この他にSiriから「Skype」や「Vonage」を使って電話をかけることができる。
出典: Apple
Apple WatchからSiriを利用すると便利
SiriはApple Watchからも利用できる (下の写真左側)。家の中や外出先では、iPhoneを取り出す代わりにApple WatchでSiriを使うのが便利。Apple
Watchに「Hey Siri, Set my movie scene」と語り掛けタスクを実行する
(下の写真右側)。iPhoneでも「Hey
Siri、」と呼び掛けてSiriを起動できるが、その際はiPhoneを電源に接続しておく必要がある。
この技術を我々も使うことができる。Beyond Verbalはスマホ向けのアプリ「Moodies」をリリースした。このアプリはEmotions
Analyticsの技法を実装している。アプリに向かって喋ると、声のトーンを解析しそこに含まれる感情を抽出する。このアプリでオバマ大統領の演説を解析してみた。これは広島平和公園でのスピーチで、最初の3分間をアプリに入力した。「Seventy-one years ago, on a bright cloudless
morning, death fell from the sky and the world was changed…」で始まる演説で、重々しい口調で進行する
(上の写真)。
Apple Siriに「What am I
doing?」と質問すると「Interesting question」と受け流される。もしSiriが感情を理解すると、人間のような反応が期待できる。仕事が忙しく疲れていると把握すると、Siriは「少し休憩してお茶を飲みましょう」と提案する。落ち込んでいる時はSiriが好きな曲を再生してくれるのかもしれない。Siriだけでなく、Amazon EchoやGoogle Homeも声に含まれている感情を理解し、ヒューマンタッチな機能を開発しているのは間違いない。Beyond
Verbalの技術が感情を理解するマシンの基礎となる。