カテゴリー別アーカイブ: Google

AIで音楽を作曲してみると、アルゴリズムが感動的なオリジナルミュージックを生成

人気歌手Taryn SouthernはAIで作曲した音楽を発表し話題となっている。AIが作曲した音楽にSouthernが歌詞を付け歌っている(下の写真)。実は、我々が聴いている音楽の多くはAIが作曲している。実際に、AIで作曲してみたが、簡単に感動的な音楽を生成することができた。ビジネスで使える高品質な音楽で、AIミュージックの進化を肌で感じた。

出典: Taryn Southern

Amper Scoreをトライアル

作曲で使ったAIは「Amper Score」で、ニューヨークに拠点を置くベンチャー企業「Amper Music」が開発した。Amper ScoreはAI作曲プラットフォームでクラウドとして提供される。音楽のスタイルやムードを指定するとAmper Scoreがそれに沿った音楽を生成する。プロ歌手が使うだけでなく、ビデオの背景音楽を生成する利用方法が広がっている。メディア企業は映像にマッチする音楽をAmper Scoreで生成する。

Amper Scoreの使い方

Amper Scoreは設定に沿った音楽をアルゴリズムが生成する。音楽のスタイル、情景、ムードなど指定すると、これに沿ったサンプル音楽が生成される。例えば、音楽のスタイルを「Cinematic」に、情景を「Ambient」に、ムードを「Confident」と指定すると、「Soap Opera Drama」という音楽が生成された(下の写真)。お昼のメロドラマの背景音楽にピッタリの甘くて危険な感じのする曲が生成された。

出典: VentureClef / Amper Music

楽器の設定など

生成された音楽をそのまま使うこともできるが、更に、演奏する楽器などを設定することができる。ここでは背景音、ギター、パーカッション、弦楽器などを指定できる。弦楽器ではバイオリン、ビオラ、チェロなどを指定でき、更に、それらの音質を指定できる(下の写真)。「Robust」と指定すると歯切れのいい音に、「Sweet」とすると柔らかい音になる。

出典: VentureClef / Amper Music

全体の構成など

事前に音楽の構成として、全体の長さ、イントロ(Intro)、メインテーマ (Climax)、エンディング(Outro)の長さを指定しておく。設定が完了し再生ボタンを押すと、AIが生成した音楽を聴くことができる。出来栄えを把握し、必要に応じて設定を変更し、求めているイメージに合った音楽に仕上げていく。

プロモーションビデオ

実際に上述の手順でサンフランシスコの観光案内ビデオをAmper Scoreで作成した(下の写真)。Union Squareをケーブルカーが走るビデオをアップロードし、設定画面で「Hip Hop」スタイルと「Heroic」ムードを選択。これだけの操作で、テンポのいいリズムに合わせ弦楽器がスタンドプレーする華やかな音楽ができた。更に、バイオリンやハイハットなどの音色を調整し10分程度でプロモーションビデオが完成した。商用コマーシャルとして使える高品質な出来栄えとなった。

出典: VentureClef / Amper Music

大手企業で利用が始まる

AIで音楽を生成する手法は大企業で採用が進んでいる。大手ニュース配信会社Reutersはコンテンツ生成プラットフォーム「Reuters Connect」を発表した。これはニュースコンテンツの販売サイトで、世界のジャーナリストはここでビデオを購入し、それを編集し、自社の記事で利用する。Reuters ConnectでAmper Scoreが使われており、利用企業はこのサイトでニュース映像にマッチする音楽を生成する。

AIが音楽産業を変える

AIミュージックの技術進歩は激しく、このペースで進化するとアルゴリズムが人間の作曲家の技量を上回る時代が来るのは間違いない。トップチャートの20%から30%はAIが作曲するとの予測もある。一方、AIが生成する音楽はフェイクミュージックで、人間が創り出した音楽の模倣で、創造性は認められないという意見も少なくない。議論は分かれるが、メディア産業はAIによりその構造が激変している。

AIが音楽を生成する仕組み】

GoogleのAI音楽プロジェクト

音楽生成と自然言語解析はメカニズムがよく似ており背後で稼働するニューラルネットワークは同じものが使われる。Googleは音楽を生成するAI技法「Music Transformer」を開発した。Music Transformerは文字通り「Transformer」という高度なニューラルネットワークで音楽を生成する。

AIが音楽を生成するメカニズム

Transformerは自然言語解析で使われ、入力された文章に続く言葉を推測する機能を持つ。Transformerは機械翻訳で威力を発揮し「Google Translate」の背後で稼働している。Music Transformerはこの仕組みを音楽に応用したもので、アルゴリズムが次の音を予測する。つまり、AIが音楽を生成するとはTransferが音を読み込み、それに続く音を予測する処理に他ならない。

作曲を可視化すると

実際に、AIが音楽を生成する過程(下のグラフィックス)を見るとMusic Transformerの機能を理解しやすい。音楽は左から順に生成され、ピンクの縦軸がMusic Transformerが音を生成している個所を指す。その左側の黒色のバーは生成された音楽で、円弧はMusic Transformerとの依存関係を示している。Music Transformerは特定のHidden State(円弧がポイントする部分)を参照し音を生成する。つまり、Music Transformerは直近に生成した音だけでなく、遠い過去に生成した音を参照して音楽を生成していることが分かる。

出典: Cheng-Zhi Anna Huang et al.

作曲が難しい理由とMusic Transformerの成果

音楽を生成するのが難しい理由は、音楽は異なるスケールの時間軸で構成されているため。音はすぐ前の音と繋がりを持ち(モチーフの繰り返しなど)、また、遠い過去の音との繋がりを持つ(複数小節の繰り返しなど)。従来手法(Recurrent Neural Networkを使う手法)は長期依存の機能は無く(遠い過去の音は参照できない)、最初に登場するモチーフは繰り返されない。これに対し、Music Transformerは短期と長期の依存があり、最初に登場するモチーフを繰り返し、ここから独自に音楽を展開できるため、高品質な音楽が生成される。上述のTaryn SouthernはAmper ScoreやGoogle Music Transformerを使って作曲している。新世代の歌手は芸術性だけでなくデータサイエンティストとしての技量も求められる。

Alphabet配下のWaymoとDeepMindが連携すると、AIが自動運転アルゴリズムを生成

Alphabet子会社であるWaymoとDeepMindは共同で、AIで自動運転アルゴリズムを生成する技法を開発した。自動運転車はニューラルネットワークで周囲のオブジェクトを把握し、その挙動を予想し、クルマの進行方向を決める。今までは、研究者がニューラルネットワークを開発してきたが、この技法を使うとAIがニューラルネットワークを生成する。AIがAIを生成する技法は既に登場しているが、これを自動運転車に適用したのはWaymoが初となる。

出典: Waymo

アルゴリズム教育

自動運転車はニューラルネットワークが安全性を決定する。Waymoは複数のニューラルネットワークを使い、センサーデータを解析し、車線や道路標識や歩行者や車両などを判定する(上の写真)。新しいデータを収集した時や、新しい場所で運転を開始する際は、ニューラルネットワークの再教育が必要となる。しかし、ニューラルネットワークを教育し、その精度を検証するには時間を要す(数週間かかるといわれている)。

ハイパーパラメータ最適化

アルゴリズム教育はニューラルネットワークのハイパーパラメータの最適化(Hyperparameter Optimization)に帰着する。ハイパーパラメータとはニューラルネットワークの基本形式で、学習速度(Learning Rate)、隠れ層(Hidden Layer)の数、CNNカーネル(Convolution Kernel)の大きさなどから構成される。ニューラルネットワークの教育を開始する前に、これらハイパーパラメータを決めておく。

AIで最適なハイパーパラメータを見つける

最適なハイパーパラメータを見つけるためには、異なる種類のハイパーパラメータを並列に稼働させ、それを検証して性能を比較する。この方式は「Random Search」と呼ばれ、AI(Deep Reinforcement Learning)の手法を使い、最適なハイパーパラメータを探す。Googleはこの方式を「AutoML」と呼び、クラウドで一般に提供している。WaymoはこのAutoMLを使い(下の写真、AutoML Architecture Searchの部分)、自動運転アルゴリズムの開発を始めた。

出典: Waymo

DeepMindが開発した新方式

DeepMindはAutoML方式を改良したシステム「Population Based Training (PBT)」を開発した。Waymoは2019年7月、この方式で自動運転アルゴリズムを開発し、性能が大きく向上したことを明らかにした。PBTもRandom Searchでハイパーパラメータを探すが、ここにダーウィンの進化論(Theory of Evolution)を適用し、自然淘汰の方式で最適な解にたどり着く。複数のニューラルネットワークが性能を競い合い、勝ったものだけが生き残る方式を採用している。

Population Based Trainingとは

具体的には、複数のニューラルネットワークを並列で教育し、それらの性能を測定する。最高の性能を達成したニューラルネットワークが生き残り、それが子供ネットワーク「Progeny」を生み出す(下の写真、複数の子供ネットワークが教育されている概念図)。

出典: DeepMind  

子供ネットワークは親ネットワークのコピーであるが、ハイパーパラメータの形が少しだけ変異(Mutate)している。自然界の摂理を参考に、ネットワークが子供に受け継がれたとき、その形を少し変異させる。生成された複数の子供ネットワークを教育し、そこからベストのものを選別し、このプロセスを繰り返す(下の写真:親ネットワークから子供ネットワークが生成される)。

出典: DeepMind  

才能を見抜く技術

PBTは優秀な子供ネットワークにリソースを集中させ、人間に例えると英才教育を施す仕組みとなる。これがPBTの強みであるが弱点でもある。PBTは短期レンジで性能を判定するため、今は性能は出ないが将来開花する遅咲きのネットワークを見つけることができない。この問題に対応するため、PBTは多様性を増やすことで遅咲きのネットワークを育てた。具体的には、ニッチグループ(Sub-Population)を作り、この中でネットワークを開発した。ちょうどガラパゴス諸島で特異な機能を持つ生物が生まれるように、閉じられた環境でエリートを探した。

クルマに応用

PBTは野心的なコンセプトであるが、実際にそれをWaymo自動運転車に適用し、その効果が実証された。BPTはオブジェクトを判定するニューラルネットワーク(Region Proposal Network)に適用された。このアルゴリズムは周囲のオブジェクト(歩行者、自転車、バイクなど、下の写真右側)を判定し、それを四角の箱で囲って表示する(下の写真左側)。その結果、アルゴリズムの判定精度が向上し、遅延時間が短く(短時間で判定できるように)なった。更に、Waymoは複数のニューラルネットワークでこの処理を実施しているが、PBTにより一本のニューラルネットワークでこれをカバーできることが分かった。

出典: Waymo  

判定精度が大幅に向上

PBTによりアルゴリズムの性能が大幅に向上したが、具体的には、PBTで生成したニューラルネットワークは従来の方式に比べ、従来と同じ再現率 (Recall、例えば周囲の自転車をもれなく検知する割合)で精度(Precision、例えば検知したオブジェクトを正しく自転車と判定する割合)が24%向上した。また、PBTは従来方式に比べ必要な計算機の量が半分となったとしている。

Googleのコア技術

Googleのコア技術はAIでこれをWaymoが採用することで自動運転アルゴリズムが大きく進化した。上述のAutoMLはGoogle Brain(AI研究所)で開発され、さらに高度なPBTはDeepMindが開発した。自動運転車はニューラルネットワークがその商品価値を決めるが、Googleのコア技術であるAIがWaymoの製品開発を後押ししている。

Googleは発売前に次世代スマホ「Pixel 4」の概要を公表、レーダーを搭載しハンドジェスチャーで操作する

Googleは2019年7月、次世代スマホ「Pixel 4」の機能を公開した。Pixel 4は小型レーダーを搭載しハンドジェスチャーでデバイスを操作することができる(下の写真)。また、Pixel 4は初めて顔認証方式を採用し、顔をかざしてスマホをアンロックできる。Pixel 4は未発表製品であるが、写真などがリークしており、Googleは発表前にデバイスや機能を公開するという異例の措置を取った。

出典: Google

Motion Sense

Googleの先端技術開発プロジェクト「Advanced Technology and Projects 」は手の動きを感知するレーダー技術の開発を進めてきた。これは「Soli」と呼ばれ次期スマホPixel 4に搭載され(下の写真、Soli Radar Chip)、ハンドジェスチャーでデバイスを操作できる。レーダーはスマホ周辺の小さな動きを検知し、それをアルゴリズムで解析してハンドジェスチャーの意味を理解する。これにより、スマホに触らないでアプリを操作できる。また、Soliは利用者がスマホの近くにいることも検知する。

出典: Google

Motion Senseの活用方法

Motion Senseを使うとスマホの前で指や手を動かせてアプリを操作できる。音楽を聴いているときに手を振ると次の曲にスキップする。目覚まし時計が鳴っているときにスマホの上で手を振ると音が止む。電話がかかってきた時に手を振ると呼び出し音を止めることができる。この技術はスマホだけにとどまらず、今後はスマートウォッチやスマートホーム機器をハンドジェスチャーで操作することを計画している。

Face Unlock

GoogleはPixel 4に顔認識技術を取り入れ、顔をかざしてデバイスをアンロックする方式を採用することも明らかにした(上の写真、Face Unlockセンサーの配置)。これは「Face Unlock」と呼ばれ、スマホに顔を向けるだけでデバイスがアンロックされる(下の写真)。既にApple iPhoneで「Face ID」として使われているが、Face Unlockはこの機能を上回り使いやすくなった。

出典: Google

Face Unlockの使い方

Apple Face IDはiPhoneを取り上げ、それを顔の前にかざし、指で画面を下から上にスワイプしてデバイスをアンロックする。これに対し、Google Face Unlockは、Soliが利用者が近づいているのを検知し、Face Unlock機能を事前に起動する。顔がセンサーの視界に入り、アルゴリズムがこれを認証すると、Pixel 4が掴まれると同時にデバイスがアンロックされる。つまり、Pixel 4を持つだけでデバイスがアンロックされることになる。また、上下を逆に持ち上げられてもアルゴリズムは顔を認証できる。

セキュリティチップ

Face Unlock機能はPixel 4で稼働し、データは外部に出ることはなくデバイスに留まる。顔イメージなどの個人情報はデバイスに留まり、セキュリティやプライバシーに配慮した設計となっている。具体的には、顔を登録した際の情報は、Googleサーバに保管されることはなく、Pixel 4に搭載されるセキュリティチップ「Titan M」に格納される。Titan MはPixel 3から採用されデバイスの金庫として機能し、基本ソフトやアプリで扱うデータが安全に保管される。

Pixel 4の写真と名称

Googleは2019年6月、TwitterでPixel 4の写真を公開した(下の写真)。同時に、この製品は「Pixel 4」という名称であることも明らかにした。Pixel 4のカメラ仕様について様々な憶測が飛び交っていたが、これによりリアカメラは1台で箱型のケースに搭載されることが明らかになった。ネット上にはリークしたPixel 4の写真が掲載されており、Googleはこの発表でこれを追認したことになる。

出典: Google  

Soliとは

Soliは電磁波を使ったセンサーで、半導体チップから電磁波を発信し、オブジェクトで反射したシグナルをアンテナで計測する仕組みとなる。反射波のエネルギー、遅延時間、周波数シフトを計測し、それを解析することでオブジェクトの大きさ、形状、向き、材質、距離、速度を推定する。レーダーの解像度は低いが、手や指の動きを正確に把握できる。シグナルを時系列に分析する手法「Gesture Recognition Pipeline」を使い、アルゴリズム(AI)が特定の動作(ジェスチャー)をシグナルから特定する。レーダーはカメラなど他のセンサーと比べ細かな動きを把握できる特性を持ち、指先の小さな動きも正確に把握する。

出典: Google  

応用分野は幅広い

SoliはPixel 4に搭載されるが、幅広い製品に応用することを検討している。スマートウォッチに搭載すると、指を動かしアプリを操作できる。Google Mapsをスクロールするには、指でクラウンを回す動作をする(上の写真)。Soliのシグナルは服などを透過するため、ポケットやカバンにいれたスマホを指で操作できる。また、暗い場所でもジェスチャーで操作できる。Pixel 4は、言葉での指示に加え、ハンドジェスチャーでも操作できるようになる。

Google Glassが企業版として復活、早速試してみたが性能が大幅に向上しアプリがサクサク動く

Googleは2019年5月、企業向けスマートグラス最新モデル「Glass Enterprise Edition 2 (Glass EE2)」(下の写真) を発表した。Glass EE2はプロセッサが強化され、AI(コンピュータビジョンと機械学習)が組み込まれた。AR・VRカンファレンス「Augmented World Expo」でGlass EE2とそのアプリが紹介された。実際に使ってみると、Glass EE2は操作に対しレスポンスが速く、アプリがサクサク動き、性能アップを肌で感じた。

出典: VentureClef  

スマートグラス開発経緯

Googleのスマートグラスは開発方針が二転三転したが、企業向け製品とすることで方向が定まった。Googleは、2013年、スマートグラスのプロトタイプ「Glass Explorer」を投入し、次世代のウェアラブルの姿を示した。センセーショナルにデビューし市場の注目を集めたが、カメラによるプライバシー問題から、2015年、GoogleはGlassの販売を中止した。

企業向けスマートグラスに方針変更

Glass Explorerは消費者向け製品として位置付けられたが、Googleはそれを企業向けスマートグラスに仕立て直し、秘密裏に開発を続けていた。Googleは2017年、企業向けスマートグラスとして「Glass Enterprise Edition」を発表した。AR機能を使った業務用スマートグラスが登場し、製造、運輸、医療分野でトライアルが始まった。

Glass Enterprise Edition 2の概要

市場の反応は良好で、Googleは2019年5月、企業向け最新モデル「Glass Enterprise Edition 2」をリリースした(下の写真)。このモデルはプロトタイプの段階を卒業し、Googleの製品として位置付けられている。Glass EE2はプロセッサに「Qualcomm Snapdragon XR1」を採用し、演算性能が大幅に向上した。カメラ性能も強化され、インターフェイスとしてUSB-Cがサポートされた。更に、バッテリー容量が増え、一回の充電で使える時間が大幅に伸びた。(Glass EE2の形状は先頭の写真の通り、下の写真はこれにSmith Optics社製のフレームを装着したもの。)

出典: Google  

プロセッサ

Glass EE2が搭載しているQualcomm Snapdragon XR1はARとVRのヘッドセット向けに開発されたプロセッサで複数の演算機構から構成される。プロセッサはCPU(Kryo)、GPU (Adreno)、DSP(Hexagon Vector Processor)から成り、イメージ処理だけでなく、これらがAIエンジンとして機能しニューラルネットを高速で処理する。これにより画像認識(Object Classification)、ポーズ認識(Pose Prediction)、音声認識(Language Understanding)機能が大幅に向上した。

ソフトウェア

Glass EE2は「Android Oreo」を搭載し、基本ソフトが一新され、システム開発が容易になった。例えば、ライブラリやAPIを使いGlass EE2を既存システムと連携できる。また、デバイス管理機能「Android Enterprise Mobile Device Management」をサポートしており、利用企業は多数のGlass EE2を一括管理でき、業務での展開が容易になる。

パートナー企業経由で販売

Glass EE2はGoogleではなく、パートナー企業が販売する形態を取る。パートナー企業はスマートグラス向けに業務アプリを開発し、デバイスとともに販売する。既に多くのアプリが提供されており、主要企業で使われている。Glass EE2の価格は999ドルで2019年5月から販売が始まった。

製造業向けソリューション

既に、Glass EE2向けに業務ソリューションが登場している。UpskillはVienna(バージニア州)に拠点を置くベンチャー企業で、スマートグラス向けの製造ソリューションを開発している。これは「Skylight」と呼ばれ、ARを部品組み立てのプロセスに適用する。Boeingで採用され、航空機のワイアリング手順をスマートグラスに表示する(下の写真、右上のウインドウ)。作業者は視線を移すことなく、この手順(ワイヤを接続するスロットを表示)に従って作業を続けることができ、作業効率が大きく向上したと報告している。

出典: Upskill  

アプリのデモを体験

シリコンバレーで開催されたカンファレンス「Augmented World Expo」でUpskillはスマートグラス向けのアプリSkylightを出展し、AR製造ソリューションの利便性をアピールした。(下の写真、右側)。実際にこのアプリをGlass EE2で使ってみた。このアプリは機器製造で配線手順をARで表示するもので、操作手順に沿って作業をしてみた。Glass EE2のディスプレイにケーブル番号とスロット番号が示され、これに従って配線した(下の写真、左側、デモシステムと使用したGlass EE2)。操作マニュアルに視線を移す必要はなく、ハンズフリーで作業ができ、これは確かに便利なソリューションだと感じた。

出典: VentureClef  

Glass EE2の進化

Glass EE2を操作するとGlass Explorerから大きく進化しているのを感じた。Glass EE2はディスプレイの輝度と解像度が増し、文字や図形が鮮明に表示される。Glass EE2にタッチすると、アプリは機敏に反応し、操作が軽く感じる。Upskillによると、BoeingはGlass EE2が軽量で一回の充電で長時間使える点を評価しているとのこと。Glass EE2はもはやプロトタイプではなく、企業で使えるレベルまで完成度が向上した。

AI+ARアプリが登場か

Glass EE2はAIアプリをデバイス上で稼働させることができる構造となっている。このため、AIを活用した高度な業務ソリューションを開発できる。AIとARを組み合わせると、どんなアプリとなるのかが気になる。Glass EE2向けにオブジェクト認識機能や音声認識機能を組み込んだアプリが候補となる。再び、スマートグラス市場が動き出し、今度はAIと組み合わせた形でイノベーションが起こりそうだ。

Googleは次世代「Assistant」を公開、AIがスマホで稼働し言葉でアプリをサクサク使える

Googleは2019年5月、開発者会議「Google I/O 2019」を開催し、最新の製品や技術を披露した(下の写真、Sundar Pichaiの基調講演)。今年のテーマは「Help」で、人々を助け社会の役に立つAIに重点が置かれた。怖いほど先進的なAIの発表はなく、生活を便利にするAI技術が数多く登場した。この模様はYouTubeでリアルタイムで放送された

出典: Google  

発表概要:新製品

ハードウェアではミッドレンジのスマホ「Pixel 3a」と「Pixel 3a XL」が発表された(下の写真、左側)。また、スマートホームハブの最上位機種「Nest Hub Max」が登場(下の写真、右側)。従来のハブ「Google Hub」は「Nest Hub」と改名され、スマートホーム商品として位置付けられた。ソフトウェアでは基本ソフト最新モデル「Android Q」が公開された。Qはセキュリティやプライバシー保護に重点を置くデザインとなっている。

発表概要:AI関連技術

AI関連では「Google Assistant」の機能を大幅に強化した次世代AIアシスタント「Google Assistant Next Generation」が発表された。AIを軽量化しスマホで稼働させることで、高速処理を実現。また、GoogleはAIのバイアス(偏った判定)を検知する技術「TCAV」を公開した。更に、AIを人類のために活用するプロジェクト「AI for Social Good」を紹介し、GoogleのAI開発のスタンスを明らかにした。

出典: Google

次世代Google Assistant

多くの新技術が登場したが、Googleは次世代Assistantに多くの時間を割いて、その機能を紹介した。現在、AssistantのAI (Recurrent Neural Networks、言葉を理解するAI)はクラウドで稼働しており、そのサイズは100GBを超える。スマホでAssistantを起動するとそのタスクはクラウドで実行され、結果がスマホに返される。次世代AssistantではAIサイズが0.5GBに軽量化され、これがスマホで実行される。このため、処理時間が大幅に短くなり、最大10倍の高速化を実現した。

アプリを言葉で高速実行

これにより言葉でアプリを連続してリアルタイムで操作できる(下の写真)。テキストメッセージを送信するときは、「Reply Justin, Had a great time with my family」と指示する。写真アルバムを検索するときは、「Show me my pictures from Yellow Stone」と、また、その中で動物が写っている写真を選ぶときは、「The ones with animals」と語る。複数のアプリを音声でサクサクと処理できる。

出典: Google

長いメールを言葉で生成

次世代Assistantは音声認識機能が大幅に向上し、長いメールを言葉だけで生成できる(下の写真)。Assistantに「Send mail to Jessica」と指示すると、メールアプリが起動。ここにメール文を音声で読み上げるとテキストに変換される。メールの題名を指定するときは「Set subject to Yellow Stone Ventures」と述べる。今までは短いメールに限られていたが、次世代Assistantは正確に音声をテキストに変換するので、長いメールでも苦にならない。

出典: Google

Duplexでレンタカーを予約

Googleは昨年、AIがレストランに電話をかけ予約する機能「Duplex」を発表し市場を驚かせた。今年は、Duplexでウェブサイトを操作する機能を発表した。DuplexはAssistantと連携して稼働する。Assistantにタスクを指示すると、Duplexがウェブサイトにアクセスし、これを実行する。Duplexはウェブサイトでレンタカーを予約できる。Nationalのレンタカーを予約する際は「Book a car with National for my next trip」と指示する。DuplexはNationalのウェブサイトにアクセスし予約プロセスを起動(下の写真)。Duplexは利用者のカレンダーから次の出張予定を把握しており、予約日時を自動で入力する。また、Duplexは前回借りた車種を表示し、利用者の氏名や連絡先を入力する。利用者はこれら入力された情報を確認して予約を実行する。数多くの画面でデータを入力する必要はなく、実行ボタンを押すだけで予約が完了する。

出典: Google

個人に沿ったサービス

現行Assistantはその機能が拡充され、利用者の情報を幅広く把握することで、個人に沿ったサービスを提供する。個人情報は「Personal Preference」のページで事前に登録しておく。また、家族の情報、よく訪れる場所、好みの音楽などを登録しておくと、Assistantはこれらに沿った情報を提示する。「Nest Hub」(旧Google Hub)にディナーのレシピを尋ねると、Assistantは利用者は地中海料理が好きであることを理解しており、「Classic Israeli Shakshuka」を推奨する(下の写真)。また、Assistantは環境も理解しており、朝の時間帯にレシピを尋ねると朝食の作り方を示す。

出典: Google

Assistantをクルマで利用

Assistantはクルマの中で音声によるナビゲーションのほか、メッセージング、電話、メディア操作ができるようになった(下の写真)。クルマのダッシュボードにスマホを装着し、「Let’s drive」と述べてこの機能を起動する。Assistantは利用者の予定を把握しており、ディナーの予約があればそのレストランまでのナビゲーションを始める。Assistantは利用者の好みの音楽を把握しており、それをスマホ画面に表示する。また、電話を受信するとAssistantは発信元の名前を表示する。

出典: Google

クルマを遠隔操作

Assistantは遠隔でクルマを操作する機能を搭載した。クルマに乗る前に車内の空調を起動するときは「Turn on the car A/C to 70 degrees」と指示する。この他に、ガソリン残量やドアロックを確認できる。対象となるメーカーとシステムはHyundaiの「Blue Link」とMercedes-Benzの 「Mercedes me connect」。

提供時期

次世代AssistantはPixelの次のモデルに搭載され、出荷時期は2019年末の予定。Googleは次世代のスマホモデルを発表していないが、これで今年末に出荷される予定であることが分かった。DuplexはAndroid OSを搭載したデバイスで利用でき出荷時期は2019年末の予定。また、これ以外のAssistant新機能は2019年の夏から出荷が始まる。

控えめの発表

いま個人情報管理に関しハイテク企業に厳しい目が向けられている。収集した個人データがどのように利用されているのか、GAFAに対して透明性が求められている。基調講演ではPichaiが自らGoogleの個人データ管理の指針とそれを実装したツールを説明した。講演はお祭りムードではなく、新製品発表は控えめに行われた。全体を通して、AI技法をアピールするより、開発された技術がどう生活に役立つかを示し、AI応用技術に軸足が移っているのを感じた。