カテゴリー別アーカイブ: 人工知能

フェイスブックは家庭向けロボットを開発!?ロボットの頭脳に人間の常識を教える

ロボティックスに関するカンファレンス「RE•WORK Deep Learning in Robotics Summit」がサンフランシスコで開催された (下の写真)。ロボットの頭脳であるDeep Learningにフォーカスしたもので、OpenAIやGoogle Brainなど主要プレーヤーが参加し、基礎技術から応用技術まで幅広く議論された。

出典: VentureClef

Embodied Vision

フェイスブックAI研究所 (Facebook AI Research) のGeorgia Gkioxariは「Embodied Vision」と題して最新のAI技術を紹介した。Embodied Visionとは聞きなれない言葉であるが、Computer Visionに対比して使われる。Computer Visionがロボット (Agent) の視覚を意味することに対し、Embodied Visionはロボットの認知能力を指す。ロボットが周囲のオブジェクトを把握するだけでなく、人間のようにその意味を理解することに重点が置かれている。

Learning from Interaction

フェイスブックAI研究所はこの命題にユニークな視点から取り込んでいる。Gkioxariは、AIを人間のようにインテリジェントにするためには、「Learning from Interaction」が必要だと主張する。これは文字通り、インタラクションを通じて学習する手法を意味する。いままでにAIはデータセットからComputer Vision習得した。例えば、写真データセット「ImageNet」から猫や犬を判定できるようになった。これに加え、AIは環境 (Environment) のなかで、モノに触れて、その意味を学習することが次のステップとなる。Gkioxariは、赤ちゃんが手で触ってモノの意味を学ぶように、AIもインタラクションを通じ基礎知識を学習する必要があると説明した。

仮想環境を構築

このため、フェイスブックAI研究所は、AI教育のために仮想環境「House3D」を開発した。これは住宅内部を3Dで表現したもので、ロボットがこの中を移動しながら常識を学んでいく。ロボットが移動すると、目の前のシーンが変わっていくだけでなく、シーンの中に登場するオブジェクトには名前が付けられている。つまり、ロボットは仮想環境の中を動き回り、オブジェクトに接し、これらの意味を学習する。ロボットは異なるタイプの部屋からキッチンの意味を把握し、そこに設置されているオーブンや食器洗い機などを学んでいく (下の写真)。

出典: Georgia Gkioxari

学習方法

フェイスブックAI研究所は三つの視点からロボットを教育する。ロボットが仮想環境の中で、モノを見て言葉の意味を学習する。これは「Language Grounding」と呼ばれ、ロボットは環境の中でモノと名前を結び付ける (部屋の中で長い緑色のロウソクをみつけることができる)。二番目は、ロボットは家の中で指定された場所に移動する。これは、「Visual Navigation」と呼ばれ、ロボットは家の中の通路を辿りドアを開け、指定された場所まで移動する (寝室に行くように指示を受けるとロボットはそこまで移動する)。

EmbodiedQA

三つめは、ロボットは質問を受けると、家の中を移動してその解を見つけ出す。これは「EmbodiedQA」と呼ばれ、ロボットは回答を見つけるために仮想環境の中を移動する。従来のロボットはインターネット上で答えを見つけるが、EmbodiedQAは物理社会の中を移動して解を求める。例えば、「自動車は何色?」という質問を受けると (下の写真左側)、ロボットは質問の意味を理解し、家の中で自動車を探し始める。自動車はガレージに駐車されているという常識を働かせ、家の中でガレージに向かって進む。ロボットはその場所が分からないが、ここでも常識を働かせ、ガレージは屋外にあると推測する。このため、ロボットは玄関から屋外に出て、庭を移動し、ガレージにたどり着く。そこでロボットは自動車を発見し、その色が「オレンジ色」であることを把握する (下の写真右側)。

出典: Georgia Gkioxari

必要な機能

このタスクを実行するためには、ロボットの頭脳に広範なAI技法が求められる。具体的には、視覚(Perception)、言葉の理解(Language Understanding)、移動能力(Navigation)、常識(Commonsense Reasoning)、及び言葉と行動の結びつき(Grounding)が必要になる。Gkioxariの研究チームは、前述の3D仮想環境「House3D」でEmbodiedQAのモデルを構築しタスクを実行することに成功した。

ロボットの頭脳

このモデルでロボットの頭脳はPlannerとControllerから構成され (下の写真)、Deep Reinforcement Learning (深層強化学習) の手法で教育された。Plannerは指揮官で、進行方向(前後左右)を決定し、Controllerは実行者で、指示に従って進行速度(ステップ数)を決定する。PlannerはLong Short-Term Memory (LSTM) というタイプのネットワークで構成され、上述の通り、これをDeep Reinforcement Learningの手法で教育する。Plannerは人間のように試行錯誤を繰り返しながら常識を習得する。

出典: Georgia Gkioxari

知的なAIの開発は停滞

フェイスブックAI研究所は、これらの研究を通して、インテリジェントなロボットの開発を進めている。AIが急速に進化し、イメージ判定では人間の能力を上回り、囲碁の世界ではAIが人間のチャンピオンを破り世界を驚かせた。AIの計り知れない能力に圧倒されるが、AIは知的というにはほど遠い。AIはオブジェクト(例えば猫)の意味を理解しているわけではなく、また、囲碁という限られたタスクしか実行できない (例えばAlphaGOはクルマを運転できない)。いまのロボットは人間のように家の中を移動することさえできない。つまり、人間のようにインテリジェントに思考できるAIの開発はブレークスルーがなく滞ったままである。

精巧な仮想環境

このため、フェイスブックAI研究所は、全く異なるアプローチでAIを開発している。実社会を模した3D仮想環境の中でAIを教育し、この中でAIが複雑なタスクを自ら学んでいくことを目指している。AIが実社会の中で学習することで、人間のような視覚を持ち、自然な会話ができ、次の計画を立て、知的な思考ができるアルゴリズムを開発する。このためには、実社会そっくりな仮想環境が必要で、家の中を写真撮影したように忠実に描写した3D環境を開発している。同様にOpenAIやGoogle DeepMindもこのアプローチを取っており、精巧な仮想環境でDeep Reinforcement Learningの開発競争が激化している。

フェイスブックがロボット開発

ロボットの頭脳が知的になることで、人間の暮らしが根本的に変わる。フェイスブックは仮想アシスタント「M」を開発してきたが、製品としてリリースすることを中止した。Mはホテルのコンシェルジュのように、どんな質問にも答えてくれる仕様であったが、人間との会話トピックスは余りにも幅が広く、AIはこれに対応できなかった。また、フェイスブックはAIスピーカーを開発しているとも噂されている。Embodied Visionは仮想アシスタントやAIスピーカーを支える重要な基礎技術となる。更に、この研究が上手く進むと、家庭向けロボット開発のロードマップが見えてくる。フェイスブックがインテリジェントな家庭向けロボットを開発するのか、市場の注目が集まっている。

トランプ政権は初めてAI戦略を策定、中国の追い上げが安全保障の脅威となる

ホワイトハウスは2018年5月、AIに関する政策を始めて公表した。テクノロジーに関するアドバイザーMichael Kratsiosがレポートの形 (下の写真) で発表した。これによると、トランプ政権はAIを重点技術と位置づけ、AI関連の研究開発予算を拡大する。連邦政府として初めてAI政策を策定したことの意義は大きい。一方、このタイミングで発表したのは、中国が2030年までにAIで世界のトップになると宣言し、米国の安全保障が揺らいでいるという背景がある。

出典: White House

AI政策の骨子

トランプ政権はAI関連技術育成のために予算を計上する。具体的には、AI基礎研究、コンピュータインフラ整備、機械学習、自動運転システムなどが対象となる。また、トランプ政権は米国産業がAIシステムを運用するために障害となっている規制を撤廃する。更に、AI導入で職を失った人に対し職業訓練を実施する。各省庁はAI導入を進め、国民のためのサービスを向上させる。また、米国省庁内のデータを民間に公開し、AI開発を促進することも盛り込まれている。

AI政策の意図

この発表で、米国が引き続きAIで世界をリードするために、トランプ政権はこれを後押しすることを、内外に向かって明らかにした。米国がAIで世界のトップを維持するのは、産業で競争力を持ち、米国労働者の富を増すためとしている。更に、科学、医学、通信の分野で技術開発を進め、新時代を築いていくとも述べている。

発表した理由

ここ最近、中国、フランス、イギリス、EUはAI国家戦略を相次いで発表した。特に注目されるのは中国政府の動きで、中国は国策としてAI技術を育成し、2020年までに米国と肩を並べ、2030年までに米国を抜いて世界トップの技術を持つことを宣言した (下の写真)。既に、中国のAI技術進化は凄まじく、今回の発表は、中国や他国のAI政策に対抗するかたちとなった。

出典: http://www.gov.cn

データ公開

具体的な政策が乏しい中で、特筆すべき点は、連邦省庁が所有しているデータを公開することを明示したことだ。民間企業はこれらのデータを利用してAIアルゴリズムを教育できる。ただし、どんなデータがいつ公開されるかについては明らかにされていない。これに先立ち、オバマ政権は、NASAのリモートセンシング画像を公開し、AI開発を含むイノベーションが進んでいる。

規制撤廃

中国は国策として、AI開発に資金を拠出し、企業の育成を進めている。一方、トランプ政権はAI開発を直接支援する枠組みについては触れていない。今回の発表で、トランプ政権はAI開発で障害となる規制を撤廃することを明言し、政府機関のAI開発に対する規制の在り方を検討する。これにより、自動運転車やロボットやドローンに関連する規制が緩和され、実証実験が進むことが期待される。トランプ政権はAI開発の環境整備に重点を置く姿勢が読み取れる。

AI人材教育について触れていない

一方、今回の発表はAI人材育成については触れていない。現在、AI研究者やAI開発者の数が十分でなく、これがAI研究やAI開発の大きな障害となっている。この問題を解決するためには、大学や民間企業におけるAI教育プログラムの拡充が必要となる。これとは別に、トランプ政権は移民を規制し、就労ビザの発給を厳しく制限していることが、AI人材不足に拍車をかけている。

科学技術政策

AI戦略を含む科学技術政策はOffice of Science and Technology Policy (OSTP) で立案される。

OSTPはホワイトハウスの機能で、科学技術に関するブレインとして、ときの大統領に政策を進言する役割を持つ。しかし、トランプ大統領が就任して以来、長官は不在となっている。また、スタッフの数は半減し、オバマ政権では120人であったが、現在は60人。報告書を制作したMichael KratsiosがOSTPの実質的な代表を務める。地球温暖化対策やAI政策でOSTP長官が不在のまま進んでいる。

AIサミット会議

発表と同時に、政府関係者や民間企業40社余りが加わり、AIサミット会議が開催された (下の写真)。参加者はAI政策に関する議論を交わし、それぞれの意見を述べた。会議では、AI導入により失業者が増えるため、教育の必要性が指摘された。Intelは、政府がAI戦略を構築し、国としてAI技術を育成しないと、中国などの外国勢に負けると主張。IBMは、AI開発でアルゴリズムの透明性を増すことが必要と主張。ホワイトハウスは今後も継続して、他の省庁や民間企業と連携を密にして、AI政策を進めていくとしている。

出典: Office of Science and Technology Policy @ Twitter

難しいかじ取り

トランプ政権が初めてAI政策を発表したことは大きな一歩で、一定の評価を受けている。AI導入により工場労働者の雇用が奪われるため、AI政策を推進することは、トランプ政権支持層から賛同を失う危険性に繋がる。一方、中国が2030年に米国を抜くと宣言しており、国力維持にはAIは欠かせない。トランプ政権は難しいかじ取りを迫れれている。

Googleは人間過ぎるAIの運用を開始、Duplexが電話してレストランを予約

Googleは会話型AI「Google Duplex」を公開した。Duplexは人間のように会話するAIで、レストランの店員と話してテーブルを予約する。Duplexは開発者会議Google I/Oで発表されたが、話し方があまりにも人間そっくりで、本当に存在するのか疑問視されていた。Googleはライブデモを実施し、Duplexが実存することを示し、これらの疑念を払しょくした。更に、来月7月からDuplexのサービスを開始することも明らかにした。

出典: Google

レストラン予約ビデオ

GoogleはDuplexが実際に稼働している様子をビデオで公開した。Duplexがレストランを予約する手順が紹介された。仮想アシスタントであるGoogle Assistantにレストランの予約を指示すると、背後でDuplexが電話してこれを実行する。Google I/Oではエッセンスだけが示され誤解を招いたが、ビデオではDuplexと店員の対話が忠実に描写され、完成度の高さをアピールしている。

予約を指示する

Assistantにレストラン予約を指示すると (「Hey Google, Book a table for 2 at El Cavotero on Tuesday at 7 pm」)、Assistantは予約の時間帯を確認する (「Alright. Just in case, if that’s not available, can I try between 7 pm and 8 pm?」、上の写真)。これに対し「Sure」と答えると、Assistantは内容を確認をして(「I’ll book under your name…」)、予約プロセスを起動する。

Duplexがレストランに電話

この指示に基づき、Duplexがレストランに電話をかけ、自己紹介をして、予約したい旨を告げる (「Hi, I am the Google Assistant to make a reservation for a client.」、下の写真)。これに続き、会話が録音されている旨を伝える (「The automated call will be recorded.」)。相手に人間だと誤解されないため、Duplexは会話の冒頭でAIであることを明らかにする。更に、会話の内容が録音されているとのコメントを追加する。カリフォルニア州では、通話を録音する際は、法令でこれを相手に明示することが義務付けられている。

出典: Google

予約時間の調整

次に、Duplexが予約の日時を告げる (「Can I book a table for Tuesday, the 12th?」)。これに対し、店員が何人かと尋ねると (「How big is the party?」)、Duplexは二人と返答(「It’s for 2 people」)。次に、店員が日時を尋ねると (「When did you say they want to come in?」)、Duplexは火曜日の午後7時と再度告げる (「Tuesday at 7 pm」)。店員が空き時間を確認し、7時は空いていないが8時ならあると述べると(「I don’t have 7, but we can do 8」)、Duplexは8時でも大丈夫と答え(「Year, 8 pm is fine.」)、時間調整が完了。

予約が成立

店員が名前を尋ねると(「Can I get their name?」)、DuplexはAnaと回答 (「The first name is Ana」)。店員がそれでは火曜日に(「Okay, we will see Ana Tuesday」)と内容を確認すると、Duplexはありがとうと述べて(「Okay, awesome. Thanks a lot 」)、予約が完了する。Anaのスマホには予約確認のメッセージが届き (下の写真)、一連のトランザクションが完了する。

出典: Google

Duplexを報道機関に公開

このビデオとは別に、Googleはレストラン店舗 (下の写真) に報道関係者を招待し、Duplexのデモを実施した。招待された記者たちは、レストラン店員に扮し、Duplexからの電話を受け、対話しながら予約を受け付ける作業を体験した。この中には、Duplexが余りにも人間そっくりなため、このシステムはデモのために作られた、とレポートした記者も含まれていた。このデモの内容についてCNNなど主要メディアが報道し、Duplexは実際に稼働していることが明らかになった。

出典: Google Street View

人間的である理由

Duplexを人間と感じる理由は、人間の悪い癖であるDisfluenciesを取り入れているため。Disfluenciesとは、 “えーと”など意味のない繋ぎ言葉を指し、これが会話の中に配置され、人間臭さを醸し出す。これに対して、Duplexは人間を模倣する必要はない、という意見も少なくない。AIはAIらしくぎこちなく喋るべき、というのがその理由。Googleは、Duplexを人間に近づけている理由を、ぎこちなく喋ると聞き手はイライラが募り、電話を切ってしまうケースが増えるため、と説明している。実際に、電話の音声ガイダンスは好感が持てないが、Duplexの溌溂とした女性の声には親近感を感じる。

オペレータが手助け

今回のデモで、GoogleはDuplexの背後でオペレータが運用を支えていることを明らかにした。Duplexが応対できるケースは8割程度で、処理できない時には人間のオペレータに回送される。会話の途中で問題が起こると、Duplexはオペレータに繋ぐと述べて(「I think I got confused. Hold on, let me get my operator.」)、電話を転送する。

Duplexが対応できないケース

Googleは、Duplexが対応できない具体的な事例は示していないが、デモを体験した記者たちがこれをレポートしている。デモの中で、記者たちは意地悪な質問をして、Duplexの機能の限界を試した。ある記者は、予約グループの中に食事制限をしている人が尋ねると、Duplexは回答できなかったとしている。また、車いすを使う人がいるかとの質問にも、Duplexは答えることができなかった。更に、天気に関する話題など、予約以外のトピックスにはDuplexはついていけない。Duplexは人間のように世間話ができるわけではなく、予約一筋に事務作業を遂行するキャラクターとなっている。Duplexのナレッジベースを拡大することが、今後の課題となる。

サービス開始時期

Duplexはレストランの予約の他に、ヘアサロンの予約もできる。また、祝日の営業時間の問い合わせにも対応している。これらの機能が順次、一般に公開される。数週間後に、祝日の営業時間を問い合わせる機能が、夏までにレストランとヘアサロンの予約機能が公開される。一般利用者がスマホやGoogle Homeで、Duplexを使うことができるようになる。まだ、レストランとヘアサロンの予約に限られるが、人間に代わってAIが電話して予約する時代が始まろうとしている。

GoogleのAIカメラ「Clips」はプロ写真家の技を習得、AIが自動でシャッターを切り印象的なビデオを撮影

GoogleはAIカメラ「Google Clips」 の販売を開始した。カメラにAIが搭載され、自動でビデオを撮影する。Google Clipsのアルゴリズムは、絵になるシーンを認識し、自動でシャッターを切る。実際に使ってみると、Google Clipsは独自のテイストを持っていて、子供や大人やペットが楽しんでいるシーンをビデオに収めていく。

出典: Google

開発コンセプト

Deep Learningの進化で、アルゴリズムがオブジェクトの種類を高精度で把握できるようになった。この技術を応用して、人間に代わりAIが写真を撮影する技術が、次の開発テーマとなっている。Clipsはその一つの解で、カメラがシャッターチャンスを自動で認識し、プロ写真家のようにビデオ撮影することを目標に設計された。

家族やペットに反応

Clipsは家族やペットなどを撮影することを想定してデザインされた。Clipsはインテリジェントな機能を持ち、AIが人物やペットを識別する。Clipsに家族関係者を教えておくと、その人物を中心に撮影する。アルゴリズムは笑顔や動き (ダンスやハグなど) をシャッターチャンスととらえ、ビデオ撮影を始める。

操作方法

Clipsは小型形状のカメラでシンプルなデザインとなっている (上の写真)。カメラのレンズ (黒円の部分) を右に回すと撮影が始まる。撮影中は白いライトが点滅し、撮影していることを示す。Clipsが最適なシーンを選び、短いビデオ (6秒間のビデオクリップ) として収録する。レンズの下のボタンを押すと、マニュアルで撮影することもできる。

スマホアプリ

Clipsを被写体の近くに置き、レンズを回して撮影を開始する。被写体までの距離は3フィートから8フィート (0.9メートルから2.4メートル) が最適。130度の広角レンズを搭載しており、被写体に近づけて使う必要がある。Clipsにはファインダーはなく、スマホアプリ「Google Clips」でカメラが捉えた映像を見る (下の写真、左側上段の画面)。また、カメラのポジションもアプリで確認し、水平になっているかどうかをチェックする (同、右下の白枠)。

出典: Google

ビデオの保存

撮影したビデオはClipsのストレージ(16GB)に格納される。これらビデオはClipsからアプリに送信され、スマホの上で閲覧する。ビデオでSaveオプションを選ぶと、写真クラウドGoogle Photosにアップロードされる (上の写真、右側中段)。ビデオは写真またはビデオクリップとして保存できる。プライバシー保護の観点から、撮影したビデオは、Save機能を使わない限り、デバイスに留まる。

実際に使ってみると

Clipsは人間に代わりAIが印象的なシーンを自動で撮影するので、スマホを持って被写体を追跡する必要はない。食事中にClipsをテーブルに置いておくだけで、絵になるシーンが撮影される。また、プールで遊んでいる子供を撮影するときは、Clipsを被写体に向けておくだけで、楽し気なシーンが撮影できる。ファインダーでシャッターチャンスを追う必要はなく、AIがこれを代行するので、写真撮影のスタイルが根本的に変わる。

AIの際立った特性

Clipsは絵になるシーンを捉える際に、際立った判定規準を持っている。Clipsは人が何かアクションを取っていることに敏感に反応し、シャッターを切る。例えば、飛び上がったり、ダンスしているシーンをシャッターチャンスだと理解する。また、お母さんと赤ちゃんが水に手を入れて、水しぶきを立てて遊んでいるシーンを逃さない。楽しそうに笑っているシーンは必ず撮影する (下の写真)。一方、Clipsは構図、色彩、ライティングについては考慮していない。つまり、AIは人やペットの自然なシーンを撮影するよう教育されている。

出典: Google

シャッターチャンスの学習方法

アルゴリズムが最適なシーンを学習するため、Googleは教育データを生成した。ビデオから多くのセグメントを抽出し、そこからシーンのペアをつくり、プロ写真家がそれぞれのペアを比較し、どちらが絵になるかを判定した。これが教育データとなり、アルゴリズム教育で使われた (下の写真)。ニューラルネットワーク (MobileNet Image Content Model)がシーンの中のオブジェクトを判定し、機械学習の手法(Segmented Regression) でどちらのシーンが絵になるかを判定。このプロセスを繰り返し、アルゴリズムがプロ写真家のテクニックを学習した。

出典: Google

Google Clipsはプロを超えたか?

実際に使ってみると、Clipsは子供や大人が楽しそうにしている顔の表情や、体全体のアクションを確実に捉え、生活の一部が切り取られたように、印象的なビデオを作り出す (下の写真)。筆者が撮影したビデオと、Clipsが撮影したものを比べると、Clipsの画面は生き生きしているシーンが多い。素人写真よりもテクニックは上で、プロの技を伝授された面影を感じる。人間の仕事は、Clipsが撮影したビデオの中から、気に入ったシーンをより分ける作業となる。

出典: VentureClef

インスタ映えする写真はAIが撮る

ただ、ClipsのAIは子供や大人やペットに反応するが、その他のオブジェクトを自動撮影することはできない。観光スポットや綺麗な洋服を撮影する仕様ではなく、AIはこれらの被写体を撮影対象とは理解していない。今すぐに、写真撮影がAIに奪われることはないが、人間の技量がまた一つAIに置き換わる方向に進んでいる。インスタ映えする写真は人間ではなくAIが撮影する時代はもう目の前だ。

GmailはAIがメールの書き方を習得、文章を書き始めると次のフレーズを教えてくれる

GoogleはGmailを大幅にアップグレードし、AIがメール文書を作成する機能をリリースした。これは「Smart Compose」と呼ばれ、メールを書き始めると、AIがそれに続くフレーズを生成する。書き始めるだけで文章が完結するので、メールを書く時間が大幅に短縮される。

出典: VentureClef

使い方はシンプル

Smart Composeは一般公開に先立ち、試験バージョンとしてリリースされた。使い方はシンプルで、Gmailのメール作成画面で、文字をタイプすると、AIがそれに続くフレーズを提示する (上の写真)。「How」とタイプすると、AIは「How are you doing?」という文章を生成する。AIが提示するフレーズ  (「are you doing?」の部分) は灰色で示され、タブを押すとこの文章が確定する。また、Smart Composeは受信したメールに返信するときも、AIがフレーズを生成する。

実際にメールを書いて見ると

実際に使ってみると想像していた以上に便利だ。冒頭の言葉をタイプすると、AIがそれを完結する。下の写真がその事例で、AIが生成した部分を赤字で示している。文章の殆どをAIが生成していることが分かる。あて名はAIがメールアドレスを見て生成する。また、AIは筆者の住所も把握しており、自動で挿入する。AIが個人情報を把握しており、少し気味悪いところもあるが、便利さとのトレードオフになる。

出典: VentureClef


挨拶文のバリエーション

メールの冒頭で挨拶分を書くときに、様々な表現があるが、AIは多彩な書式を学習している (下の写真、AIが生成した部分を赤字で示している)。「Hope」と入力すると、AIはそれに続き「all is well with you」と出力する (下の写真、一行目)。このフレーズではなく、別の表現を意図しているときは、タイプを続け、「Hope e」まで綴ると、AIは意図を察して、「everything is going well with you」と出力する (下の写真、二行目)。今度は、「Hope w」と綴ると、AIはこれに続き、「work is going well」と出力する (下の写真、三行目)。つまり、書きたい文章をタイプし始めると、AIがその文章を完結する。挨拶分のバリエーションは幅広いが、AIはこの多様性に対応できている。

出典: VentureClef


少し複雑なメール

AIは冒頭のあいさつや、最後の決まり文句だけでなく、中間部分のフレーズも生成する。文章を書き始めるとAIが意味を察して、それに続く単語を生成する。ただ、少し複雑なメールになると、AIが補完する部分が少なくなる (下の写真、AIが生成した部分を赤字で示している)。AIが文章の最後の部分だけを生成するケースが増える。Smart Composeの機能はまだ限定的で、補完できる範囲を広げることが、次の目標となる。

出典: VentureClef

言語生成モデル

興味深いのはSmart Composeを支えているAIで、アルゴリズムが学習を重ね、メールを生成する能力を習得する。このAIは言語生成モデル (Language Generation Model) と呼ばれ、入力された文字列から、次の文字を予測する。このため、一般的に、Sequence to Sequence (Seq2Seq) モデルに区分される。Gmailは言語モデルの中で、Recurrent Neural Network-Language Model (RNN-LM) とNeural Bag of Words (BoW) を使っている。

Recurrent Neural Network-Language Model

RNN-LMはRNNベース (時間に依存するニューラルネットワーク) の言語モデルで、言語生成の定番技法である。Googleは翻訳サービス「Google Neural Machine Translation」でRNN-LMを使っている。RNN-LMはEncoder (言葉を符合に凝縮) とDecoder (符号から言葉を生成) から成る。翻訳モデルでは、言葉をEncoderに入力すると、Decoderが別の言語に翻訳する (下の写真、中国語を英語に翻訳する事例)。

出典: Google

RNN-LMを使いたいが

GmailにRNN-LMを応用すると、アルゴリズムがメールの文章を生成する。この場合、Encoderに入力するのは、メール題名と受信メール(返信文を書くとき)で、Decoderは利用者がメールを書くにつれ、それに続くフレーズを生成する。しかし、RNN-LMは予測精度は高いものの、大規模な計算量が発生し、答えが出るまでに時間がかかる。メール生成ではタイプするごとに、次のフレーズを生成する必要があり (遅延時間は0.1秒以内)、RNN-LMを使うことができない。

RNN-LMとBoWの組み合わせ

このため、GmailはRNN-LMとBoWを組み合わせて使っている。BoWとは言語モデルの一つで、言葉の並びから、次に現れる単語を予測する。単語は位置情報を含んだベクトルとして表現される (Word Embeddingと呼ばれる)。Gmailはメール題名と受信メールをEncodeするとき、このWord Embeddingを使う。RNN-LMのDecodingの各ステップにWord Embeddingを入力し、Decoderがテキストを生成する。「How」とタイプすると、RNN-LMは「are you doing?」と文章を生成する (下の写真、実例は先頭の写真)。つまり、RNN-LMのEncoding部分に軽量なBoWを使い、遅延時間を短くすることに成功した。

出典: Google

計算環境

Gmailの言語モデルが決定すると、ネットワークのハイパーパラメータ最適化や教育 (文字通りTrainingと呼ばれる) のために、TPUv2 Podが使われた。TPUv2は第二世代のTPUで、Podとはこれを64枚搭載した構成。教育された言語モデルを実行 (Inferenceと呼ばれる) する際に、CPUが使われたが、処理時間がかかり遅延時間の制約を満たすことができなかった。そのため、言語モデルの実行もTPUが使われている。

ロードマップ

Microsoft Outlookでメールを作成したり、Wordで文章を書くときも、ウインドウにフレーズ候補が示される (日本語入力変換のケース)。これを上手く使うと、文章を効率的に書くことができる。しかし、これは文字変換機能に留まり、利用範囲は限定される。何よりも、変換の精度が悪くイライラすることも少なくない。これに対しSmart Composeは、タイプされた文字や単語に反応し、それに続くフレーズを生成し、インテリジェントであると感じる。Smart Composeは登場したばかりであるが、次は、利用者のライティングスタイルで文章を生成するアルゴリズムが開発されている。