カテゴリー別アーカイブ: Google

Googleは人間に近づき過ぎたAIを公開し波紋が広がる、仮想アシスタントが電話してヘアサロンを予約

Googleは仮想アシスタントが電話して実社会のタスクを実行する技術「Google Duplex」を公開した。Duplexは人間のように会話できるAIで、例えば、ヘアサロンの店員さんと話してヘアカットの予約をする。話し方があまりにも人間的で、マシンとは到底区別がつかない。Duplexは究極の仮想アシスタントと評価される一方で、人間的過ぎるAIは社会で許容されるのか、波紋が広がっている。

出典: Google

Google開発者会議

Googleは2018年5月8日、開発者会議Google I/OでAIやAndroidの最新技術を発表した。「Google AI」というブランドのもとAI企業に舵を切り、仮想アシスタント「Google Assistant」やAIスピーカー「Google Home」の最新技術を公開した (上の写真)。この中で、人間に代わり仮想アシスタントが電話で会話して実社会のタスクを実行する技術Google Duplexを公開した。

Duplexがヘアカットを予約

Google CEOのSundar PichaiがDuplexのデモを行った。Duplexがヘアサロンに電話して、ヘアカットを予約するというストーリーで、会話は次の通り進んだ。

Duplex:(ヘアサロンに電話を発信)

ヘアサロン店員:Hello, may I help you?

Duplex:I’m calling to book a women’s haircut for a client.  Umm, I am looking for something on May 3rd. (若い女性のテンポよい会話で到底AIとは思えない)

ヘアサロン店員: Just give me one second.  (店員は予約表を見ている様子)

Duplex: Mm-hmm。(Yesと言わないで”ふふーん”という繋ぎ言葉(Disfluencies)が入り、ますます人間の雰囲気を醸し出す)

出典: Google

Duplexが予約時間をネゴ

しかし、リクエストした時間が空いてなく、両者の間で協議が始まる。

ヘアサロン店員: Depending on what service she would like.  What service is she looking for?

Duplex: Just a women’s haircut for now.

ヘアサロン店員: Okay, we have a 10 o’clock.

Duplex: 10am is fine.

どんなメニューを希望しているかの問いに対して、Duplexは女性のヘアカットと回答。カットだけなら10時が空いているとのことで予約が完了した。Duplexはヘアサロン店員と予約時間を調整するという複雑なタスクを完遂した。

Duplexを人間と感じる理由

Duplexを人間と感じる理由は、人間の悪い癖であるDisfluencies (“えーと”など意味のない繋ぎ言葉) を取り入れていることと、会話の間合いが絶妙であること。更に、Duplexは想定外の事態に対応して複雑なタスクを実行でき、人間と全く変わらない。Duplexデモの部分は基調講演ビデオ (https://youtu.be/ogfYd705cRs?t=2174)で見ることができる。

Duplexのシステム構成

DuplexはGoogle Assistantのバックエンド機能として実装される。Google Assistantにヘアサロンの予約を指示すると、その背後でDuplexがこれを実行する (下の写真)。実際に、Duplexが店舗に電話を発信し、相手と対話しながらヘアカットの予約を入れる。予約が済むとその内容はGoogle Assistantから利用者に示される (最後の写真)。予約時間が近づくと、Google Assistantはスマホにリマインダーを表示する。

出典: Google

コンセプト

Duplexは自然な会話を通してタスクを実行するようデザインされている。Duplexの会話は人間と同じレベルで、自然で滑らかなトーンで進み、AIであることを感じさせない。従って、利用者は人間と会話するように、自然な言葉づかいで会話する。AIスピーカーに語り掛けるときは、分かりやすくゆっくりと喋るが、早口で言い直しながら話してもDuplexはちゃんと理解する。つまり、Duplexは人間と同じ位置づけで、普段通りの言葉で会話ができる。

出典: Google

市場の反応は割れる

Duplexの会話は人間そのもので、マシンとは全く判別できない。デモを実施した会場からは驚きのどよめきが上がった。一方、市場の反応は分かれ、技術進化を評価するものの、Duplexに対して懸念の声も上がっている。Duplexは社会のモラルから逸脱しているとの意見も少なくない。電話を受けたヘアサロン店員は、人間と思い丁寧に対応したが、実は相手はAIであり、欺かれた感覚を覚える。

電話詐欺や選挙運動

更に、Duplexが悪用されると犯罪の手助けをするのではと懸念されている。米国で電話詐欺により高齢者が被害にあう事件が後を絶たない。電話詐欺でDuplexが悪用されると、大量の被害者が出ることが懸念される。日本語対応のDuplexが登場すると、オレオレ詐欺で悪用される可能性も生まれる。更に、次期大統領選挙でDuplexが悪用されると、再び世論が操作される心配が募る。

Googleの対応策

Googleはこれらの懸念に対して明確な対策は公表していないが、「Transparency」な方針で開発を進めるとしている。Duplexが電話を発信するときは、最初に素性を明らかにし、「自分はDuplexで○○○さんのために電話している」などのコメントが付加されるものと思われる。また、Duplexとの会話を録音する時は、事前に相手の了承を取ることも必要となる。

究極の仮想アシスタント

市場では仮想アシスタントをここまで人間に近づける必要があるのか、議論が始まった。AIが人間ではないことを明らかにするために、機械的な会話に留まるべきだという意見もある。一方、Duplexのデモを見た後で、Google Assistantのいつもの声を聞くと、なぜかモノトーンでフラットに感じる。Duplexのほうに親近感を覚える。AIだと分かっていても、人間臭く感情をこめて語ってくれると、会話がしっくりする。これが究極の仮想アシスタントで、話しぶりに惹かれてしまうが、危険と隣り合わせの状態でもあることも認識しておく必要がある。

Googleはドアベル「Nest Hello」を投入、高度なAIを搭載しセキュリティが格段に向上、今年はAI監視カメラがブレークする

Googleのスマートホーム部門Nest LabsはAIドアベル「Hello Nest」の出荷を始めた。Helloはドアベルであるが、カメラを搭載しており、監視カメラとしても機能する。Helloは人の姿や物音で玄関に訪問者がいることを把握し、アラートをスマホアプリに送信する。実際に使ってみるとHelloはインテリジェントな監視カメラで、安心感が格段に向上した。

出典: Nest Labs

Helloを設置する

2018年3月からHelloの出荷が始まり、家に取り付けて利用している。Helloは現行のドアベルを置き換える形で設置される。給電のために直流16-24Vの配線が必要となり、使っているドアベルと互換性があることを確認する必要がある。実際の設置作業は、Nest Labsのフィールドエンジニア「Nest Pro」に依頼して実施した。30分くらいで工事が終わり、ドアの隣にHelloが取り付けられた (下の写真)。

ハードウェア構成

Helloは押し釦(下部の円形の部分) の他に、カメラ (上部の円形の部分)、マイク、スピーカーを搭載している。カメラのセンサーは3メガピクセルで、UXGA (Ultra Extended Graphics Array 、1600 x 1200) の縦長モードで録画される。夜間撮影のためにNight Visionとして赤外線LEDライトを備えている。カメラで撮影された映像は家庭のWiFi経由でNestクラウドに送られ格納される。

出典: VentureClef

Nestアプリから利用

Helloはスマホに専用アプリ「Nest」をダウンロードして利用する。アプリを起動するとHelloが撮影している映像をライブで見ることができる (下の写真、左側)。その他に、カメラが検知したイベント (人の動きなど) の一覧が表示される (下の写真、右側)。ここでクリップにタッチすると、録画されたビデオが再生される。この事例はHelloが玄関先で人の動きを検知したもので、訪問者や不審者を過去にさかのぼりビデオで見ることができる。

出典: VentureClef

訪問者があるとアラートを受け取る

使ってみて便利と感じるのは、Helloがイベントを検知すると、そのアラートをスマホで受け取れる機能。スマホのロック画面に「Someone’s at the door (玄関先に誰かいます)」などとメッセージを受信する (下の写真、左側)。そのメッセージをタップすると短いビデオクリップが再生され、誰がいるのかを見ることができる (下の写真、右側)。

出典: VentureClef

録画ビデオをレビュー

更に、ビデオクリップをタップするとアプリが開き、そのイベントを再生して見ることができる (下の写真)。このアラートは庭の手入れを依頼しているガーデナーに関するもので、玄関前を掃除している様子を確認できる (左側)。また、外出先でアラートを受け取り、訪問者を確認できる。Amazonで買い物をした商品の配達であることが分かり (右側)、必要に応じ、配達人とスピーカーを通して話をすることもできる。例えば、商品を玄関に置いてください、と指示することもできる。

出典: VentureClef

Google Homeが誰が来たのかを知らせる

Helloのカメラは訪問者の顔を識別することができる。家族や友人の顔をHelloに登録しておくと、これらの人物がドアベルを押すとその名前を把握する。更に、HelloをGoogle Homeと連携しておくと、AIスピーカーが訪問者の名前を告げる。「○○○ is at the front door (○○○さんが来ました)」などと音声で案内をするので、スマホを手に持っていなくても、家族全員が誰が来たのかが分かる。

ドアベルのインターフェイス

また、名前が登録されていない人が来たら、Google Homeは「Someone’s at the door (玄関先に誰か来ました)」と音声で案内をする。実際に使ってみると、チャイムのピンポーンという無機質な音ではなく、言葉で来客を告げられると温かみを感じる。ドアベルのチャイムが音声になるとマンマシン・インターフェイスが格段に向上する。

顔認識と名前の登録

このために、事前に顔を登録する作業が必要になる。一番最初に友人が訪問すると、Helloは「An unfamiliar face is at the door (登録されていない人が玄関にいる)」というメッセージを発信する。メッセージをタップしてビデオクリップを見ると友人が訪問してきたことが分かる。ここでNew People Seenというページで知人であることを指定し (下の写真、左側)、更に、Familiar Facesというページでその人の名前を入力する (下の写真、右側)。そうすると、Helloは顔写真と名前を結び付け、次回から、その友人が訪問してきたら、Google Homeはその名前を告げる。

出典: VentureClef

テレビで訪問者を見る

我が家で人気の機能はHelloのカメラが撮影する映像をテレビで見ることができる機能だ。これはGoogle Homeの機能を借用したもので、AIスピーカーに「OK Google, show me Nest Hello on my TV」と言葉で指示すると、玄関の様子をテレビの大画面でみることができる。スマホアプリを操作してビデオを見るよりはるかに便利で、スマートホームの必須機能となることは間違いない。

出典: VentureClef

クラウドサービス

録画したビデオを閲覧したり顔を認識する機能はクラウドサービス「Nest Aware」として提供される。Nest Awareは、撮影した映像をクラウドに格納し、後日、それを閲覧できる機能を提供する。イベントが発生すると、Nest Awareで録画された映像をレビューして、その原因を突き止めることができる。Nest Awareは有料のサービスで、ビデオ保存期間に応じて料金が変わる。最長で30日間分のビデオを保存でき、月額料金は30ドルとなる。また、Helloのハードウェア価格は229ドルとなっている。

問題点もある

Helloは登場したばかりの商品で、機能が成熟しているというわけではない。その一つがカメラ機能で、露出を調整できないことが問題となる。自宅のエントランス構造として、玄関部分が暗く背後が明るいため、カメラが捉える訪問者の顔がどうしても暗くなる。Nestに相談したが解決策はないとのことで、今後の機能改良を待つしかない。また、夜間に通りを走るクルマのヘッドライトが反射して、玄関先に差し込むことがある。Helloはこれを侵入者と誤検知しアラートを発信する。AIのアルゴリズムを改良し、画像認識で誤検知を抑制する対策も必要となる。

Googleとの統合

Googleは2014年1月にNestを買収し、その後Alphabet配下の子会社として運営してきた。2018年2月、NestはGoogleのハードウェア部門に統合されることとなった。この部門はGoogle Homeなどのハードウェア製品を開発しており、NestはAIスピーカーとの連携が密接になり、ユニークな機能の開発が進んでいる。今後、NestはGoogleが所有しているAI技法をフルに実装でき、高度なAI監視カメラが登場することになる。

今年はAI監視カメラがブレーク

Helloは今までのセキュリティカメラとは格段に使い勝手が良く、Google Homeとの連携も快適で、満足できる製品だと感じる。Helloを使い始めたが、安心感が格段に増大した。日々の生活で不審者が自宅を訪れることも多く、これからはドアを開ける前にビデオで確認できる。また何かあればスマホにアラートが届くので、即座に玄関先の様子を確認できる。自宅にいなくても遠隔で監視でき安心感が大きく増大する。今年はAIを監視カメラに適用したAI監視カメラがヒットする勢いを感じる。

Google AutoMLは高度なAIを自動で生成、ラーメンを見て販売店を特定

Googleは高度なAIを自動で生成する技術「AutoML」を発表し、その応用事例を続々公開している。AutoMLは人間の研究者に代わり高度なAIを生成する技術で、ラーメン判定専用AIを生成した。アルゴリズムはラーメンの写真を見るだけで、どの店舗の料理かを判定する。

出典: Google

ラーメン判定専用AI

このラーメン判定専用AIはデータサイエンティストであるKenji Doiより開発された。対象はラーメン二郎という名前で営業している41店舗のラーメンで、生成したAIにその写真を入力すると、それがどの店で調理されたかを高精度で判定する。

盛り付けが似ている

ラーメン二郎は東京都港区の三田店が本店で、ここで修業した弟子たちが都内を中心に出店し営業している。このため、調理方法や盛り付けがよく似ており、ラーメンの写真からそれがどこの店で出されたものかを判定するのは難しい (上の写真、3店舗で出されるラーメン、盛り付けやどんぶりの形状が似ており、また、テーブルの色は赤で統一されている)。

汎用AIで判定すると

これはAIにとっても難しいテーマで、汎用アルゴリズムでは判定できない。因みに、ラーメンの写真をGoogle Cloud Vision API (イメージ判定クラウド) に入力してみると (下の写真)、アルゴリズムはこれをDish (器に盛った料理) と判定する。これにCuisine (料理) やFood (食べ物) が続き、Ramenは7番目に登場する。汎用AIは料理であると判定するが、ラーメンというクラスを判定するのは難しいことが分かる。更に、それがどの店のものかは全くカバーされていない。(この写真は松戸駅前店で出される野菜大盛り (ヤサイマシ) ラーメン。)

出典: Google

専用AIを開発

このためDoiはラーメン種別を判定できる専用AIを開発した。具体的には、異なる種類のアルゴリズムを併用するEnsemble Modelという手法を使った。ここでは三種類のアルゴリズム(Inception、ResNet、SE-ResNeXt) を使い、Hyper-Parameter Tuningという技法で、それぞれのネットワーク構成を最適化した。更に、教育データはData Augmentationと呼ばれる手法を使いデータを整備した。高度なニューラルネットワークを開発するためには、このようにデータサイエンティストによる膨大な手作業が必要となる。

これをAutoMLで自動化

AutoMLはこの複雑な工程を自動化するために登場した。アルゴリズムを教育する要領で、高度な専用ニューラルネットワークを生成する。このケースではラーメンの写真をAutoMLに入力し、専用ニューラルネットワークを開発した。Doiはどんぶりに盛られたラーメンの写真48,244枚を集め、そこから教育に適さない写真を抜き、47,970枚が使われた。各店舗で1,170枚の写真が使われた勘定となる。

判定結果は

写真は41店舗の名前でタグ付けされており、これを入力すると、AutoMLがこれらを判別できるニューラルネットワークを自動で生成する。完成したニューラルネットワークを使って、実際に判定試験をすると、その精度は94.5%であった。試験では50枚の写真が使われ、その結果がマトリックスで公開された (下の写真)。対角線の部分が50枚のうち正しく判定した枚数を示している (この平均精度が94.5%)。マトリックスを子細に見ると、ひばりが丘駅前店で判定精度が悪く (82.0%)、多くのケースで桜台駅前店のラーメンと取り違えている。判定精度の範囲は100%から82.0%で高度な専用AIが生成されたことが分かる。

出典: Google

判定の手掛かり

AutoMLで生成したアルゴリズムはなぜ正確に店舗を特定できるのか、その理由については解明されているわけではない。どんぶりの形状やテーブルの色はどの店舗も同じで、アルゴリズムはこれらを手掛かりに店舗を特定することはできない。一方、チャーシューの切り方や野菜の盛り方はよく似ているが、全く同じというわけではない。店により多少の偏りがあり、アルゴリズムはこれらを指標として判定している可能性が高い。アルゴリズムはブラックボックスで、これを解明するためには、更なる研究が必要となる。

応用範囲は広大

ラーメンの写真からそれが調理された店舗を特定できることで、どんなソリューションを提供できるかについては語られていないが、ラーメンだけでなく他の料理の種類を判定できると応用範囲はぐんと広がる。料理の種類と摂取カロリー量を紐づけると、健康管理のためのアプリができる。アプリで食事の写真を撮ると、専用AIが自動で摂取カロリー量を計算し、ダイエットや糖尿病管理に役立つ。例えば、スパゲッティナポリタンを注文してその写真を取ると、カロリー量は400kcalで、糖分は80グラムなどと表示され、食事の量を正確にモニターできる。これからはデータサイエンティストがいない企業でもAutoMLを導入することで、誰でも高度なAIを開発できる。

Waymo自動運転車がついに完成!!無人タクシーの営業運転を開始

Waymoは無人タクシーの営業運転を始めたことを明らかにした。スマホでクルマを呼ぶと、ドライバーが搭乗していないWaymo自動運転車がやって来る (下の写真)。Google・Waymoは2009年から自動運転車を開発しているが、ついにこの技術が完成するに至った。

出典: Waymo

無人タクシーとして運行開始

Waymoはアリゾナ州フェニックスで自動運転車の実証実験を続けている。これは「Early Ride Program」と呼ばれ、2017年11月からは無人タクシーとしての試験走行が始まった。しかし、無人タクシーといっても、安全のためにセーフティドライバーが搭乗し、緊急事態に備えていた。2018年3月からは、セーフティドライバーが搭乗しない、文字通り無人タクシーとして運行を開始した。

安全性をPRするビデオ

これに先立ち、Waymoは無人のクルマがどのように安全に走行できるのかを説明したビデオを公開した。ビデオはX-View形式で、クルマの周囲360度を見渡すことができる。スマホでこのビデオを見ると、クルマの前方だけでなく、体を回転させると側面から背後まで見ることができる。

クルマが認識する世界

ビデオはクルマに搭載されているセンサーが周囲のオブジェクトをどのように捉えるかを中心に構成されている。つまり、クルマのセンサーは何を見て、どのようにハンドルを切るのかを、グラフィカルに説明している。

Lidarが捉えるイメージ

クルマの眼の中心はLidar (レーザーセンサー) で、三種類のモデルが搭載されている。「Short-Range Lidar」はクルマの前後左右四か所に設置され、車両近傍のオブジェクトを認識する。クルマのすぐ近くにいる小さな子供などを把握する。解像度は高く、自転車に乗っている人のハンドシグナルを読み取ることができる。(下の写真、路上の緑色のポイントクラウドの部分。)

「Mid-Range Lidar」と「Long-Range Lidar」は屋根の上のドームの内部に搭載され、中長距離をカバーする。後者は可変式で、レーザービームがスキャンする角度を変えることができ、特定部分にズームインする。これらのLidarは周囲の車両や歩行者など把握し、最も重要なセンサーとなる。 (下の写真、青色のポイントクラウドの部分。)

出典: Waymo

レーダーの機能

クルマはレーダーを搭載しており「Radar System」と呼ばれ、ミリ波を利用して路上のオブジェクトを把握する。ミリ波は水滴の中でも移動でき、雨や霧や雪のなかでも機能する。また、日中だけでなく夜間でも使うことができる。クルマの屋根の四隅に搭載され、周囲のオブジェクトまでの距離とその移動速度を把握する。 (下の写真、走行中や駐車中のクルマまでの距離と速度を表示。)

出典: Waymo

高精度なカメラ

カメラは「Vision System」と呼ばれクルマの屋根のドームに格納されている。ダイナミックレンジの広いカメラの集合体で、8つのモジュール から構成される。カメラは信号機や道路標識を読むために使われる。 (下の写真、信号機を把握している。) モジュールは複数の高精度センサーから成り、ロードコーンのような小さなオブジェクトを遠方から検知できる。ダイナミックレンジが広く、暗いところから明るいところまでイメージを認識できる。

出典: Waymo

PerceptionとPrediction:周囲の状況を理解

Waymoは複数のセンサーの情報を統合して周囲の構造を把握する。交差点では、周囲のクルマ、自転車、歩行者などのオブジェクトを把握する。また、信号機とその色を把握してそれに従う。更に、横断歩道や道路の路肩なども把握する。ソフトウェアは、これらオブジェクトが移動している方向、速度、加速度などを推定する。(下の写真、クルマは青色の箱で示され、その距離と移動速度を把握。クルマの走行経路を予想して、それを青色の実線で示す。右前方のクルマは「Police Car」と認識。歩行者は茶色の箱で示される。信号機は白色の枠で示され、「STOP」か「GO」かを認識する。)

出典: Waymo

Planning:走行経路を決定

クルマ周囲のオブジェクトの動きを予想して、ソフトウェアは最適な走行ルートを決める。具体的には、Waymoの進行方向、速度、走るレーン、ハンドル操作を決定する。センサーが認識できる範囲は広く、フットボールコート二面先のヘルメットを識別できる。(下の写真右側、Waymoが認識する周囲のクルマとその予想進行経路。これを元にアルゴリズムはWaymoの進行経路を算出する。それが緑色の実線で表示されている。下の写真左側、同じシーンをシミュレータで表示したもの。)

出典: Waymo

安全運転をプログラミング

ソフトウェアは「Defensive Driving」としてプログラムされている。これは安全サイドのプログラミングを意味し、自転車と十分間隔を取るなど、慎重な運転スタイルに設定されている。運転スタイルがクルマの性格を決めるが、Waymoは安全第一にプログラミングされている。(下の写真、左折中に前方から自転車が接近してきたケース。自転車は桃色の箱で示され、距離は50フィートで速度は毎時9マイル。自転車の予想走行ルートはピンクの実線で示される。自転車は直進するか、右折するオプションがあるが、アルゴリズムは直進する可能性が大きいと判定。このため、Waymoは路上で一旦停止する判断を下した。)

出典: Waymo

ビデオから読み取れる自信

Waymoが公開したビデオを見ると、アルゴリズムは何を見て、どのように運転しているのか、その一端を窺うことができる。そこから、Waymoの技術に対する自信も読み取れ、自動運転車が完成の域に入ったことを感じる。

開発はこれからが本番

ついに、無人タクシーが市街地を走行できるようになったことの意味は大きい。ただ、走行できる範囲はアリゾナ州フェニックスの一部に限定されている。ここは砂漠地帯に作られた街で、天気は良く、自動運転車にとって走りやすい環境である。Waymoは全米の25都市で試験走行を展開しており、難易度が高い地域での無人タクシー運行が次のステップとなる。多くの難題があり、自動運転車の開発はこれからが本番となる。

GoogleはAIがAIを生成するクラウドを公開、業務に最適なニューラルネットワークを数分で開発できる!

GoogleはAIがAIを生成する技術の開発を急いでいる。この技法は「AutoML」と呼ばれ、AIがニューラルネットワークを自動で生成する。アルゴリズムが別のアルゴリズムを生成する技法で、AI基礎研究で重要なテーマと位置づけている。GoogleはAutoMLを使って高度な機械学習アルゴリズムを生成し、社内サービスで利用してきた。今般、Googleはこの技法をクラウドサービス「Cloud AutoML」として一般に公開した (下の写真)。

出典: Google

Cloud AutoMLとは

Cloud AutoMLは機械学習クラウドサービスで、利用者の研究や業務に最適化したニューラルネットワークを生成する。現在は、既存のニューラルネットワークを使ってAIシステムを構築している。これらは”汎用AI”で幅広い機能を持つが、高度な判定能力が要求される特定業務では使えない。このため”専用AI”を開発する必要があるが、これに応えることができるAI研究者の数は限られている。Cloud AutoMLはAI研究者に代わり”専用AI”を瞬時に開発する。

Googleの汎用AIクラウド

AmazonやMicrosoftやGoogleは汎用AIをクラウドで提供している。Googleはこれを「Cloud ML Engine」として提供している。多くの機能が揃っているが、画像認識処理を実行するには「Cloud Vision API」を利用する。これは教育済みの機械学習エンジンで、イメージを入力するとアルゴリズムがオブジェクトの名前を判定する。又は、エンジニアが公開されているニューラルネットワーク (Google Inceptionなど) を使って、機械学習アルゴリズムを開発することもできる。

Cloud Vision APIを使うと

Cloud Vision APIを使うと簡単に写真の分類ができる。イメージを入力するとシステムはその属性を出力する。例えば、空に浮かんだ雲の写真を入力すると、システムは解析結果として「Sky」や「Cloud」と回答する (下の写真)。その他に、写真に写っている顔を把握し、その表情を分類する機能もある。

出典: VentureClef

気象専門家は使えない

しかし、気象専門家がイメージを科学的に解析するには、Cloud Vision APIの判定機能は十分ではない。上述のケースでは、Cloud Vision APIはイメージを「Sky」や「Cloud」と判定するが、雲の種類を特定することができない。雲の種類である「Cumulus humilis (巻積雲)」と判別する機能はない。

雲の種類を判定できる機械学習アルゴリズム

このため雲の種類を判別できる機械学習アルゴリズムを開発することが求められる。この需要に応えてCloud AutoMLが登場した。Cloud AutoMLが雲の種類を判定できる機械学習アルゴリズムを自動で生成する。Cloud AutoMLは、雲の種類の他に、ファッション区分や動物種別の判定など、特殊な判定が求められる機械学習アルゴリズムを自動で生成する機能を持つ。

Cloud AutoML利用プロセス

Cloud AutoMLでアルゴリズムを生成するためには写真データセットを準備する必要がある。これはタグ付き (又はタグ無し) の写真アルバムで、上述のケースでは雲の写真とその種別を紐づけたセットを準備する。この写真データセットをクラウドにアップロードすると、Cloud AutoMLが雲の種類を判別できる機械学習アルゴリズムを自動で生成する。

データ入力と教育

具体的にはCloud AutoMLのインターフェイスに沿ってこれらの操作を実行する。まず、「Label」のページでタグ付きの写真データセットをアップロードする。ここでは種別ごとの雲の写真をアップロードする。(下の写真、「Cumulonimbus (積乱雲)」というタグがついている雲の写真をアップロード)。 AutoMLは自動で機械学習アルゴリズムを生成し、「Train」というページで、アップロードされた写真を使ってアルゴリズムを教育し最適化する。

出典: Google

アルゴリズム評価と運用

次に、「Evaluate」というページで、教育された機械学習アルゴリズムの認識精度を評価する。アルゴリズムの認識率や誤認率を確認する。最後に、「Predict」というページで、完成したアルゴリズムに写真を入力し、雲の種類を判定する処理を実施する。下のケースはその事例で、完成したアルゴリズムは入力された写真を解析し、「Cirrus (巻雲)」と正しく判定している。汎用AIは「Cloud」としか判定できないが、完成した専用AIは雲の種類まで判定できる。

出典: Google  

イメージ認識機能

機械学習アルゴリズムは幅広いが、Cloud AutoMLはその中でイメージ認識 (Image Recognition) 機能を提供している。Googleによると、生成したアルゴリズムの認識率は汎用的なニューラルネットワークより精度が高く、誤認識率が低いとしている。また、ニューラルネットワーク開発期間を大幅に短縮できるのも強みである。パイロットモデルであれば数分で、プロダクションモデルであれば1日で開発できる。

応用事例:ファッションを分類する

Cloud AutoMLを業務に応用した事例が公開されている。ファッションブランドUrban Outfittersは商品にタグ付けするプロセスをCloud AutoMLで自動化した。Urban Outfitters は、商品に付加されたタグをキーに、消費者に関連商品を推奨する。また、商品検索や商品フィルタリングでもタグが使われる。Cloud AutoMLは商品イメージを解析し商品の特徴量を抽出する。例えば、洋服を分類する際に胸元に着目すると、Cloud AutoMLは商品を「V-Neck」、「Scoop」、「Crew」などと判定する。アルゴリズムはデザインパターンやネックラインなどをキーにタグを生成する。(下の写真、ウェブサイトを「V-Neck」で検索した結果。)

出典: Urban Outfitters

応用事例:動物の種別を特定

Zoological Society of Londonは国際的な環境保護団体で動物の生態を守る活動を展開している。Zoological Society of Londonは動物の生態を理解するために、生息地にカメラを設置し動物の行動を観察している。写真に写っているイメージから動物の種類をマニュアルで判定してきたが、このプロセスをAutoMLで自動化した。汎用アルゴリズムでは動物の種別を正確に判定できないが、Cloud AutoMLでこの判定ができるアルゴリズムを開発。これにより、運用コストが大きく低下し、この保護活動を大規模に展開する計画である。

ニューラルネットワーク生成は難しい

ニューラルネットワークで画像認識や音声認識の精度が大きく改善されているがネットワーク生成には特別の技量を要する。ニューラルネットワークの生成と教育では、これを支える数学の知識と、ネットワークを生成するためのプログラミング技法が必要になる。これができるAI研究者の数は全世界で数千人程度と言われている。このため、企業や組織が高度なニューラルネットワークを開発することは事実上できなかった。

ロードマップ

Cloud AutoMLの登場でこれが可能となり画期的なAIが開発される切っ掛けとなる。現在は機能が画像認識 (Convolutional Network) に限られているが、今後は音声認識 (Recurrent Neural Network) も登場すると期待される。 業務に特化したAIアルゴリズム開発が今年の重要な研究テーマとなっている。AI開発が容易になるだけでなく、この研究がAIのブラックボックスを解明する手掛かりになると期待されている。

———————————————————–

AutoMLの仕組み

GoogleはAutoMLの技法について論文で公開してきた。AutoMLはReinforcement Learning (強化学習) の手法とTransfer Learning (知識移植) の手法を使ってニューラルネットワークを生成する。前者については「Neural Architecture Search with Reinforcement Learning」で、後者については「Learning Transferable Architectures for Scalable Image Recognition」でその手法を明らかにしている。

Reinforcement Learningの手法

Recurrent Neural Network (時間依存の処理をするネット) が「Controller」となり「Child Network」を生成する。Child Networkが生成するニューラルネットワークで、ここではConvolutional Network (画像認識ネット) を対象とする。ControllerはあるPolicyに従ってChild Networkを生成し、これを教育してイメージ判定精度を得る。イメージ判定精度をRewardとしてPolicyのGradient (勾配) を計算。このプロセスを繰り返し、ControllerはRewardを最大にする方向に進み、精度の高いChild Networkの生成方法を学習する。

Transfer Learningの手法

しかし、Reinforcement Learningの手法は小さな写真 (CIFAR-10) では上手くいくが、大きな写真 (ImageNet) に適用すると、計算時間が極めて長くなる。このためTransfer Learningという手法が用いられた。これは学習したニューラルネットワークを流用する技法である。具体的には、上述のReinforcement Learningの手法で生成したConvolutional Networkの一部を流用し、それを重ね合わせて新しいConvolutional Networkを生成する。これにより、大きな写真も処理することができる。Cloud AutoMLにはこれらの技法が使われている。