注目記事

Googleは次世代「Assistant」を公開、AIがスマホで稼働し言葉でアプリをサクサク使える

Googleは2019年5月、開発者会議「Google I/O 2019」を開催し、最新の製品や技術を披露した(下の写真、Sundar Pichaiの基調講演)。今年のテーマは「Help」で、人々を助け社会の役に立つAIに重点が置かれた。怖いほど先進的なAIの発表はなく、生活を便利にするAI技術が数多く登場した。この模様はYouTubeでリアルタイムで放送された

出典: Google  

発表概要:新製品

ハードウェアではミッドレンジのスマホ「Pixel 3a」と「Pixel 3a XL」が発表された(下の写真、左側)。また、スマートホームハブの最上位機種「Nest Hub Max」が登場(下の写真、右側)。従来のハブ「Google Hub」は「Nest Hub」と改名され、スマートホーム商品として位置付けられた。ソフトウェアでは基本ソフト最新モデル「Android Q」が公開された。Qはセキュリティやプライバシー保護に重点を置くデザインとなっている。

発表概要:AI関連技術

AI関連では「Google Assistant」の機能を大幅に強化した次世代AIアシスタント「Google Assistant Next Generation」が発表された。AIを軽量化しスマホで稼働させることで、高速処理を実現。また、GoogleはAIのバイアス(偏った判定)を検知する技術「TCAV」を公開した。更に、AIを人類のために活用するプロジェクト「AI for Social Good」を紹介し、GoogleのAI開発のスタンスを明らかにした。

出典: Google

次世代Google Assistant

多くの新技術が登場したが、Googleは次世代Assistantに多くの時間を割いて、その機能を紹介した。現在、AssistantのAI (Recurrent Neural Networks、言葉を理解するAI)はクラウドで稼働しており、そのサイズは100GBを超える。スマホでAssistantを起動するとそのタスクはクラウドで実行され、結果がスマホに返される。次世代AssistantではAIサイズが0.5GBに軽量化され、これがスマホで実行される。このため、処理時間が大幅に短くなり、最大10倍の高速化を実現した。

アプリを言葉で高速実行

これにより言葉でアプリを連続してリアルタイムで操作できる(下の写真)。テキストメッセージを送信するときは、「Reply Justin, Had a great time with my family」と指示する。写真アルバムを検索するときは、「Show me my pictures from Yellow Stone」と、また、その中で動物が写っている写真を選ぶときは、「The ones with animals」と語る。複数のアプリを音声でサクサクと処理できる。

出典: Google

長いメールを言葉で生成

次世代Assistantは音声認識機能が大幅に向上し、長いメールを言葉だけで生成できる(下の写真)。Assistantに「Send mail to Jessica」と指示すると、メールアプリが起動。ここにメール文を音声で読み上げるとテキストに変換される。メールの題名を指定するときは「Set subject to Yellow Stone Ventures」と述べる。今までは短いメールに限られていたが、次世代Assistantは正確に音声をテキストに変換するので、長いメールでも苦にならない。

出典: Google

Duplexでレンタカーを予約

Googleは昨年、AIがレストランに電話をかけ予約する機能「Duplex」を発表し市場を驚かせた。今年は、Duplexでウェブサイトを操作する機能を発表した。DuplexはAssistantと連携して稼働する。Assistantにタスクを指示すると、Duplexがウェブサイトにアクセスし、これを実行する。Duplexはウェブサイトでレンタカーを予約できる。Nationalのレンタカーを予約する際は「Book a car with National for my next trip」と指示する。DuplexはNationalのウェブサイトにアクセスし予約プロセスを起動(下の写真)。Duplexは利用者のカレンダーから次の出張予定を把握しており、予約日時を自動で入力する。また、Duplexは前回借りた車種を表示し、利用者の氏名や連絡先を入力する。利用者はこれら入力された情報を確認して予約を実行する。数多くの画面でデータを入力する必要はなく、実行ボタンを押すだけで予約が完了する。

出典: Google

個人に沿ったサービス

現行Assistantはその機能が拡充され、利用者の情報を幅広く把握することで、個人に沿ったサービスを提供する。個人情報は「Personal Preference」のページで事前に登録しておく。また、家族の情報、よく訪れる場所、好みの音楽などを登録しておくと、Assistantはこれらに沿った情報を提示する。「Nest Hub」(旧Google Hub)にディナーのレシピを尋ねると、Assistantは利用者は地中海料理が好きであることを理解しており、「Classic Israeli Shakshuka」を推奨する(下の写真)。また、Assistantは環境も理解しており、朝の時間帯にレシピを尋ねると朝食の作り方を示す。

出典: Google

Assistantをクルマで利用

Assistantはクルマの中で音声によるナビゲーションのほか、メッセージング、電話、メディア操作ができるようになった(下の写真)。クルマのダッシュボードにスマホを装着し、「Let’s drive」と述べてこの機能を起動する。Assistantは利用者の予定を把握しており、ディナーの予約があればそのレストランまでのナビゲーションを始める。Assistantは利用者の好みの音楽を把握しており、それをスマホ画面に表示する。また、電話を受信するとAssistantは発信元の名前を表示する。

出典: Google

クルマを遠隔操作

Assistantは遠隔でクルマを操作する機能を搭載した。クルマに乗る前に車内の空調を起動するときは「Turn on the car A/C to 70 degrees」と指示する。この他に、ガソリン残量やドアロックを確認できる。対象となるメーカーとシステムはHyundaiの「Blue Link」とMercedes-Benzの 「Mercedes me connect」。

提供時期

次世代AssistantはPixelの次のモデルに搭載され、出荷時期は2019年末の予定。Googleは次世代のスマホモデルを発表していないが、これで今年末に出荷される予定であることが分かった。DuplexはAndroid OSを搭載したデバイスで利用でき出荷時期は2019年末の予定。また、これ以外のAssistant新機能は2019年の夏から出荷が始まる。

控えめの発表

いま個人情報管理に関しハイテク企業に厳しい目が向けられている。収集した個人データがどのように利用されているのか、GAFAに対して透明性が求められている。基調講演ではPichaiが自らGoogleの個人データ管理の指針とそれを実装したツールを説明した。講演はお祭りムードではなく、新製品発表は控えめに行われた。全体を通して、AI技法をアピールするより、開発された技術がどう生活に役立つかを示し、AI応用技術に軸足が移っているのを感じた。

注目記事

Amazonは宅配ロボット「Scout」の運用を開始、人に代わりロボットが商品を配達する

Amazonは配送ラストマイルを担うロボット「Amazon Scout」の実証実験を始めた。Amazonで購入した商品は人間ではなくロボットが配送する。既に多くのベンチャー企業が配送ロボットを開発しているが、Amazonの参入で技術競争が激しくなる。同時に、AmazonがScout投入したことは、商品の宅配をロボットが担う時代が到来したことを意味する。

出典: Amazon

Amazon Scoutの概要

Amazonは2019年1月、配送ロボットAmazon Scout (上の写真)を発表した。Scoutはクーラーボックスに車輪が六つ付いた形状で、自動運転車のように自立走行する。Scoutは歩道を人が歩くくらいの速さで進み、注文を受けた商品を消費者宅まで配送する。プライム会員向けのサービスで、Amazonで買い物をして同日配送などのオプションを選択すると、Scoutがその商品を無料で配送する。

トライアルを開始

Amazonは6台のScoutを使ってSnohomish County(ワシントン州)でトライアルを始めた。Scoutの運用は月曜日から金曜日までの日中に限られる。注文を受けるとScoutが最適ルートを算定し、自動走行して商品を宅配する。当初は、Amazonのスタッフが安全確認のためにロボットに随行する。

商品の受け取り

Scoutが配送先に到着すると消費者宅の玄関前の歩道に停止する。消費者のスマホにメッセージが送信され、Scoutが到着したことを知らせる。消費者はアプリを操作(PINの入力か)してScoutの貨物ベイのカバーを開き、商品を取り出す(下の写真)。Scoutは商品が取り出されたのを確認して、カバーを閉めて、自律的に帰還する。

出典: Amazon

住民サービスの向上

Scoutはシアトルのアマゾン研究所で開発された。Scoutは歩道を自律走行し、路上のペットや歩行者をよけて安全に移動する。Snohomish CountyはScoutによる商品配送を歓迎するとのコメントを出している。住民サービスが向上するとともに、環境にやさしい方式での配送に期待を寄せている。

地方政府の評価が分かれる

一方、配送ロボットを歓迎しない自治体も少なくない。サンフランシスコは配送ロボットが歩道を走行することを禁止している。市街地では歩道の幅は狭く、配送ロボットが高齢者や身体障碍者の通行を妨げる、というのがその理由。反対に、配送ロボットを積極的に受け入れる自治体は多い。上記に加え、シリコンバレーのMountain ViewやSunnyvaleは配送ロボットが次世代インフラを支える基礎技術と評価し、実証実験を進めている。

技術的課題課題

Scoutなど配送ロボットは歩道を走行して商品を配送する仕組みとなる。歩道の走行は一般道路の走行より難しいとされる。歩道は狭く歩行者で込み合っている。更に、人は歩道を整然と歩くのではなく、ロボットが予測できない行動を取る。歩道を集団で歩いたり、商店から歩道に飛び出すことも珍しくない。歩道にはカフェのテーブルや自転車などが置かれており、配送ロボットはこれらの事象を理解して対応することが求められる。

受け取り手順の問題

更に、人間でなくロボットが商品を届けると、受取手順が問題になる。高級住宅地では敷地に入る際にマニュアルでゲートを開ける必要がある。また、アパート形式の建物では配送ロボットは玄関先まで行くことができない。戸建ての住宅であっても、到着した際に、受取人が不在の時は配送ロボットは荷物を玄関先に置いておくことができない。配送ロボットが通行人によりいたずらをされるケースも報告されている。今後、実証試験などを通してこれらの課題を解決する必要がある。

実際に事故が発生

ロボットが生活に入ってくる中、全米各地で事故が報告されている。Washington(コロンビア特別区)のショッピングモールGeorgetown Waterfrontで、警備ロボット「Knightscope」はステップで転倒し池に転落した(下の写真)。警備ロボットの厳格なイメージが傷つき、企業はハードウェア以上のダメージを受けた。

また、配送ロボット「KiwiBot」はBerkeley(カリフォルニア州)で配送中に突然火を噴きだし火災となった。消防が駆け付ける前に周囲の通行人が消し止め大事には至らなかったが、企業イメージの低下は避けられない。これらの事故が示しているように、ロボットの技術完成度はまだまだ未熟で、抜本的な技術革新が求められる。

出典: Bilal Farooqui

ロボット配送時代に

Amazonはラストマイルの配送ではドローン「Prime Air」の技術開発を早くから始めているが、ロボット配送では市場参入が遅れた。AmazonがこのタイミングでScoutを投入したことは、配送ロボット市場の機が熟したと判断したのかもしれない。解決すべき課題は多いが、Amazonの参入で市場が活性化し、一気にロボット配送の時代に突入する予兆を感じる。

注目記事

2035年不老不死の技術が登場!? もう15年健康でいれば永遠に生きられる

Ray Kurzweilは2045年にSingularityに到達し、AIが人間の知能を追い越すと予測する。また、Kurzweilは2035年までに人類は不老不死の技術を手に入れると予測している。これは「Longevity Escape Velocity」という考え方で、我々が一つ歳を取るうちに、技術進化で寿命が一年以上伸びることを意味する。つまり、我々は老いるより早く若返ることを意味し、あと15年元気であればこのポイントに到達する。

出典: MIT

旧約聖書創世記

旧約聖書(Old Testament)の創世記(Genesis)に登場する原初の人類は寿命が格段に長い。最初の人間アダム(Adam)は930歳まで生きたと記されている。ノアの箱舟(Noah’s Arch)でなじみ深いノア(Noah)は950歳まで生きた。ノアは500歳で三人の子供をもうけ、600歳の時に神のお告げに従い箱舟を作り、家族と他の動物たちと一緒に乗り込んだ。

寿命が短くなる

一方、箱舟を流した大洪水の後は聖書に登場する人物の寿命は徐々に短くなっていく。出エジプト記(Book of Exodus)で登場するモーゼ(Moses)は、虐げられていたユダヤ人(Israelite)を率いてエジプトから脱出するが120歳で亡くなっている。120歳が人間の寿命の限界と考えられる所以はここにある。(下のグラフ、旧約聖書に登場する人物の寿命をプロットしたもの。ノアからモーゼまで寿命は指数関数的に減衰(Exponential Decay)している。)

出典: Institute for Creation Research

寿命が短くなった理由:宗教的解釈

大洪水の前は長生きをしていのに、その後寿命が短くなっていくが、その理由について様々な解釈がある。その一つが、ノアの洪水の時、神は人間の寿命の上限を120歳に定めたという解釈。ノアの洪水からモーゼの出エジプトまでは750年の開きがあるが、この期間に寿命が950歳から120歳まで徐々に短くなった。これは神が介入(Devine Intervention)し遺伝子を操作し、それが年代を経て伝わり、寿命が徐々に短くなったという考え方で、宗教界ではこの解釈が一般的。

寿命が短くなった理由:生物学的解釈

一方、バイオロジーの観点からは、寿命が短くなったのは生物進化に原因があると解釈されている。人間にとって長寿はデメリットであるという考え方で、食料が不足していた時代には、若い世代を育てるために、高齢の世代は早く死んでいく。これにより食料が若い世代に行き渡り、子孫が繁栄できる。生物学的に理のかなったプロセスで、これがアカデミアの一般的な解釈となる。

Longevity Escape Velocity

食料が足りている今の時代に、120歳に制限された人間の寿命を延ばす研究が進んでいる。また、人間は何歳まで生きることができるのか議論が続いている。その一つが「Longevity Escape Velocity」という考え方で、長寿を達成するための仮定として議論される。具体的には、Longevity Escape Velocityは1年歳を取る間に、1年以上寿命が延びる状態を意味する。例えば、一つ歳を取る間に、寿命を二年延ばす技術が登場すると、人間は永遠の生命を手にすることになる。(下のグラフ、Longevity Escape Velocityを示したもので、縦軸が平均余命で、いま50歳以下の人は永遠に寿命が延びる。一方、いま80歳以上の人はこの恩恵にあずかれない。)

長寿技術の進化

Longevity Escape VelocityというコンセントはRay Kurzweilらが提唱したもので、人間の寿命を予測するためのモデルとなる。KurzweilはLongevity Escape Velocityへの到達は予想外に早く、もう10年から12年するとこの技術が登場すると述べている。また、これを達成するには抗がん剤などの医薬品では不可能で、バイオロジーの進化が必須となる。具体的には、超小型ロボット(Nanobot)を開発し、これらが免疫システムとして稼働する。超小型ロボットは白血球のようにがん細胞を見つけてそれを破壊する役割を担う。また、損傷した組織を修復する機能も持つ。

出典: Wikipedia

未来予測の手法

KurzweilのSingularityは世界の注目を集めているが、Longevity Escape Velocityについては知名度が低い。Longevity Escape VelocityはSingularityと同様に未来予測であり、どれだけの精度で的中できるのかはわからないが、Kurzweilの過去の実績を見ると八割の精度で予想を的中させている。Longevity Escape Velocityについても予測通りの未来が到来するのかもしれない。

結果を見届ける

つまり、Kurzweilの予測が正しければ、2035年ころまでにはLongevity Escape Velocityの技術が登場する。予想外に早く長寿の技術が登場し、あと15年ほど健康でいれば、不老不死の技術の恩恵を受けることができる。これはあくまでKurzweilの予測であるが、AIやバイオロジーが加速度的に進化する中、あと15年健康で暮らしてLongevity Escape Velocityの結果を見届けるのもいいかもしれない。

注目記事

IBMはAIのロジックを可視化するクラウドを投入、Explainable AIで信頼できるAIモデルを構築

銀行や保険会社はAIを導入しプロセスを自動化する試みを進めている。しかし、AIのロジックはブラックボックスで、意思決定の仕組みが見えない。動作メカニズムが解明されない限り、AIを会社業務に導入できない。IBMはこの問題を解決するために最新のExplainable AIをクラウドで投入した。

出典: IBM

コールセンター

IBMはWatsonをベースとしたAIモデルを企業システムに展開している。その中で人気が高いのがAIコールセンターで、チャットボットがオペレーターに代わり電話を受ける。英国の大手銀行Royal Bank of Scotlandはチャットボット「Cora」を開発し、コールセンターで運用している。Coraは200以上の質問に対し1000通りの回答をすることができ、コールセンターの仮想オペレーターとして利用されている。Coraは進化を続け、次は顧客のファイナンシャルアドバイザーとしての展開が計画されている。

納税書類作成

米国の大手会計事務所H&R BlockはIBM Watsonを利用して納税申告書作成プロセスを最適化した(下の写真)。H&R Block社員が顧客と対面して申告書を作成する際に、Watsonが会話を理解して税金控除(Tax CreditsとTax Deductions)を提言する。米国の税制は複雑で法令は74,000ページに及び、毎年改定される。H&R Blockはこの法令と社員のノウハウでWatsonを教育し、AIが節税のポイントを発見する。

出典: IBM

データ保護規制へのコンプライアンス

カナダの大手情報会社Thomson ReutersはEU一般データ保護規則(General Data Protection Regulation)など準拠するため、AIツール「Data Privacy Advisor」をIBM Watsonで開発した。これは社内のコンサルタント向けのツールで、普通の言語で質問するとツールは言葉で回答を提示する。Thomson ReutersとIBMはデータ保護規則だけでなく、コンサルタントのノウハウでWatsonを教育した。GDPRなどデータ保護法が強化され、企業はマニュアルでの対応に限界を感じAIツールの開発に踏み切った。

AIの説明責任

企業は業務処理でAIを導入するが、そのアルゴリズムはブラックボックスで、重要な処理をAIに任せることができない。また、AIモデルを運用中に問題が発生すると、これを検知するメカニズムが必要となる。更に、問題の原因を突き止め、AIモデルを修正する機能も求められる。業務で使うAIには意思決定のロジックを分かりやすく説明する機能が必須となる。

OpenScaleを発表

市場からExplainable AIに対する要望が高まり、IBMはAIのブラックボックスを解明するクラウド「OpenScale」を発表した。OpenScaleは企業が運用するAIと連携して稼働し、AIモデルの処理プロセスを解明し、アルゴリズムの問題点を指摘する。また、OpenScaleは問題点を指摘するだけでなく、その対応策を提言する機能も有す。OpenScaleはIBM Cloudで提供され、企業が開発したAIモデルと連携して稼働する構造となる。

システム概要

OpenScaleはIBM ResearchとWatsonグループにより開発された。OpenScaleはAIの信頼性を増し、ロジックを明らかにすることを目的に設計された。具体的には、AIモデルに説明責任(explainability)、公平性(fairness)、ライフサイクル管理(lineage)の機能を付加する。OpenScaleは主要AI開発プラットフォームと連携して稼働し、Watson、Tensorflow、SparkML、AWS SageMaker、 AzureMLをサポートする。

バイアスの検知

OpenScaleは業務で稼働しているAIモデルを解析し、「Accuracy(判定精度)」と「Fairness(公平性)」を査定する。下の写真は自動車保険のAIモデルを解析した事例で、どこに問題点があるかを表示している。それぞれのタイルはAIモデルで、自動車保険業務で8つのモジュールが稼働している。これらAIモデルを解析し、OpenScaleはAccuracyとFairnessに関する問題(紫色のハッシュの部分)を指摘している。更に、タイル上部に赤文字で「Bias」と表示される。

出典: IBM

バイアスの原因

この指摘に従ってAIモデルをドリルダウンして判定のメカニズムを見ることができる。例えば「Claim Approval」というAIモデルをクリックすると、自動車保険の保険金請求に関する問題点が可視化される(下の写真)。ここにはAIモデルを教育したときのデータ構成が示されている。横軸が年齢で縦軸がデータ件数を示す。OpenScaleは24歳未満の加入者が公正に扱われていないと指摘する。この原因は教育データの数が不足しているためで、24歳未満の加入者のデータを追加してAIモデルを再教育する必要があることが分かる。

バイアスの説明

更に、OpenScaleは過去のトランザクションでAIモデルが判定した理由を説明する機能もある。自動車保険の保険金請求において、実際のトランザクションのデータをOpenScaleで解析することで、判定理由が示される。具体的には、保険金申請が認められなかった場合には、その理由が示される。実際、保険金請求処理で申請が認められなかった場合は、顧客にこの理由を説明することが法令で義務付けられており、OpenScaleを使うことで法令に順守できる。

出典: IBM

AIプラットフォーマーとなる

OpenScaleを投入したことは、IBMはAIのシステムインテグレータになることを表明したとも解釈できる。AI開発で遅れを取っているIBMであるが、オープンなアプローチででAIモデルを安全に稼働させるプラットフォーマーになる戦略を進めている。Googleを筆頭にシリコンバレーで怖いほどのAIが生み出されるが、東海岸の代表企業IBMは無秩序に増殖するAIを管理運営することをミッションとする。激しく進化するAIを企業が業務で安心して使えるための技術開発がIBMの新たな使命となる。

注目記事

GANは極めて精巧なフェイクイメージを生成、作画メカニズムが分かりExplainable AIの研究が進展

AIは社会生活に多大な恩恵をもたらすが、その中身はブラックボックスで処理のプロセスが見えない。このためAIを安心して利用することができず、普及の足かせになっている。今年は説明責任を果たせるAIの研究が進む年となる。MITの研究チームはGenerative Adversarial Network (GAN)のアルゴリズムを解明し、AIの思考プロセスを明らかにした。

出典: Karras et al. (2017)

フェイクのセレブ

GANは写真撮影したように架空のオブジェクトをリアルに描き出すことで注目を受けている。例えば、セレブの写真をGANに入力しネットワークを教育すると、アルゴリズムは仮想のセレブを描き出す(上の写真)。どこかで見かけた顔のように思えるがこれらは実在の人物ではない。GANがセレブというコンセプトを学び想像で描いたもので、これらのイメージを検索しても該当する人物はでてこない。リアルとフェイクを見分けることができずGANに対して気味悪さを感じるが、AI研究の主要テーマとなっている。

AIアートが高値で売れる

GANが芸術作品を生み出し、それが高値で落札されたことで、一躍その手法に関心が集まった。フランスのAI芸術家集団「Obvious」はGANで絵画を生成する手法で芸術の普及に貢献している。その代表作「Edmond De Belamy」がChristie’sのオークションで$435,000で落札された(下の写真)。AIが生成した絵画に高値が付き市場を驚かせた。作品はある家族(Belamy Family)を描いたもので11点が制作され、その一点がこのEdmond De Belamy である。

出典: Christie’s

AIアートの著作権

AIが描いた絵画にどれだけの芸術的価値があるかが議論になっているが、同時に、AIが制作した作品の著作権は誰に帰属するかも問題となっている。このAIアートを制作したのはObvious社で、GANに古典的な肖像画15,000点を読み込ませアルゴリズムを教育した。GANは肖像画というコンセプトを学びアルゴリズムは新しい作品を創作した。

アルゴリズム開発者か利用者か

Obvious社が使用したGANはRobbie Barratという人物が開発し、オープンソースとしてGitHubに登録されている。誰でも自由にこのGANを使うことができるが、Obvious社はGAN開発者には触れず、ルール違反が指摘されている。そもそも、生成された絵画の著作権はアルゴリズム開発者にあるのか、それともアルゴリズム利用者にあるのか、議論となっている。

MIT-IBM Watson AI Lab

GANに関する多くの問題が未解決であるが、時代を変える技術として注目されている。また、GANのアルゴリズムはブラックボックスで、作画の仕組みを解明する動きが広がっている。MITの研究グループ「MIT-IBM Watson AI Lab」はGANのアルゴリズムの解明を進め、GANの思考メカニズムを明らかにした。GANはどのように学習し、どのように判断するかが特定でき、この研究がAIのブラックボックスを解明する大きな第一歩となった。

研究成果

研究成果は「GAN Dissection: Visualizing and Understanding Generative Adversarial Networks」として発表された。この研究でGANがオブジェクトを把握するメカニズムを解析し、それを可視化して示した。具体的には、ニューラルネットワークの中で、どのレイヤーのどのニューロン(ユニットと呼ぶ)が特定のオブジェクト(木や雲など)の生成に関係しているかを突き止めた。

ユニットの機能をオン・オフ

更に、特定したユニットの機能をオン・オフさせ、その効果を検証した。特定のユニットの機能を停止させることで、オブジェクトを取り去ることができることを示した。反対に、そのユニットの機能を強化することで、オブジェクトを追加できることも示した。(下の写真がその事例、左端がオリジナルのイメージで、木に関連するユニットの機能をオフ・オンすることで、木を削除(中央)したり、追加(右端)できる。)

出典: MIT-IBM Watson AI Lab

アルゴリズムは常識を学ぶ

特定されたユニットはオブジェクトを生成するだけでなく、オブジェクトに関する常識も学んでいる。例えば、ドアを追加する際には、建物のスタイルにマッチしたドアを生成する。更に、ドアを建物以外のオブジェクト(例えば空)に追加しようとしても、アルゴリズムはこれを拒否する(下の写真)。アルゴリズムは教育の過程で人間のように常識を得ることが示された。

出典: MIT-IBM Watson AI Lab  

応用事例

この技法を使うとイメージを容易に変更することができる。ユニットと家具や人物の関係を把握することで、イメージの品質を向上することができる。例えば、GANが生成した寝室(下の写真、左側上段)から家具や小物を削除することで綺麗なイメージ(下の写真、左側下段)が出来上がる。また、GANが生成した会議室(下の写真、右側上段)から人物や窓を取り除き新しいイメージの会議室(下の写真、右側下段)を生成できる。これらはピクセルを変換するのではなく、ニューラルネットワークの特定ユニットを操作することでイメージを変換する。

出典: David Bau et al

Explainable AIの研究が進展

このようにニューラルネットワークのユニットを操作することで、アルゴリズムがイメージを生成する仕組みの解明につながる。ニューラルネットワークは学習を積むことで、特定のオブジェクトを描くユニットを構成することが分かった。ドアを描くニューロンのグループを形成し、このユニットはドアの意味も理解し、背景にマッチしたドアを描く。高値で売れるAIアートを生成するアリゴリズムの開発に結び付くのか、ブラックボックスに光があたり、Explainable AIの研究が進み始めた。

注目記事

Generative Adversarial Networks (GAN) とは何か、どんなブレークスルーが期待でき如何なる危険性があるか

Generative Adversarial Networks (GAN) とはGoogle Brain (AI研究部門) のIan Goodfellowが開発したニューラルネットワークで、その潜在能力に期待が高まり研究開発が進んでいる。GANは様々なバリエーションがあり多彩な機能を持っている。GANはDeep Learningが抱える問題を解決する糸口になると見られている。同時に、GANは大きな危険性を内在し注意を要する技法でもある。

出典: Karras et al. (2017)

DCGAN:現実そっくりのイメージをリアルに生成

GANはニューラルネットワークの技法で二つの対峙する (Adversarial) ネットワークがコンテンツ (イメージや音声など) を生成する。GANは技法の総称で多くのバリエーションがある。その代表がDCGAN (Deep Convolutional Generative Adversarial Networks) で、ネットワークが写真そっくりの偽のイメージを生成する。Nvidiaはニューラルネットワークでセレブ画像を生成する技術を公開した。画像は実在の人物ではなくアルゴリズムがセレブというコンセプトを理解して想像でリアルに描く。このネットワークがDCGANにあたる。

DCGANはセレブ以外に様々なオブジェクトを描くことができる。上の写真はDCGANが寝室を描いたものである。これらのイメージは写真ではなく、教育されたデータをもとにDCGANが寝室のあるべき姿を出力したものである。寝室にはベッドがあり、窓があり、テーブルがあり、ランプがあることを把握している。リアルな寝室であるがこれはDCGANが想像したもので、このような寝室は実在しない。DCGANは写真撮影したように架空のセレブやオブジェクトをリアルに描き出す。

DCGANのネットワーク構造

DCGANはGenerator (制作者) とDiscriminator (判定者) から構成される (下の写真)。GeneratorはDe-convolution Network (上段、パラメータから元のイメージを探す処理) で構成され、入力されたノイズ (ランダムなシグナル) からイメージ (例えば寝室) を生成する。

DiscriminatorはConvolution Network (下段、イメージをパラメータに凝縮する処理) で構成され、ここに偽造イメージ (Fake) 又は本物イメージ (Real) を入力する。Discriminatorは入力されたイメージを処理し、それがFakeかRealかを判定 (Logistic Regression) する。このプロセスでDiscriminatorが誤差逆伝播法 (Backpropagation) で教育され勾配 (Gradient、本物と偽物の差異) を得る。

この勾配をGeneratorに入力し本物そっくりの偽物を生成する技術を上げる。両者が揃って成長する仕組みで、このプロセスを何回も繰り返しDiscriminatorが見分けがつかないリアルなフェイクイメージ (先頭の写真) を生成する。

出典: Amazon  

DCGANでイメージを演算する

Generatorはフェイクイメージを生成するだけでなく、生成したイメージを演算操作する機能を持っている。例えば、「眼鏡をかけた男性」ー「眼鏡をかけていない男性」+「眼鏡をかけていない女性」=「眼鏡をかけた女性」となる (下の写真)。演算の結果「眼鏡をかけた女性」が九つ生成される (右端) がその中央が求める解となる。その周囲八つのイメージから外挿 (Extrapolation) して中央のイメージが生成された。この技法を使うとイメージを操作して金髪の女性を黒髪の女性に変えることができる。

出典: Radford et al. (2016)

SRGAN:イメージ解像度をアップ

SRGAN (Super-Resolution Generative Adversarial Networks) とは低解像度のイメージを高解像度のイメージに変換する技法 (下の写真) である。右端がオリジナルイメージで、この解像度を様々な手法で上げる (このケースでは解像度を4倍にする)。多くの技法が使われており、bicubic (左端、二次元のExtrapolation) やSRResNet (左から二番目、Mean Squared Errorで最適化したDeep Residual Network) などがある。左から三番目がSRGANが生成したイメージ。物理的にはノイズ比 (peak signal-to-noise ratio) が高いが (ノイズが乗っているが) 見た目 (Structural SIMilarity) にはオリジナルに一番近い。この技法はImage Super-Resolution (SR) と呼ばれ、低解像度イメージを高解像度ディスプレイ (8Kモニターなど) に表示する技術として注目されている。

出典: Ledig et al. (2016)

StackGAN:テキストをイメージに変換

StackGAN (Stacked Generative Adversarial Networks) とは入力された言葉からイメージを生成する技法 (下の写真) を指す。例えば、「この鳥は青色に白色が混ざり短いくちばしを持つ」というテキストを入力すると、StackGANはこのイメージを生成する (下の写真、左側)。StackGANは二段階構成のネットワークで、Stage-Iは低解像度のイメージ (上段) を、Stage-IIで高解像度のイメージ (下段) を生成する。DCGANと同様に生成されたイメージは実在の鳥ではなくStackGANが想像で生成したもの。リアルそっくりのフェイクの鳥でこのような鳥は世の中に存在しない。言葉で意のままにフェイクイメージを生成できる技術で、応用範囲は広いものの不気味さを感じる技術でもある。

出典: Zhang et al. (2016)

D-GAN:写真から三次元モデルを生成

MITのAI研究チームは三次元モデルを生成するネットワーク3D-GAN (3D Generative Adversarial Networks) を公開した。例えば、家具の写真で教育すると3D-GANは家具を三次元で描くことができるようになる。ここではIkeaの家具の写真が使われ、それを3D-GANに入力するとその家具を3Dで描写する (下の写真、上段)。入力された写真は不完全なもので家具の全体像が見えていないが、3D-GANはこれを想像で補って3Dイメージを生成する。

3D-GANは3Dモデルイメージを演算操作できる (下の写真、下段)。例えば、「棚付きの低いテーブル」ー「棚無しの高いテーブル」+「高いテーブル」=「棚付きの高いテーブル」となる (一番下の事例)。これは3D-GANが学習した成果を可視化するために出力されたもの。GANは学習した成果をパラメータとしてネットワークに格納するが、これを直接見ることはできない。この研究の目的は隠れた領域 (Latent Spaceと呼ばれる) のパラメータを出力し3D-GANが学習するメカニズムを検証することにある。

出典: Wu et al. (2017)

CycleGAN:イメージのスタイルを変換

入力イメージのスタイルを別のスタイルに変換する手法は一般にStyle Transferと呼ばれる。イメージ間のスタイルをマッピングすることが目的でDeep Neural Networkが使われる。ネットワークが画家のスタイルを習得し、そのタッチで絵を描く技術が発表されている。例えば、写真入力するとネットワークはそれをモネ・スタイルの油絵に変換する。しかし、画家の作品とその風景写真を対にしたデータは殆どなく、ネットワーク教育 (Paired Trainingと呼ばれる) が大きな課題となっている。

出典: Zhang et al. (2016)

これに対しCycleGAN (Cycle-Consistent Adversarial Networks) という方式では対になった教育データ (モネの油絵とその元になった風景写真など) は不要で、それぞれのデータを単独 (モネの油絵と任意の風景写真など) で使いネットワークを教育 (Unpaired Trainingと呼ばれる) できる。教育されたCycleGANは、例えば、モネの作品を入力するとそれを写真に変換する (上の写真、左側上段)。反対に、写真を入力するとモネの油絵に変換する (上の写真、左側下段)。また、シマウマの写真を馬の写真に、馬の写真をシマウマの写真に変換する (上の写真右側、object transfigurationと呼ばれる)。更に、富士山の夏の写真を入力すると、雪の積もった冬の富士山の写真に変換できる (season transferと呼ばれる)。CycleGANはネットワークが自律的に学習するアーキテクチャで教師無し学習 (Unsupervised Learning) につながる技法として期待されている。

DiscoGAN:イメージグループの属性を把握

人間は一つのグループ (例えばバッグ) と別のグループ (例えばシューズ) の関係を把握できる。ニューラルネットワークがこの関係を把握するためにはタグ付きのイメージを大量に入力してアルゴリズムを教育する必要がある。DiscoGANという技法はアルゴリズムが両者の関係を自律的に理解する。最初、DiscoGANに二つのグループのイメージ (例えばバッグとシューズ) をそれぞれ入力しそれぞれの属性を教える。イメージにはタグ (バッグとかシューズなどの名前) はついてないがアルゴリズムが両者の関係を把握する。

出典: Kim et al. (2017)

教育したDiscoGANに、例えば、バッグのイメージを入力するとシューズのイメージを生成する (上の写真)。青色のバッグからは青色のシューズを生成する (左端の事例)。これ以外に、男性の写真を入力すると女性のイメージを生成することもできる。DiscoGANも両者の関係 (バッグとシューズの関係など) を自律的に学習する。両者の関係を定義したデータ (Paired Data) は不要で、それぞれの属性のイメージ (バッグやシューズの写真集など) だけで教育できる。DiscoGANもネットワークが自律的に学習する構造で教師無し学習への道が開ける技法として注目されている。

GANがファッションデザイナー

GANは基礎研究だけでなくビジネスへの応用も始まっている。AmazonはGANを利用したファッション事業の構想を明らかにした。Amazonは自社の研究所Lab126でGANの開発を進めている。GANは流行りのファッションからそのスタイルを学習し、独自のファッションを生成する。GANがファッションデザイナーとなり、人間に代わって新しいデザインをを創り出す。

ファッショントレンドはFacebookやInstagramなどに投稿されている写真から学習する。これらの写真をGANに入力すると、GANがトレンドを学び独自の洋服などをデザインする。また、AmazonはEcho Look (下の写真、カメラ付き小型版Echo) で利用者を撮影しファッションのアドバイスをするサービスを展開している。Echo Lookを通して利用者のファッションの好みを理解し、GANはその個人に特化したデザインを生成することが計画されている。GANが生成したデザインはオンデマンドで洋服に縫製され (On-Demand Clothing) 利用者に配送される仕組みとなる。

出典: Amazon

GANに注目が集まっている理由

このようにGANのバリエーションは数多く研究が幅広く進んでいる。GANに注目が集まっている理由はGANが現行Deep Learningが抱えている問題の多くを解決する切り札になる可能性があると期待されているからだ。特に、教師無し学習 (Unsupervised Learning) とタグ無しデータ (Unlabeled Data) 教育の分野で研究が大きく進む手掛かりになると見られている。上述のCycleGANやDiscoGANがこれらのヒントを示している。また、Nvidiaの研究チームはDCGANという技法で、写真撮影したように鮮明な架空のセレブイメージを生成したが、教育にはタグの付いていないセレブの写真が使われた。アルゴリズムが自律的に学ぶ技術が進化している。

GANの危険性も考慮する必要あり

FacebookのAI研究所所長のYan LeCunは「GANとその派生技術はここ10年におけるMachine Learning研究で最も優れた成果」であると高く評価している。一方、GANに寄せる期待が高まる中でその危険性も指摘されている。今までもフェイク写真が問題となってきたがGANの登場でその危険性が加速される。ニュースに掲載されている写真やビデオを信用できるかという問いが投げかけられている。(GANでフェイクビデオを生成できるのは数年先と見られている。) ソーシャルメディアに掲載されたイメージが証拠写真として使われることが多いが、これからは何が真実か分からない時代となる。AIがそうであるようにGANも諸刃の剣で、先進技術は生活を豊かにするとともに、使い方を間違えるとその危険性も甚大である。

注目記事

AIがセレブを想像で描く、二つのAIが対峙して現実そっくりの偽物を生成

Nvidiaの研究チームはニューラルネットワークがセレブ画像を生成する技術を公開した。画像は実在の人物ではなくAIがセレブというコンセプトを理解して想像で描いたもの。セレブの他に、寝室、鉢植、馬、ソファー、バスなどのオブジェクトを現実そっくりに描くことができる。この技術はGenerative Adversarial Network (GAN)と呼ばれいま一番注目を集めている研究テーマだ。

出典: Karras et al. (2017)

鮮明な偽物を生成する技術

この研究は論文「Progressive Growing of GANs for Improved Quality, Stability, and Variation」として公開された。この技法はGenerative Adversarial Network (GAN)と呼ばれ、写真撮影したように架空のセレブ (上の写真) やオブジェクトを描き出す。どこかで見かけた顔のように思えるがこれらは実在の人物ではない。GANが想像で描いたものでこれらのイメージをGoogleで検索しても該当する人物は見当たらない。このようにGANは写真撮影したように鮮明な偽物を生成する技術である。

GANはIan Goodfellowが論文「Generative Adversarial Nets」で発表し研究者の間で注目を集めた。GoodfellowはOpenAI (AI研究非営利団体、Elon Muskなどが設立) でこれを発表し、その後Googleに移籍し研究を続けている。

GANのネットワーク構造

GANはDeep Neural Networkの技法で二つの対峙するネットワークがコンテンツ (イメージや音声など) を生成する。GANは「Generator Network」と「Discriminator Network」から構成される (下の写真)。Generatorとは制作者を意味し、本物そっくりの偽のイメージを生成する (下の写真、上段)。Generatorにはノイズ (ランダムなシグナル) が入力され、ここから偽のイメージを生成する。Discriminatorとは判定者を意味し、入力されたデータが本物か偽物かを判定する (下の写真、右端)。DiscriminatorにはGeneratorが生成した偽のイメージ (Fake)、またはデータセットからの本物のイメージ (Real) が入力される。Discriminatorは入力データがFakeかRealかを判定する。

出典: Amazon  

なぜリアルなイメージを生成できるのか

GoodfellowはGANを偽札づくりに例えて説明している。Generatorは犯罪者で巧妙な偽札を作る。一方、Discriminatorは警察官で紙幣を鑑定する。犯罪者は偽札を作るが警察官はそれを見破る。犯罪者はこれを教訓に次回はもっと巧妙な偽札を作る。警察官も同時に目利き技術を向上させこれを見破る。回を重ねるごとに偽札が巧妙になり、ついに警察官に見破られない精巧な偽札を作れるようになる。冒頭の写真のセレブ画像がこの偽札に相当する。GANはGeneratorとDiscriminatorが対峙して (Adversarial) 極めて巧妙な偽物を生成する技法と言える。

Nvidiaの研究成果

この分野で研究が進みGANは既に極めて巧妙な偽物を生成することができる。しかしGANの課題はアルゴリズムの教育で長時間の演算が必要になる。更に、アルゴリズムの挙動が安定しない点も課題となっている。このためNvidiaの研究チームは特殊なアーキテクチャ (下の写真) を開発しこの問題を解決した。

出典: Karras et al. (2017)  

Nvidiaが開発したネットワーク

上のダイアグラムでGと記載されている部分 (上段) がGeneratorを示し、Dと記載されている部分(下段)がDiscriminatorを示す。Discriminatorには本物のセレブ写真(Reals) とGeneratorが生成した偽のイメージ (Fake) が入力され、本物か偽物かを判定する。このGANの特徴は教育初期段階では低解像度 (4×4) のネットワーク (左端) を使い、教育が進むにつれて徐々に解像度を上げる。最終的には高解像度 (1024×1024) のネットワーク (右端) を使い鮮明なイメージ (右端の写真) を生成する。NvidiaのGANは出来栄えを検証しながら徐々に解像度を上げる構造となっている。

生成するイメージの進化

下の写真はGANが生成したイメージを示している。GANの教育を始め4時間33分経過した時点では低解像度 (16×16) のイメージが生成され人物らしき形が現れた (上段)。1日と6時間経過した時点では中解像度 (64×64) のイメージで顔がはっきりした (中段)。5日と12時間経過した時点では高解像度 (256×256) で人物が滑らかに描かれているが細部はゆがんでいる (下段)。19日と4時間経過した時点で高解像度 (1024×1024) のリアルな人物イメージが完成した (冒頭の写真)。

出典: Karras et al. (2017)

教育のためのデータ

GANの教育にはセレブ写真のデータベース「Large-scale CelebFaces Attributes (CelebA) Dataset」が使われた。ここに登録されている3万枚のセレブ写真 (解像度は1024×1024) を使ってGANを教育した。GANは人の顔とは何かを学んだだけでなく、目や口や髭やアクセサリーなども学び、本物そっくりの架空のセレブを生成する。この技法の意義は写真と見分けがつかない高解像度のイメージを生成できる道筋を示したことにある。

イメージ生成にはコストがかかる

GANで鮮明なイメージを生成するためには大規模な計算リソースを必要とする。この研究ではNVIDIA Tesla P100 GPU (4.7 Tlops) が使われた。前述の通りGANの教育には20日程度を要した。GANのネットワークが改良されたものの、高解像度のイメージを生成するには大量の処理時間が必要となる。更に、描き出す対象はセレブなどに限定され、GANは教育された分野しか描けない。GANの教育時間を如何に短縮するか、また、幅広い分野をカバーするには更なる研究が必要となる。

フェイクニュース

GANが描き出したイメージは写真撮影したセレブと言われても疑う余地はない。リアルそっくりのフェイクで本物かどうかの判定は人間にはできない。GANが架空の世界を想像でリアルに描き出したことに不気味さを感じる。ソーシャルメディアでフェイクニュースが問題となっているがGANの登場でフェイク写真が事態を複雑にする。インスタ映えする写真はGANで創るという時代はすぐそこまで来ている。

GANを研究する目的

GANは諸刃の剣で危険性があるものの、その技法に大きな期待が寄せられている。GANは現行のDeep Learningが抱えている問題の多くを解決する切り札になる可能性がある。現行アルゴリズムを教育するためには大量のタグ付きデータが必要で、これがAI開発の最大のネックとなっている。GANに注目が集まっている理由はUnsupervised Learning (教師無し学習) とUnlabeled Data (タグ無し教育データ) の分野での研究が大きく進む手掛かりになると見られているからである。今後この分野で大きなブレークスルーが起こるかもしれない、そんな予感がする研究テーマである。

AIが音楽ヒットチャートの3割を生成、ニューラルネットワークが音楽産業を一変する

ピアノ曲「エリーゼのために」をモチーフにAIがディズニースタイルで音楽を生成した。

これはOpenAIが開発したAIで、映画で使える完成度の高い音楽が創られた。実際、日ごろ聞いている音楽の中にAIで創られた曲が含まれており、ニューラルネットワークの創作力は急速に進化している。人気シングルの3割はAIが創り出すといわれており、音楽産業が大きく変わっている。🔒

誰でもプロのダンサーのように踊れる技術が登場、AIで映画スターになる!

自分が映ったビデオをAIに入力すると、それがプロのダンサーの動きに変換される。これはスタイル変換(Style Transfer)という技法で、AIがプロのモデルの通りに動く映像を生成する。例えば、Michael Jacksonをモデルとして使うと、自分がMoonwalkしているビデオが生成される。これをネットに投稿すると注目を集めること間違いなしで、一気にユーチューバー(YouTube Celebrity)になれる。🔒

出典: Caroline Chan et al.  

Wingは航空機事業者として認可される、Googleグループはドローン輸送事業に向け大きく前進

Alphabet子会社「Wing」は2019年4月、米国で初めてドローンによる物資配送の認可を得た。アメリカ連邦航空局(Federal Aviation Administration、FAA)がWingを航空機事業者と認定したもので、ドローンで商品を顧客サイトまで輸送できることとなった。Wingが認可を受けた最初の企業で、米国においてドローンを一般空域(Air Space)で運用できることになり、商用運行への大きな一歩となった。🔒

出典: Wing

Teslaは年末までに完全自動運転車をリリース、高性能AIで人間より3倍安全なAutopilotを実現

多くの自動車メーカーが自動運転の開発に手間取るなか、Teslaは2019年末までに完全自動運転機能を投入する。クルマはすでに必要なハードウェアを搭載しており、ソフトウェアをWiFiで更新するだけで自動運転車となる。Teslaはカメラの画像を高性能AIプロセッサで解析することでこれを実現する。Lidarは不要で定石を覆す方式を取り、自動運転技術のブレークスルーが生まれるのか、その成果に注目が集まっている。🔒

出典: Tesla