カテゴリー別アーカイブ: 人工知能

AIがAIを開発し、AIが病気を検知する、Googleは全製品をAIで強化する

Googleは2017年5月、開発者会議「Google I/O 2017」を開催し (下の写真) AIの最新技術を公表した。GoogleはAI First企業として全社でAI化戦略「Google.ai」を進めていることを明らかにした。CEOであるSundar Pichaiが基調講演で明らかにし、その後研究詳細がリリースされた。

出典: Google

Google.aiは三つの軸から成る

Google.aiはGoogleの社内プロジェクトで、高度なAIを開発しこれを全ての製品の基盤技術とする開発戦略を指す。Google.aiは「基礎研究」、「ツール」、「応用技術」の三つの分野で構成されプロジェクトが進んでいる。基礎研究とは高度なAI技法の開発で、ツールとはAIを実行するプロセッサなどを指し、AIデータセンタとして提供される。応用技術ではAIでGoogleサービスを機能強化した事例が紹介された。

AIがAIを生成する技術

「基礎研究」でGoogleが注目しているテーマは「AutoML」である。これはMachine Learningを自動生成する研究で、アルゴリズムが別のアルゴリズムを生成する技法の開発を進めている。AIがAIを生成する技術を意味する。下の写真がその事例でAIが生成したDeep Learningアルゴリズム (右側) を示している。これはRecurrent構造 (処理結果を次のステップにループさせる構造) のネットワークで時間に依存する言語処理などで使われる。このケースではネットワークに言葉を入力すると次の言葉を予測する。

出典: Google

アルゴリズム生成方式

アルゴリズム開発は研究者の経験と勘が大きく寄与する。確立されている手法をベースに改良が加えられ新しいモデルを生成する。一方、AIは数多くのアルゴリズムを生成し、これらを実際に教育し実行し精度を把握する。これらのフィードバックをもとに、精度の高いアルゴリズムの作り方を学習する。人間は定石を積み重ねるが、AIは時として常識を覆す方式を生成する。因みにこのケースではAIが生成したアルゴリズム (上の写真右側) が人間が開発したアルゴリズム(同左側)の精度を上回った。

AIがAI研究者となる

AutoMLはGoogle Brainが研究しているテーマで、AIが最適なネットワーク構成を自動で設計することを目指す。つまりDeep Learningアルゴリズム設計に携わる研究者をAIが置き換えることを意味する。AI研究者自身もAIの進化で職を失うことになる。しかし、現実はAI研究者の数は決定的に不足しており、これをAutoMLで補う構造となる。GoogleとしてはAIに置き換えられた研究者をクラウド開発に振り向け事業を強化するとしている。

AI専用プロセッサ

二番目の区分「ツール」に関しては「Cloud TPU」が発表された (下の写真)。Cloud TPUは二代目のTPU (Tensor Processing Unit、Machine Learning計算専用プロセッサ) で大規模計算用にスケーラビリティを重視した設計になっている。Cloud TPUの性能は180Tflopsで64GBの高速メモリを搭載する。

出典: Google

AI First Datacenter

Cloud TPUは64個がボードに搭載され「TPU Pods」を構成する。ボードの最大性能は11.5 Petaflopsとスパコン並みの性能となる。TPU Podはラックに搭載され (下の写真)「Google Compute Engine」として提供される。Cloud TPUでAI処理専用のデータセンタを構築し、Googleはこれを「AI First Datacenter」と呼んでいる。同時に、Googleは「TensorFlow Research Cloud」を発表した。これは研究者向けのクラウドでCloud TPUを1000個連結し、先進AI技術開発のために無償で提供される。

出典: Google

AIをカメラに応用した「Google Lens」

三番目の区分「応用技術」については、GoogleはAIをカメラに応用した「Google Lens」を発表した。これはカメラのレンズをAIで構成するもので、カメラの機能と性能はソフトウェアが決定する。写真撮影するとカメラがAIを使ってイメージを再構築する。夜間撮影では画像にノイズが乗るがAIがこれを補正する (下の写真上段)。シャッターを押すとカメラが自動で複数回 (例えば32回) 露光し、これを重ねてノイズを取り除く。ネット裏からの写真はAIがメッシュを取り除く (下の写真下段)。

出典: Google

カメラの映像を判定

Google Lensはカメラに映ったオブジェクトを判定する機能がある。花の写真を撮影しGoogle Lens機能をオンにすると花の種類 (Milk and Wine Lily) を特定する (下の写真)。また店舗の写真を撮影するとその名称を認識し関連情報を表示する。カメラがイメージ検索の入力装置となる。Google Goggles（グーグルゴーグル）などで提供された機能であるが、AIを使って機能と精度が強化された。

出典: Google

AIが返信メールを作成

AIはGoogle製品を幅広く支えている。話題の機能が「Smart Reply」でGmailに搭載された。AIが受信したメールの題目と内容を読み最適な返信文を生成する (下の写真)。利用者は提示された三つの返信文から最適なものをクリックするだけで返信できる。Smart Replyが登場して1年以上たつが、今では複雑な内容のメールにも返信文を生成できるようになった。

出典: Google

Street ViewとGoogle Mapsを強化

Street ViewやGoogle MapsでもAIが使われている。Street Viewで撮影したイメージから建物に掲示されている数字をAIが読み番地を特定する。今では数字だけでなく通りの名称をAIが読み場所を把握する。表札が鮮明に写っていなくてもサンプルが四つあれば (下の写真) AIが正確に判定する。この技術をStreet Viewで撮影した800億枚のイメージに適用し位置を把握する。これによりGoogle Mapsの精度が大幅に向上した。利用者から見えないところでAIがサービスを支えている。

出典: Google

AIを医療に適用する

GoogleはAIを医療に適用することを明示した。Googleは既にAIを使ってDiabetic Retinopathy (糖尿病網膜症、下の写真右側、左側は健康な眼底イメージ) を判定するシステムを発表している。Diabetic Retinopathyとは糖尿病に起因する眼の疾患で失明する可能性が高いとされる。AIが医師より高精度でこの病気を検知することに成功した。AIをメディカルイメージングに活用できることが分かり、GoogleはDeepMindと共に医療分野での研究開発を重点的に進めている。

出典: Google

AIをどう製品に結び付けるのか

Googleはこの他にAIを音声認識に応用している。高度な自然言語処理機能を使いAIスピーカー「Google Home」やAIアシスタント「Google Assistant」を商品化している。Googleは全領域にAIを適用しAI First企業としてその成果をアピールした。ただ、今回の開発者会議では驚くような製品は登場しなかった。世界最高水準のAI技術を持つGoogleであるが、消費者としてはその恩恵を感じにくいのも事実であった。高度なAIをどう製品に結び付けるのかが問われており、これはGoogleだけでなくIT業界が共通に抱えている課題でもある。

AIが医師より正確に皮膚ガンを判定、ガン検診はスマホアプリで

Googleが開発したイメージ認識アルゴリズム「Google Inception」は世界でトップレベルの性能を持つ。このソフトウェアは公開されており誰でも自由に利用できる。これを皮膚ガンの判定に応用すると専門医より正確に病気を判定できることが分かった。特殊なアルゴリズムは不要でガン検知システム開発の敷居が下がった。市場では皮膚ガンを判定するスマホアプリが登場しており医療分野でイノベーションが相次いでいる。

出典: Stanford Health Care

皮膚ガン検出の研究

この研究はスタンフォード大学AI研究所「Stanford Artificial Intelligence Laboratory」で実施され、その結果が科学雑誌Natureに掲載された。これによると、Deep Learningアルゴリズムが皮膚ガンの判定において専門医より優れた結果を達成した。具体的には、Convolutional Neural Networks (CNN、イメージを判定するアルゴリズム) が使われ、AIの判定精度は21人の医師を上回った。

皮膚ガンの検出方法

一般に皮膚ガンを診察する時は、皮膚科専門医 (dermatologist) は肉眼や拡大鏡(dermatoscope) でその部位 (lesion) を観察する。悪性腫瘍であると診断した場合は生体から組織片を採取して調べるバイオプシー (Biopsy、生体組織診断) に進む。また、判定がつかない場合にもバイオプシーを実施し臨床検査で判定する。このバイオプシーがガン診断の最終根拠 (Ground Truth) になる。

アルゴリズムが上回る

診断結果はアルゴリズムが皮膚科専門医の判定精度を上回った。条件を変えて三つのケースで試験が行われたが、いずれの場合もアルゴリズムが好成績を上げた。下のグラフはその一つのケースで、赤丸が医師の判定結果を青色グラフがアルゴリズムの判定結果を示す。右上隅に近づくほど判定精度が高いことを表している。アルゴリズムが殆どの医師の技量を上回っている。

出典: Sebastian Thrun et al.

横軸は陽性判定 (正しくガンと判定) の精度で縦軸は陰性判定 (正しくガンでないと判定) の精度を示す。緑色の＋が医師の判定精度の平均で、アルゴリズムがこれを上回る。対象はMelanoma (悪性黒色腫) とCarcinoma (癌腫) で判定件数は111、130、135件。上のケースはMelanomaで130枚のイメージを使用。

Googleが開発したソフトウェア

この研究ではガンを判定するアルゴリズムにConvolutional Neural Networksが使われた。具体的には、Googleが開発した「Inception v3 CNN」を利用。Inceptionはイメージデータベース「ImageNet」を使ってすでに教育されている。写真に写っているオブジェクトを高精度で認識でき、犬や猫の種類まで判定できる。この研究で同一のアルゴリズムがガンを正確に判定できることが分かった。

皮膚ガンのデータベース

研究チームはこのInceptionを変更することなくそのまま利用した。Inceptionが皮膚ガンを判定できるようにするため、ガンの写真イメージとその属性データを入力し教育した。スタンフォード大学病院 (先頭の写真) は皮膚ガンに関する大規模なデータベースを整備した。129,450件の皮膚ガンイメージ (Skin Lesion) とそれに対応する2,032種類の病気を対応付けたデータベースを保有している。このデータベースは病気の区分け (Taxonomy) とそれに対応するサンプルイメージから構成される。このデータを使ってInceptionを教育した。

システム構成

教育されたInceptionは1,942枚の写真で試験された。一方、専門医は375枚の写真に対して診断を下した。下の写真がアルゴリズムの概要で、写真 (左端) をInception (中央部、薄茶色の分部、CNNネットワークを示す) に入力すると757種類の皮膚疾病に分類し、これが良性であるか悪性であるかを判定する。

出典: Sebastian Thrun et al.

Google Inceptionとは

この研究で使われたアルゴリズム「Inception v3 CNN」は公開されており、誰でも自由にTensorFlowで使うことができる。TensorFlowとはGoogleが開発したMachine Learning開発プラットフォームで、この基盤上でライブラリやツールを使ってAIアプリを開発できる。因みにInception v3 CNNは2015年のイメージコンテスト「ImageNet Challenge」で二位の成績を収め世界トップの性能を持つ (一位はマイクロソフト)。GoogleとしてはTensorFlowやInceptionを公開することで開発者を囲い込む狙いがある。

教育データの整備

Googleが開発したInceptionは身の回りのオブジェクトの判定ができるだけでなく、皮膚ガンの判定でも使えることが分かった。システム構成を変更することなくガン細胞の判定で威力を発揮した。ただ、開発には大規模な教育データが必要となり、データベース整備が大きな課題となる。同時に、このことは臨床データを所有している医療機関は高精度なガン診断システムを構築できることを意味している。

メディカルイメージング技術が急速

実際の有効性を確認するためには臨床試験を通しFDA (米国食品医薬品局) の認可が必要となる。製品化までの道のりは長いが、アルゴリズムをそのまま利用できるため多くのベンチャーがメディカルイメージング技術開発に乗り出している。スタンフォード大学研究チームはこのアルゴリズムをスマホアプリに実装することを計画している。研究成果をスマホで提供すると消費者は病院に行かなくても手軽に皮膚ガンを検知できる。

スマホでガン検診

実際、市場には皮膚ガンを判定するスマホアプリが数多く登場している。スマホカメラで皮膚の黒点を撮影するとアプリはそれが皮膚ガンの疑いがあるかどうかを判定する。米国ではまだFDAの認可を受けたアプリはないが、多くの企業が参入を目論んでいる。(下の写真はオランダに拠点を置くSkinVision社が開発した皮膚ガンを判定するアプリ。ドイツとイギリスで臨床試験が実施され効用が確認された。FDAに認可を申請しており米国市場参入を目指している。)

出典: SkinVision

未公認アプリは数多い

一方、FDAの認可を受けていない未公認簡易アプリは既に市場で流通している。注意書きを読むと「ガン検知精度を保証しない」と書かれているが、殆どの利用者は気にしないで使っている。あたかもスマホで皮膚ガンを判定できる印象を受けるがその効用は保障されていない。これらを使って拙速に判定するよりFDAなど政府機関から認定されたアプリの登場を待ったほうが賢明なのかもしれない。

Googleは駐車場の込み具合をAIで予測する技術を開発、センサーは不要でアルゴリズムが正確に推定

駐車場管理はInternet of Thingsの得意分野で、設置したセンサーがクルマの有無を捉え混雑状況を把握する。Googleのアプローチはソフトウェアで、クルマの流れをMachine Learningで解析し混雑状況を正確に推定する。駐車場にセンサーを設置することなく、アルゴリズムのパワーで施設を管理する。

出典: VentureClef

駐車場の混雑情報を表示

駐車場の混雑状態を表示するサービスが今月から始まった。Google Mapsで目的地までの道順を検索すると、駐車場の込み具合も表示される (上の写真、最下段の分部)。例えば、Mountain View市街に向かうとき、駐車場の込み具合は「Medium」となっている (上の写真左側)。これは「駐車場を探すのは難しくない」という意味で、時間通りに出発できる。込み具合に応じて出発時間を調整することができる。

駐車場が無ければ電車で移動

一方、サンフランシスコのカンファレンス会場への道順を検索すると、駐車場は「Limited」と表示される (上の写真右側)。これは「駐車場は限られている」という意味で、駐車場を探すために時間がかかると注意を促している。駐車が難しいのであれば電車で行くという選択肢も浮上する。事実、Googleによるとこのサービスを始めると、電車で移動するルートの検索件数が急増したとしている。

混雑状況を把握する仕組み

Googleは新サービスの仕組みを「Using Machine Learning to predict parking difficulty」として公表した。これによると、駐車場空きスペースを把握するために、クラウドソーシングとMachine Learningという技法を使っている。クラウドソーシングとはユーザデータを集約して利用することを示す。このケースではGoogle Mapsユーザの位置情報を集約して利用する。Google Mapsユーザに「駐車場を探すまでどのくらいかかりましたか？」という質問を送り、その回答を集約し、駐車場を探す難易度を算定した。Googleはこの手法で信頼度の高いGround Truth (基準データ) を収集した。

店舗やレストランの混雑状況

Googleは早くから利用を許諾したユーザの位置データを使ったサービスを展開している。その代表がGoogle Mapsで表示されるLive Traffic (渋滞情報) でクルマの流れをリアルタイムで表示する。また店舗やレストランのPopular Time (混雑情報) やVisit Duration (滞在時間) を提供している。便利なツールで生活の一部として利用されている。

クラウドソーシングの限界

しかしこの手法だけでは駐車場の込み具合を正確に推定することはできない。クルマを駐車する場合はパターンの数が多く、これらの要因も考慮する必要がある。例えば、クルマが私有地に駐車すると、アルゴリズムは空きスペースがあると誤認する。また、利用者がタクシーやバスで移動したケースも、アルゴリズムは駐車スペースがあると誤認する。駐車スペースを判定するためにはクラウドソーシングの手法では限界がある。

出典: VentureClef

クルマの移動パターンと駐車場の有無

このためクルマがどんなパターンで移動すると駐車場が無いことを示すのか、その特徴量を見つけることがカギとなる。昼食時間にクルマが街中を周回する動きをすると (下の写真)、これは駐車場が無いためと判断する。一方、利用者が目的地に到着し、そのまま施設に入った場合は駐車場があったと判断する。このような特徴量を把握してアルゴリズムに反映した。

出典: Google

20のモデルを生成

この他に目的地に特有な条件や駐車場の位置に依存した要因も考慮する必要がある。また、駐車する時間や、駐車する日に依存する条件なども取り入れる。更に、過去の統計情報も利用された。最終的には20のモデルが作られ、これを使ってアルゴリズムが教育された。

Logistic Regressionという手法

前述の通り、このモデルの解析ではMachine Learningが使われた。Machine Learningには様々な手法があるが、その中でもLogistic Regressionという技法が使われた。Logistic Regressionとは統計学の代表的な技法で、変数の間の関係を推定する。アルゴリズムを教育することで、ある変数を入力すると、その結果を推定することができる。つまり、Logistic Regressionはある事象に関する結果を予想する。ここではドライバーの運転データを入力すると、駐車場を探すのが容易であったか、困難であったかを推定する。アルゴリズムは容易か困難かの二つの値を出力し、これはBinary Logistic Modelと呼ばれる。

Deep LearningではなくMachine Learningを採用

Deep Learningで世界をリードするGoogleであるが、敢てMachine Learningの技法を使ったことは興味深い。具体的には、Neural Network (人間の脳を模したネットワーク) ではなくLogistic Regression (統計手法) が使われた。Googleはこの理由として、「Logistic Regressionは技術が確立しており、挙動を理解しやすいためと」述べている。このことは、Neural Networkは中身がブラックボックスでその挙動が分かりにくいということを示す。

今年のAI技法のトレンド

Googleや他の企業でMachine Learningを見直す動きが広がっている。Neural Network全盛時代であるが、長年にわたり培われた技法を改良しうまく利用しようとする試みである。同時に、Neural Networkのブラックボックスを開き、仕組みを解明しようという研究も始まった。AIの観点からは、Machine Learningの改良とNeural Networkの解明が今年の大きなテーマになっている。

サンフランシスコ市街の駐車場

この技法でサンフランシスコ市街の駐車場の混雑を予測すると下の写真の通りとなる。市街地を区画ごとに分け駐車場の込み具合を表示している。色の濃い部分が混雑が激しいことを示す。上段は月曜日で下段は土曜日。左側は午前8時で右側は午後9時の標準的な込み具合を表示している。月曜日の朝はFinancial Districtを中心としたビジネス街の駐車場が混むが、土曜日の夜はUnion Squareを中心とした観光スポットの駐車場が込むことが分かる。

出典: Google

サンフランシスコ市の取り組み

駐車場管理や混雑情報の発信は行政の責任でもある。事実、サンフランシスコ市は駐車場にIoTを導入し、混雑度を把握する実証実験「SF Park」を進めている。サンフランシスコ市街地では路上駐車スポットにParking Meterが設置され、コインやカードやアプリで駐車料金を支払う (下の写真)。同時に、Parking Meterがセンサーとなり、クルマの有無を検知する。Parking MeterはIoT専用ネットワークSigfoxで結ばれ、駐車スポットの込み具合を集約する。このIoTシステムが完成すると、駐車場混雑情報がリアルタイムで分かることになる。

出典: San Francisco Municipal Transportation Agency

センサー対アルゴリズム

果たしてサンフランシスコ市によるIoT駐車場管理システムは正しく混雑状態を把握できるのか関心が高まっている。Parking Meterで駐車を正しくセンシングできるかという問題である。Parking Meterのある駐車スポットに違法で駐車したり、また、特別許可証を持ったクルマが駐車した場合は空きと判断される恐れがある。また、駐車時間が残っているのにクルマを出す人もあり、このケースでは駐車中と判断される可能性が高い。

スマートシティー開発のモデルケース

リアルタイムで正確な駐車場空き情報を把握するのは難しい作業となる。これに対し、Googleはセンサーは使わないでアルゴリズムが混雑状況を把握する。センサーとアルゴリズムの戦いが始まり、どちらに軍配が上がるのか地元住民だけでなく全米で関心が高まっている。GoogleやSF Parkの取り組みが米国で展開されているスマートシティー開発のモデルケースとして注目されている。

音声操作できない製品はもう売れない！家電、ロボット、クルマが相次いでAmazon AIボイスクラウドを採用

AmazonのAIスピーカーEchoが爆発的に売れている。その理由はAIの適用で会話機能が格段に進化したためだ。自然な会話でEchoを快適に使うことができる。Amazonはこの会話機能をAIボイスクラウドとして一般に公開した。メーカーは相次いでAIボイスクラウドの採用を決めた。Amazonはサーバクラウドの次はAIボイスクラウドで市場を席捲しようとしている。

出典: Amazon

Amazon Echoとは

Amazonは2014年にAIスピーカー「Echo」を発売し、累計で510万台が出荷され、大ヒット商品となった。今では「Echo Tap」(携帯版Echo) と「Echo Dot」(小型版Echo、上の写真) が製品ラインに加わった。製品の背後ではAIボイス機能「Alexa」が稼働し会話を司る。デバイスに話しかけて音楽を再生しニュースを聞く。また、スマートホームのハブとして機能し、家電を言葉で操作できる。

コンセプトは宇宙大作戦

Amazon Alexaの開発は2012年に始まり、クラウド機能をすべて音声で操作するシステムを目指した。このアイディアはテレビ番組「Star Trek」(宇宙大作戦) にあり、宇宙船内の複雑な機器を言葉で操作できるシーンからヒントを得た。Alexaはデバイスに触ることなく言葉だけで情報にアクセスし、家電を操作できる構造となっている。言葉は人間の本質的なコミュニケーション手段で、Amazon開発チームはこれをAlexaに応用した。

Amazon Alexaはプラットフォーム

Amazon AlexaはEchoだけでなく一般に公開され、多くの企業にボイスサービスを提供している (下の写真)。つまり、Alexaはプラットフォームとして位置づけられ、ここにエコシステムが形成されている。パートナー企業はこの機能を使い音声で操作するボイスアプリを開発する (下の写真、Alexa Skills Kitの分部)。また、家電や自動車メーカーはそれぞれの製品にボイス機能を組み込むことができる (下の写真、Alexa Voice Serviceの分部)。更に、スマートホーム企業は音声で操作できる機器を開発する (下の写真、Amazon Smart Homeの分部)。

出典: Amazon

ボイスアプリの数が急増

ボイスアプリはAmazonだけでなくパートナー企業により開発されている。ボイスアプリはAmazon Echoで稼働し、出荷当初は10本程度であったが、今では5000本を超えた。人気のボイスアプリは「Amazing Word Master Game」で、Echoとゲームで対戦する。これはしりとりをするゲームで、単語の長さが得点となる。Echoを相手にゲームをする形式で、英語の勉強にもなる。一人で時間を持て余している時にEchoが遊び相手になってくれる。

Alexaでレンタカーを予約

ビジネスと連携したボイスアプリが増えてきた。旅行サイト「Expedia」はAlexaを使って言葉で予約できるサービスを開始した。航空機を予約している人は言葉でフライト内容を確認できる。「Alexa, ask Expedia to get my trip details」と指示すると、Echoは予約状況を読み上げる。「Alexa, ask Expedia to book a car」と指示すればレンタカーを予約できる。ただし、フライトとホテルの予約にはまだ対応していない。

LenovoはAmazon Echo対抗製品を発表

LenovoはAIスピーカー「Smart Assistant」 (下の写真) を発表した。Echoとよく似た形状で、ボイス機能としてAmazon Voice Serviceを使っている。形状だけでなく機能的にもEchoと類似の製品仕立てになっている。Smart AssistantがEchoと異なる点はプレミアムスピーカー「Harman Kardon」を搭載している点。価格は179.99ドルで2017年5月から出荷が始まる。この事例が示すように、Amazonは競合デバイスの開発を歓迎しており、事業の目的はAIボイスクラウドの拡大にある。

出典: Lenovo

Fordはクルマに会話機能を組み込む

Fordは自動車メーカーとして初めてAlexa Voice Serviceの採用を決めた。利用者は家庭のAmazon Echoからクルマを操作できる。「Alexa, ask MyFord Mobile to start my car」と指示するとエンジンがかかる。運転中はナビゲーションパネルから音声でAlexaを利用できる (下の写真)。目的地の検索やガレージドアの開閉などを言葉で指示できる。これはFord「SYNC 3」技術を使ったもので、ドライバーのスマホアプリからクルマにアクセスする構成となる。前者の機能は2017年1月から、後者の機能は夏から利用できる。クルマが自動運転車に向かう中、ドライバーとクルマのインターフェイスはボイスとなる。

出典: Ford

HuaweiはスマホにAlexaを組み込む

Huaweiは最新のスマートフォン「Mate 9」 (下の写真) にAlexaをプレインストールして出荷することを明らかにした。Mate 9はボイスアプリを搭載し、この背後でAlexa Voice Serviceが使われている。利用者は音声で備忘録を作成し、天気予報や渋滞情報を尋ねることができる。また、スマートホームのハブとして家電を操作することもできる。ボイスアプリは2017年初頭から提供される。GoogleはAndroid向けにAI会話機能「Assistant」を提供しており、Alexaと正面から競合することになる。

出典: Huawei

UBTechはロボットのインターフェイスにAlexaを採用

UBTechはShenzhen (中国・深セン) に拠点を置くロボット開発会社で「Lynx」 (下の写真) を発表した。LynxはAlexa Voice Serviceを組み込み、言葉でロボットを操作することができる。音楽再生やメールの読み上げなどを言葉で指示できる。Alexaが提供する機能の他に、Lynxは搭載しているカメラで利用者を識別し、個人に沿った対応ができる。また、カメラをセキュリティモニターとして使えば、Lynxが留守宅を監視する。価格は800ドルから1000ドルで2017年後半に発売される。ロボット開発では会話機能がネックとなるが、Alexa Voice Serviceを使うことで、開発工程が短くなる。手軽にロボットを開発でき、市場への参入障壁が大きく下がる。LynxはAlexaがロボットの標準インターフェイスとして普及する可能性を示唆している。

出典: UBTech

テレビを音声で操作する

DISHは衛星テレビ会社でテレビ放送やインターネットサービスを提供する。DISHはセットトップボックス「Hopper DVR」をAmazon Echo又はDotとリンクし、テレビを言葉で操作できる機能を提供する (下の写真)。Echoに対し「Alexa, Go to ESPN」と指示すると、テレビはスポーツ番組「ESPN」にチャンネルを変える。番組を検索するときは「Alexa, what channel is the Red Sox game on?」と尋ねる。EchoはRed Soxの試合中継があるチャンネルを回答する。このサービス2017年前半から提供される。これからのテレビはリモコンだけでなく、音声操作が必須のインターフェイスとなる。GoogleはAI会話機能「Assistant」でテレビを音声で操作する機能を提供している。テレビ操作のインターフェイスでもAmazon AlexaとGoogle Assistantが覇権を争うことになる。

出典: DISH

LGは冷蔵庫にAlexaを搭載

LGはスマート冷蔵庫「Smart InstaView Door-in-Door」 (下の写真) でAlexa Voice Serviceを利用することを発表した。冷蔵庫は29インチのタッチパネルを搭載し (下の写真、右上のパネル) Microsoft Cortanaを音声インターフェイスとして利用してきた。今般、LGはこれをAlexa Voice Serviceに変更する。Alexaが組み込まれることで、音声でレシピを検索し、ショッピングリストを作成できる。また、Amazonでの買い物が音声でできる。冷蔵庫はスマートホームのハブとしても機能する。LGスマート冷蔵庫は音声で操作できない家電は売れなくなることを示唆している。

出典: LG Electronics

AIを駆使した高度な会話機能

メーカーが相次いでAlexaを採用する理由はAIを駆使した高度な会話機能にある。Alexaを搭載したデバイスは「Alexa」という枕言葉を検出すると、それに続く音声ストリームをクラウドに送信する。一連の会話処理はクラウドで実行される。具体的には音声認識 (Speech Recognition)、自然言語解析 (Natural Language Processing)、音声生成 (Text-to-Speech Synthesis) の処理が実行され、これらのプロセスでAIが使われている。単一のAIではなく、各モジュールに高度なAIが実装されボイスサービスを支えている。

Alexa人気の秘密は教育データ

Amazon Alexaが高度な会話機能を提供できる理由はAIアルゴリズムを最適化する教育データにある。教育データとは喋った言葉 (サウンド) とそれを書き下した文字 (テキスト) の組み合わせを指す。ボイス教育データとしてはコールセンターのオペレータの会話が使われる。しかし、家庭環境での会話 (「ガレージのドアを閉めて」など) をベースにした教育データは存在しない。Amazonは2014年に製品を出荷し、利用者からのフィードバック (下の写真) などを使い、教育データを整備してきた。この蓄積が高度な会話機能を支え、他社の追随を許さない理由になっている。

出典: VentureClef

日本企業のオプションは

家電メーカー、自動車メーカー、ロボット開発企業はAlexa Voice Serviceを利用することで製品に会話機能を組み込むことができる。自社でAIボイス機能を独自に開発する手間が省ける。Amazon AWSを利用するように、これからはAlexa Voice Serviceが標準ボイスクラウドとなる勢いをみせている。AIの基礎技術であるボイスサービスをAmazonに頼るのか、それとも独自で開発する道を進むのか、日本産業は岐路に差し掛かっている。

ピカソが東京駅を描いたら、AIが画家のスタイルを手本に油絵を制作する

AIが著名画家のスタイルを学び、写真を油絵に変換するアプリが登場した。撮影した写真を入力するとAIがそれを芸術作品に仕上げる。誰でも手軽に絵を描くことができ、アプリの人気が急上昇している。同時に、AIが芸術の価値を下げアーティストの仕事を奪うと懸念の声も聞かれる。

出典: Hugh Welchman

全て油絵で描かれた映画

全て油絵で描かれた映画が公開されようとしている。これは「Loving Vincent」という映画で、ゴッホ (Vincent van Gogh) の生と死を描いている。映画の全シーンは油絵で描かれ、しかも、ゴッホの画風となっている。ゴッホの一生が自身の油絵で表現されている。この映画で使われた油絵の数は65,000枚で、115人の画家が制作に携わってきた。映画は六年に及ぶ制作を終え、今年初頭に封切られる。

動画のフレームをゴッホ流に描写

映画製作では俳優の演技をカメラで撮影し、それぞれのシーンを画家が油絵で描く。画家はゴッホのスタイルを学習し、動画のフレームをゴッホ流に描写していく。ポーランドの男優Robert Gulaczyk （上の写真右側）がゴッホを演じ、油絵として表現される (同中央)。男優はゴッホが描いた自画像「Self Portrait」 (同左側) のタッチで描写される。世界初の油絵映画として封切り前から話題となっている。

AIが画家のスタイルを習得

映画公開を前にGoogleから興味深い論文の発表が相次いだ。GoogleはAIが画家のスタイルを習得し、そのタッチで絵を描く技術を開発した。上述の映画のように、AIが写真を見てそれをゴッホのスタイルに変換する。一般に、芸術家の技法を手本に作成された作品はPasticheと呼ばれる。Loving VincentはPasticheで構成された映画として注目されている。

写真を著名画家の作風で再構成

Googleは絵画に関するPasticheをDeep Neural Networkで実装し、その成果を「A Neural Algorithm of Artistic Style」という論文で発表した。この技法は入力された写真を著名画家の作風で再構成する。

出典: Leon A. Gatys, Alexander S. Ecker, Matthias Bethge

ネットワークに写真 (上の写真左上) を入力すると、写真は三つのスタイルで作画される。左下はゴッホのスタイルに変換したもので、ここでは「The Starry Night (星月夜)」 (左下の小枠) を手本としている。右上はイギリスの画家ターナーによる「The Shipwreck of the Minotaur (マイノーターの難破)」を手本とし、右下はムンクの代表作「The Scream (叫び)」を手本としている。

ネットワークの構造

ネットワークはConvolutional Neural Network (CNN、イメージを認識する機能) を使っている。単一ネットワークが二つの機能を持ち、入力された写真を変換し、同時に、画家のスタイルを習得する。前者のプロセス (下の写真下段、Content Reconstructions) で、入力された写真の細部は切り落とされ、大まかな全体像が生成される。後者のプロセス (下の写真上段、Style Representations) で、画家の作品をネットワークに入力してスタイルを教育する。ネットワークの格段で特徴量を抽出し、絵画のタッチなど画家のスタイルを把握する。最後に写真と絵画を重ね合わせて最終イメージを生成する。

出典: Leon A. Gatys, Alexander S. Ecker, Matthias Bethge

32の異なるスタイルのPasticheを生成

更に、Googleは上述の技法を強化した論文「A Learned Representation for Artistic Style」を発表した。単一ネットワークが32の異なるスタイルのPasticheを生成できる技術を開発した。下の写真がその事例で、写真 (左端) を入力すると、写真は五つの異なるスタイル (最上段) で変換される。前述の技法は一つのスタイルに限定されていたが、この技法では32のスタイルで絵を描くことができる。

出典: Vincent Dumoulin & Jonathon Shlens & Manjunath Kudlur

静止画だけでなくビデオを生成

更にこのネットワークは入力イメージの再構築をリアルタイムで実行する。つまりビデオを入力することができ、再構築されたビデオが出力される。Googleはこの技術を開発した理由を新しい芸術の門を開くためとしている。また、画家のスタイルを学習したネットワークはスマホアプリとしても利用できるとしている。

写真をアートにするアプリ

事実、ベンチャー企業からPasticheアプリが出荷されている。その中で注目のアプリは「Prisma」で、2016年夏にリリースされ5000万回ダウンロードされている。Prismaに写真を入力するとそれを著名な画家のスタイルで再構築する。Prismaは写真をフィルタリングしたり編集するアプリとは仕組みが根本的に異なる。前述の技法を使っており、AIが写真を分解し、学習した著名画家のスタイルで再構築する。写真が作画されたようにアートに生まれ変わる。

出典: VentureClef

モンドリアンが東京駅を描くと

Prismaに撮影した写真を入力する (上の写真左側) と、アプリは写真の下に、著名画家の作画スタイル (上の写真右側下段) を示す。希望のスタイルを選択すると写真がそのイメージに変換される。例えばモンドリアン (Piet Mondrian) のスタイルを選択すると、写真が縦横に分割され、赤青黄の三原色で再構築される (上の写真右側上段)。モンドリアンが蘇り東京駅を描くと、このような作品になるのかもしれないと、このアプリは想像を掻き立てる。この他にピカソ (Pablo Picasso) や葛飾北斎の「冨嶽三十六景」などのタッチも用意されている。

芸術の新分野を形作

アプリの普及とともにPasticheファンが増えている。写真サイトInstagramにはPrismaで生成したPasticheがたくさん掲載されている (下の写真)。どの写真を変換してもアートになるわけではなく、ここには見栄えのするPasticheが数多く掲載され、芸術の新分野を形作っている。Instagramには元々魅力的な写真が多いが、Prismaの登場でこれらが絵画になり写真の楽しみ方が豊かになった。

出典: Instagram

AIが芸術家の仕事を奪う

同時に、AIが芸術家の仕事を奪うのではとの懸念の声も広がってきた。AIが動画のPasticheを生成できるので、Loving Vincentのような映画制作では芸術家が不要となる可能性も指摘される。一方、芸術家はPastiche制作という機械的な仕事から解放され、独自の創作活動に打ち込めるという考え方もある。AIは必ず手本を必要とし、独自の手法を生み出すわけではない。AIはコピーの域を抜け出すことはできず、芸術は人間の独創性から生まれる。

AIのビジネスチャンス

Pasticheを生成するAIは新しいビジネスを生むきっかけとなる。人間の芸術家が手作業でPasticheを作るより、これをAIに任せることで製作時間が大幅に短縮できる。特に、AIはアニメ制作で大きな可能性を秘めている。著名アニメアーティストのスタイルをAIが学習し、人間に代わりアニメ映画の製作などが期待される。事実、Prismaはアニメスタイルに変換するオプションを備えている。人間は創作活動に打ち込み、AIが作業を代行するという区分けができつつある。

Emerging Technology Review

シリコンバレーからの最新技術レポート

カテゴリー別アーカイブ: 人工知能

AIがAIを開発し、AIが病気を検知する、Googleは全製品をAIで強化する

AIが医師より正確に皮膚ガンを判定、ガン検診はスマホアプリで

Googleは駐車場の込み具合をAIで予測する技術を開発、センサーは不要でアルゴリズムが正確に推定

音声操作できない製品はもう売れない！家電、ロボット、クルマが相次いでAmazon AIボイスクラウドを採用

ピカソが東京駅を描いたら、AIが画家のスタイルを手本に油絵を制作する