月別アーカイブ: 2018年4月

中国政府は国策として顔認識技術を育成、 監視カメラに搭載しAIが市民の行動に目を光らせる

中国政府はAI First Countryの政策を掲げ、2030年までにAIで世界をリードするロードマップを公表している。いま、監視カメラにAIを適用し、市民の行動を監視するプラットフォームの開発を進めている。このプロジェクトは「Sharp Eyes」と呼ばれ、国内に設置されている2000万台の監視カメラの映像を集約し、これをAIで解析する。一般市民が対象となり、プライバシー問題が懸念されている。同時に、膨大な量の教育データが集まり、中国が顔認識技術で世界をリードする。

出典: SenseTime

Sharp Eyesとは

Sharp Eyesは国全体の監視システムで、政府の監視カメラと民間の監視カメラを使い、撮影される映像を統合しAIで解析する。政府の監視カメラは、道路、ショッピングモール、駅、空港などに設置されている (上の写真、人の動きを追跡する事例)。民間の監視カメラは、アパートやオフィスビルなどに設置されているが、この映像も監視プラットフォームに統合される。

治安維持と市民監視

集約した大量のビデオ映像をAIや顔認識技術で解析し、多くの情報を抽出する。例えば、容疑者を追跡し、不審な挙動を見つけ出すなど、治安維持に活用される。犯罪者だけでなく、一般市民も対象となる。個人の行動を把握し、誰と接触したかを勘案し、個人の信用度 (Credit Score) を算出する。個人の信用度とは、中国政府や関係機関が特定個人を信用できるかどうかの指標で、スコアが低いと、旅行のためのチケットを購入できないなど、日常生活の行動が制限される。

AIベンチャー企業

Sharp Eyesのシステムを支えているのが中国のAIベンチャー企業である。SenseTimeは北京に拠点を置き、Deep Learningの手法で顔認識やオブジェクト認識技術を開発している。SenseTimeはAlibabaなどから累計で10億ドルの出資を受け、企業価値は30億ドルと言われ、世界最大規模のベンチャー企業となっている。

世界トップの顔認識技術

SenseTimeの顔認識技術は世界最高レベルと評価されている。この技術は「SenseFace」と呼ばれ、監視カメラの映像をDeep Learningの手法で解析する。SenseFaceはビデオに写っている数多くの人物の中から犯罪者を特定する機能を持っている。人通りの多い市街地や空港や駅などに設置された監視カメラの映像を読み込み、写っている顔を犯罪者データベースと照合し、容疑者を特定する。

犯罪者を特定する

例えば、SenseFaceはエスカレーターに乗っている人物の顔を把握し、それらを犯罪者データベースに登録されている顔と比較する (下の写真)。ある人物 (中央側) が、データベースに登録されている人物 (中央右側) と同一人物である可能性が91.0%などと判定する。この情報は近辺の警察官に送信され、容疑者のもとに駆け付ける手順となる。これはコンセプトデモであるが、実際にシステムを構築する際は、映像をクラウドに送信し判定結果を受け取るまでの遅延時間を如何に短縮するかがカギになる。SenseFaceは同時に1000台の監視カメラの映像を解析する能力があるとしている。

出典: SenseTime

歩行者やクルマの流れを監視

交差点では歩行者やクルマの流れを監視する。この技術は「SenseVideo」と呼ばれ、Deep Learningを使ったビデオ解析システムで、映像の中の歩行者、自動車、その他の乗り物を検知し、その属性を判定する。込み合う交差点に設置されたカメラの映像を解析し、オブジェクトを特定し、その属性を判定する (下の写真)。人物では性別、年齢、服装など、10項目にわたり判定する。クルマではナンバープレート、車種、色などを判定する。SenseVideoは検索機能もあり、犯罪が発生すると録画ビデオで不審者を探し出す。

出典: SenseTime

SenseTimeの実力

SenseTimeが開発している顔認識技術は世界のトップレベルである。顔を認識するAI技法は数多く開発されているが、SenseTimeの最新技法は「DeepID3」と呼ばれ、Chinese University of Hong Kong (香港中文大学) などと共同で開発した。基礎技術は論文「DeepID3: Face Recognition with Very Deep Neural Networks」で公開されている。

DeepID3とは

DeepID3は最新のConvolutional Neural Networksを実装したシステムで、顔から数多くの特徴量を抽出し、顔認識プロセスを実行する。DeepID3は、顔認証 (Verification、1:1比較、二つの顔が同じかどうかの判定) と顔認識 (Identification、1:N比較、データベースで同一の顔を探す処理) を一つのアルゴリズムで実現している。DeepID3の顔認証精度は99.53%で (下の写真)、人間の能力 (97.53%) を大きく上回る。

出典: Yi Sun et al.

中国政府の戦略

中国政府はSharp Eyesを治安維持のために使うが、犯罪者だけでなく一般市民の行動も監視される。国民のプライバシー侵害が懸念されるが、中国では大きな反対運動は起こっていない。このため、膨大な数の顔写真データが蓄積され、AIのアルゴリズム教育に大きく寄与している。中国政府はSharp Eyesのもう一つの目的を、AIを使ったコンピュータビジョン技術の育成に置いている。監視カメラの映像を解析するAIの技術開発を支援し、世界トップを目指している。

米国大統領選挙はフェイクニュースで混乱、今年の中間選挙はAIを悪用したフェイクビデオが世論を操作する

2016年の米国大統領選挙はFacebookを通じてフェイクニュースが拡散し社会が混乱した。この背後にはロシアの情報操作があり、フェイクニュースがトランプ大統領誕生の理由とまで言われる。2018年は米国中間選挙の年で、今年はAIを悪用したフェイクビデオが世論を操作すると懸念されている。

出典: BuzzFeed

フェイクビデオとは

フェイクビデオとは悪意を持って改造されたビデオで、AIが現実に存在しない映像をリアルに描き出す。実際に、オバマ前大統領が星条旗の前で演説しているフェイクビデオが登場した。オバマ前大統領は「誰でも好きなことが言える時代となった」と述べ、演説が始まる (上の写真、左側)。しかし、途中で「トランプ大統領は完全に無能な輩 (Dipshit)」と語り、自分の耳を疑った。オバマ前大統領のショッキングで下品な発言に驚いていると、映画監督で俳優であるJordan Peeleが登場した (上の写真、右側)。

意のままにスピーチさせる技法

実は、このビデオは改造されたもので、Peeleが喋っている通りにオバマ前大統領が喋っていることが分かった。ビデオ映像はリアルで、言葉通りにオバマ前大統領の唇が動いており、Peeleが登場するまでフェイクビデオとは分からなかった。ビデオの声はPeeleのものであるが、同氏はオバマ大統領の物まねが得意で、声でも見分けがつかなかった。この事例はオバマ前大統領のビデオを改造し、意のままにスピーチさせる技法で、重大な危険性を感じさせるビデオである。これはニュースサイトBuzzFeedとJordan Peeleが共同で制作したもので、フェイクビデオの危険性を啓もうする目的で作成された。

映画スターの顔を置き換える

フェイクビデオが社会問題になっているが、その技法は「DeepFake」と呼ばれている。DeepFakeはAIを使い、写真やビデオの中に登場する人物の顔を、別の顔と置き換える技法。置き換えられた顔はリアルで、偽造されたビデオだとは気が付かない。映画GoldfingerのSean Conneryの顔を人気俳優Nicolas Cageで置き換えたビデオが公開されている (下の写真、上段)。映画のシーン (下段左側) で、顔の部分だけをNicolas Cage (下段右側) で置き換えたもの。短いビデオとなっており、たばこにライターで火をつける一連の動きを見ることができる。

出典: Derpfakes (上段)、YouTube Movies (下段左)、Wikipedia (下段右)

トランプ大統領の顔を置き換える

トランプ大統領やプーチン大統領など、大物政治家がフェイクビデオの対象となっている。俳優Alec Baldwinはトランプ大統領の物まねで人気を得て、娯楽番組の政治風刺コメディで活躍している。トランプ大統領に扮するBaldwin (下の写真、左側) の顔を、DeepFakeの技法で、本物のトランプ大統領の顔と置き換えたビデオ (下の写真、右側) が話題となっている。ここでも、Baldwinが喋るとおりに、偽造されたトランプ大統領が喋る構成になっている。偽物の大統領は本物と見分けがつかず、フェイクビデオが悪用されるとその影響は甚大だ。

出典: Derpfakes

映画スターが被害にあう

DeepFakeが社会問題となり、その危険性が認識されたのは、あるポルノ映画が切っ掛けであった。ポルノ女優の顔を映画スターの顔で置き換えたフェイクビデオがネットに掲載され、社会に衝撃を与えた。映画Wonder Womanを演じたイスラエルの女優Gal Gadotの顔がポルノビデオの中で使われた。Gadotがポルノ映画に登場したと思われ、顔を置き換えることの危険性がはっきりと認識された。この他に、Emma Watson、Katy Perry、Taylor Swiftなどが被害にあった。

DeepFakeとは

DeepFakeはAIを組み込んだソフトウェアで、写真やビデオの中に登場する人物の顔を、別の顔と置き換える機能を持つ。基礎技術について論文が発表され、その成果が公開されている (下の写真)。

出典: Iryna Korshunova et al.

これはオリジナルの写真の顔 (最上段) を、Nicolas Cageの顔 (下から二段目) と Taylor Swiftの顔 (最下段) で置き換えたもの。その結果がそれぞれ、二段目と三段目に示されている。左端は女優Jennifer Anistonの顔を、Nicolas CageとTaylor Swiftで置き換えたもの。拡大して見ると、Anistonの眼、鼻、唇、眉毛、顔のしわなどが、CageとSwiftのものと置き換わっている。一方、顔の向き、視線、唇の表情、髪は元の顔を踏襲している。つまり、顔の表情はオリジナルのままで、各パーツが置き換わっていることが分かる。

Deep Learningの手法

DeepFakeはDeep Learningの手法で顔を学び、両者の顔を置き換える技法を習得する。具体的には、Convolutional Neural Networksが、元の顔と置き換える顔の特徴を学び、それらをスワップする。教育のために両者の顔写真を大量に入力し、アルゴリズムは顔と特徴と置き換えるプロセスを学習する (下の写真)。アプリはCUDA (Nvidiaの開発環境) で稼働し、プロセッサとしてNvidia GPUが必要となる。大規模な計算量が発生するが、パソコンにNvidiaグラフィックカードを搭載した構成で実行できる。ハリウッドの特撮を誰でも簡単に行える時代となった。

出典: Derpfakes

DeepFake制作者

顔を置き換えるアルゴリズムは学術テーマとして大学などで研究が進んでいる。DeepFakeは研究成果をソフトウェアの形で公開したもので、それが悪用され社会問題となってる。具体的には、ソーシャルニュースRedditのユーザ「derpfakes」により開発され、その成果 (上述のポルノ映画フェイクビデオ) がRedditに公開され、社会を驚かせた。その後、derpfakesはこのソフトウェアを公開し、誰でも利用できるようになった。更に、Redditの別のユーザ「fakeapp」が使いやすいツールを開発しGithubに公開したため、普及が一気に進んだ。

DeepFakeの問題点

DeepFakeを悪用すると、実物と見分けのつかないフェイクビデオを簡単に制作できる。トランプ大統領が北朝鮮を軍事攻撃したと発表するフェイクビデオを作ることができ、社会に与える影響は甚大である。既に、編集ツールAdobe Photoshopを使って写真やビデオが改ざんされている。DeepFakeの危険性はAIで、素人でも手軽にフェイクビデオを作れることだ。Photoshopでは専門家が手作業でビデオを改ざんするが、DeepFakeはこのプロセスを自動化し、フェイクビデオの危険性が現実のものとなった。

フェイクビデオ対策は難しい

大統領選挙ではFacebookを通してフェイクニュースが拡散したが、今年の中間選挙ではフェイクビデオが使われると懸念されている。これに対して、FacebookはAIでヘイトスピーチを検知すると表明したが、技術が完成するまでに5-10年かかる。他の企業もフェイクビデオを検知する技術の開発には数年を要するとみており、中間選挙では有効な手立てがないのが実情である。

自ら身を守る

そのため有権者や市民は自ら身を守ることが必要となる。ビデオを見るときは、全面的に信用するのではなく、疑ってみることがポイントとなる。直感的におかしいと感じる時は、別のソースで情報を確認するなど、自衛手段が必要となる。フェイクニュースの轍を踏まないように少し賢くなることが求められている。

Googleはドアベル「Nest Hello」を投入、高度なAIを搭載しセキュリティが格段に向上、今年はAI監視カメラがブレークする

Googleのスマートホーム部門Nest LabsはAIドアベル「Hello Nest」の出荷を始めた。Helloはドアベルであるが、カメラを搭載しており、監視カメラとしても機能する。Helloは人の姿や物音で玄関に訪問者がいることを把握し、アラートをスマホアプリに送信する。実際に使ってみるとHelloはインテリジェントな監視カメラで、安心感が格段に向上した。

出典: Nest Labs

Helloを設置する

2018年3月からHelloの出荷が始まり、家に取り付けて利用している。Helloは現行のドアベルを置き換える形で設置される。給電のために直流16-24Vの配線が必要となり、使っているドアベルと互換性があることを確認する必要がある。実際の設置作業は、Nest Labsのフィールドエンジニア「Nest Pro」に依頼して実施した。30分くらいで工事が終わり、ドアの隣にHelloが取り付けられた (下の写真)。

ハードウェア構成

Helloは押し釦(下部の円形の部分) の他に、カメラ (上部の円形の部分)、マイク、スピーカーを搭載している。カメラのセンサーは3メガピクセルで、UXGA (Ultra Extended Graphics Array 、1600 x 1200) の縦長モードで録画される。夜間撮影のためにNight Visionとして赤外線LEDライトを備えている。カメラで撮影された映像は家庭のWiFi経由でNestクラウドに送られ格納される。

出典: VentureClef

Nestアプリから利用

Helloはスマホに専用アプリ「Nest」をダウンロードして利用する。アプリを起動するとHelloが撮影している映像をライブで見ることができる (下の写真、左側)。その他に、カメラが検知したイベント (人の動きなど) の一覧が表示される (下の写真、右側)。ここでクリップにタッチすると、録画されたビデオが再生される。この事例はHelloが玄関先で人の動きを検知したもので、訪問者や不審者を過去にさかのぼりビデオで見ることができる。

出典: VentureClef

訪問者があるとアラートを受け取る

使ってみて便利と感じるのは、Helloがイベントを検知すると、そのアラートをスマホで受け取れる機能。スマホのロック画面に「Someone’s at the door (玄関先に誰かいます)」などとメッセージを受信する (下の写真、左側)。そのメッセージをタップすると短いビデオクリップが再生され、誰がいるのかを見ることができる (下の写真、右側)。

出典: VentureClef

録画ビデオをレビュー

更に、ビデオクリップをタップするとアプリが開き、そのイベントを再生して見ることができる (下の写真)。このアラートは庭の手入れを依頼しているガーデナーに関するもので、玄関前を掃除している様子を確認できる (左側)。また、外出先でアラートを受け取り、訪問者を確認できる。Amazonで買い物をした商品の配達であることが分かり (右側)、必要に応じ、配達人とスピーカーを通して話をすることもできる。例えば、商品を玄関に置いてください、と指示することもできる。

出典: VentureClef

Google Homeが誰が来たのかを知らせる

Helloのカメラは訪問者の顔を識別することができる。家族や友人の顔をHelloに登録しておくと、これらの人物がドアベルを押すとその名前を把握する。更に、HelloをGoogle Homeと連携しておくと、AIスピーカーが訪問者の名前を告げる。「○○○ is at the front door (○○○さんが来ました)」などと音声で案内をするので、スマホを手に持っていなくても、家族全員が誰が来たのかが分かる。

ドアベルのインターフェイス

また、名前が登録されていない人が来たら、Google Homeは「Someone’s at the door (玄関先に誰か来ました)」と音声で案内をする。実際に使ってみると、チャイムのピンポーンという無機質な音ではなく、言葉で来客を告げられると温かみを感じる。ドアベルのチャイムが音声になるとマンマシン・インターフェイスが格段に向上する。

顔認識と名前の登録

このために、事前に顔を登録する作業が必要になる。一番最初に友人が訪問すると、Helloは「An unfamiliar face is at the door (登録されていない人が玄関にいる)」というメッセージを発信する。メッセージをタップしてビデオクリップを見ると友人が訪問してきたことが分かる。ここでNew People Seenというページで知人であることを指定し (下の写真、左側)、更に、Familiar Facesというページでその人の名前を入力する (下の写真、右側)。そうすると、Helloは顔写真と名前を結び付け、次回から、その友人が訪問してきたら、Google Homeはその名前を告げる。

出典: VentureClef

テレビで訪問者を見る

我が家で人気の機能はHelloのカメラが撮影する映像をテレビで見ることができる機能だ。これはGoogle Homeの機能を借用したもので、AIスピーカーに「OK Google, show me Nest Hello on my TV」と言葉で指示すると、玄関の様子をテレビの大画面でみることができる。スマホアプリを操作してビデオを見るよりはるかに便利で、スマートホームの必須機能となることは間違いない。

出典: VentureClef

クラウドサービス

録画したビデオを閲覧したり顔を認識する機能はクラウドサービス「Nest Aware」として提供される。Nest Awareは、撮影した映像をクラウドに格納し、後日、それを閲覧できる機能を提供する。イベントが発生すると、Nest Awareで録画された映像をレビューして、その原因を突き止めることができる。Nest Awareは有料のサービスで、ビデオ保存期間に応じて料金が変わる。最長で30日間分のビデオを保存でき、月額料金は30ドルとなる。また、Helloのハードウェア価格は229ドルとなっている。

問題点もある

Helloは登場したばかりの商品で、機能が成熟しているというわけではない。その一つがカメラ機能で、露出を調整できないことが問題となる。自宅のエントランス構造として、玄関部分が暗く背後が明るいため、カメラが捉える訪問者の顔がどうしても暗くなる。Nestに相談したが解決策はないとのことで、今後の機能改良を待つしかない。また、夜間に通りを走るクルマのヘッドライトが反射して、玄関先に差し込むことがある。Helloはこれを侵入者と誤検知しアラートを発信する。AIのアルゴリズムを改良し、画像認識で誤検知を抑制する対策も必要となる。

Googleとの統合

Googleは2014年1月にNestを買収し、その後Alphabet配下の子会社として運営してきた。2018年2月、NestはGoogleのハードウェア部門に統合されることとなった。この部門はGoogle Homeなどのハードウェア製品を開発しており、NestはAIスピーカーとの連携が密接になり、ユニークな機能の開発が進んでいる。今後、NestはGoogleが所有しているAI技法をフルに実装でき、高度なAI監視カメラが登場することになる。

今年はAI監視カメラがブレーク

Helloは今までのセキュリティカメラとは格段に使い勝手が良く、Google Homeとの連携も快適で、満足できる製品だと感じる。Helloを使い始めたが、安心感が格段に増大した。日々の生活で不審者が自宅を訪れることも多く、これからはドアを開ける前にビデオで確認できる。また何かあればスマホにアラートが届くので、即座に玄関先の様子を確認できる。自宅にいなくても遠隔で監視でき安心感が大きく増大する。今年はAIを監視カメラに適用したAI監視カメラがヒットする勢いを感じる。

Google AutoMLは高度なAIを自動で生成、ラーメンを見て販売店を特定

Googleは高度なAIを自動で生成する技術「AutoML」を発表し、その応用事例を続々公開している。AutoMLは人間の研究者に代わり高度なAIを生成する技術で、ラーメン判定専用AIを生成した。アルゴリズムはラーメンの写真を見るだけで、どの店舗の料理かを判定する。

出典: Google

ラーメン判定専用AI

このラーメン判定専用AIはデータサイエンティストであるKenji Doiより開発された。対象はラーメン二郎という名前で営業している41店舗のラーメンで、生成したAIにその写真を入力すると、それがどの店で調理されたかを高精度で判定する。

盛り付けが似ている

ラーメン二郎は東京都港区の三田店が本店で、ここで修業した弟子たちが都内を中心に出店し営業している。このため、調理方法や盛り付けがよく似ており、ラーメンの写真からそれがどこの店で出されたものかを判定するのは難しい (上の写真、3店舗で出されるラーメン、盛り付けやどんぶりの形状が似ており、また、テーブルの色は赤で統一されている)。

汎用AIで判定すると

これはAIにとっても難しいテーマで、汎用アルゴリズムでは判定できない。因みに、ラーメンの写真をGoogle Cloud Vision API (イメージ判定クラウド) に入力してみると (下の写真)、アルゴリズムはこれをDish (器に盛った料理) と判定する。これにCuisine (料理) やFood (食べ物) が続き、Ramenは7番目に登場する。汎用AIは料理であると判定するが、ラーメンというクラスを判定するのは難しいことが分かる。更に、それがどの店のものかは全くカバーされていない。(この写真は松戸駅前店で出される野菜大盛り (ヤサイマシ) ラーメン。)

出典: Google

専用AIを開発

このためDoiはラーメン種別を判定できる専用AIを開発した。具体的には、異なる種類のアルゴリズムを併用するEnsemble Modelという手法を使った。ここでは三種類のアルゴリズム(Inception、ResNet、SE-ResNeXt) を使い、Hyper-Parameter Tuningという技法で、それぞれのネットワーク構成を最適化した。更に、教育データはData Augmentationと呼ばれる手法を使いデータを整備した。高度なニューラルネットワークを開発するためには、このようにデータサイエンティストによる膨大な手作業が必要となる。

これをAutoMLで自動化

AutoMLはこの複雑な工程を自動化するために登場した。アルゴリズムを教育する要領で、高度な専用ニューラルネットワークを生成する。このケースではラーメンの写真をAutoMLに入力し、専用ニューラルネットワークを開発した。Doiはどんぶりに盛られたラーメンの写真48,244枚を集め、そこから教育に適さない写真を抜き、47,970枚が使われた。各店舗で1,170枚の写真が使われた勘定となる。

判定結果は

写真は41店舗の名前でタグ付けされており、これを入力すると、AutoMLがこれらを判別できるニューラルネットワークを自動で生成する。完成したニューラルネットワークを使って、実際に判定試験をすると、その精度は94.5%であった。試験では50枚の写真が使われ、その結果がマトリックスで公開された (下の写真)。対角線の部分が50枚のうち正しく判定した枚数を示している (この平均精度が94.5%)。マトリックスを子細に見ると、ひばりが丘駅前店で判定精度が悪く (82.0%)、多くのケースで桜台駅前店のラーメンと取り違えている。判定精度の範囲は100%から82.0%で高度な専用AIが生成されたことが分かる。

出典: Google

判定の手掛かり

AutoMLで生成したアルゴリズムはなぜ正確に店舗を特定できるのか、その理由については解明されているわけではない。どんぶりの形状やテーブルの色はどの店舗も同じで、アルゴリズムはこれらを手掛かりに店舗を特定することはできない。一方、チャーシューの切り方や野菜の盛り方はよく似ているが、全く同じというわけではない。店により多少の偏りがあり、アルゴリズムはこれらを指標として判定している可能性が高い。アルゴリズムはブラックボックスで、これを解明するためには、更なる研究が必要となる。

応用範囲は広大

ラーメンの写真からそれが調理された店舗を特定できることで、どんなソリューションを提供できるかについては語られていないが、ラーメンだけでなく他の料理の種類を判定できると応用範囲はぐんと広がる。料理の種類と摂取カロリー量を紐づけると、健康管理のためのアプリができる。アプリで食事の写真を撮ると、専用AIが自動で摂取カロリー量を計算し、ダイエットや糖尿病管理に役立つ。例えば、スパゲッティナポリタンを注文してその写真を取ると、カロリー量は400kcalで、糖分は80グラムなどと表示され、食事の量を正確にモニターできる。これからはデータサイエンティストがいない企業でもAutoMLを導入することで、誰でも高度なAIを開発できる。