公開されているAIを悪用した攻撃が急増!!GANで高品質なフェイクメディアが量産され国家安全保障の危機

セキュリティの国際会議Black Hat 2020が開催され、最新の攻撃手法が報告された。今年は米国大統領選挙の年で、AIを使った攻撃が議論の中心となった。オープンソースとして公開されているAIを使うと、誰でも簡単に高品質のフェイクメディアを生成でき、情報操作の件数が急増している。

出典: FireEye

FireEyeのレポート

セキュリティ企業FireEyeはオープンソースのAIが悪用されている実態を報告した。これを使うと、誰でも簡単に高精度なフェイクイメージを生成でき、敵対する国家が米国などを標的に情報操作を展開している。FireEyeはシリコンバレーに拠点を置く企業でサイバー攻撃を防ぐ技術を開発している。

攻撃の概要

インターネット上にはオープンソースAI(ソースコードや教育済みのニューラルネットワーク)が公開されており、誰でも自由に使える状態になっている。これは研究開発を支援するための仕組みであり、オープンソースAIを改造して技術開発を進める。一方、この仕組みを悪用すると、簡単にフェイクメディア(偽のイメージや音声やテキスト)を生成できる。敵対国家は生成したフェイクメディアで西側諸国の世論を分断し社会を不安定にする。この情報操作は「Information Operations」と呼ばれ、米国で大統領選挙に向けて件数が急増している。

フェイクイメージ生成:StyleGAN2

情報操作で使われる手法は様々であるが、フェイクイメージを生成するために「StyleGAN2」が使われる。StyleGAN2とはNvidiaのKarrasらにより開発されたAIで、StyleGANの改良版となる。StyleGAN2はリアルなイメージを生成するだけではなく、アルゴリズムがオブジェクト(例えば顔)のパーツ(例えば目や鼻など)を把握し、異なるスタイルで対象物を描くことができる。

出典: NVIDIA Research Projects

StyleGAN2はGitHubにソースコードが公開されており、これを再教育することで目的のイメージを生成できる。オリジナルのStyleGANと比べて、StyleGAN2はエラー(Artifacts)が無くなり、イメージの品質が格段に向上した。(上の写真:StyleGAN2で生成した人間の顔のイメージ。このような人物は存在せず、攻撃者は架空の人物になりすまし、SNSで情報操作を展開する。)

StyleGAN2クラウド

アルゴリズムを再教育し実行するにはそれなりの技量がいるが、StyleGAN2のクラウドを使うと簡単にフェイクイメージを入手できる。その代表が「thispersondoesnotexist」で、StyleGAN2クラウドとしてAIが顔イメージを生成する(下の写真左端)。また、「thisartworkdoesnotexist」は抽象画を生成(下の写真中央)し、「thiscatdoesnotexist」は猫のイメージを生成する(下の写真右側)。これらはどこにも存在しない架空の人物や芸術や猫で、オンリーワンのオブジェクトとして希少価値がある。しかし、これらが悪用されると、真偽の区別がつかず、社会が混乱することになる。

出典: thispersondoesnotexist / thisartworkdoesnotexist / thiscatdoesnotexist

偽のトム・ハンクスを生成

このStyleGAN2に俳優トム・ハンクス(Tom Hanks)の写真を入力し、アルゴリズムを再教育すると、AIが本物そっくりのトム・ハンクスを生成する。(先頭の写真、左下が入力された写真で、右端が生成された偽のトム・ハンクス。)生成された顔写真はトム・ハンクスと瓜二つで、真偽の区別はできない。攻撃者はStyleGAN2を使って異なるシーン(表情や年齢やヘアスタイルなど)のトム・ハンクスを生成し、これら架空の顔写真で本人を攻撃したり、世論を操作することが懸念される。もはや、ネット上のセレブの写真は本物であるという保証はない。

フェイクボイス生成:SV2TTS

この他に、「SV2TTS」という技法を使うと、フェイクボイスを生成できる。SV2TTSとは、テキストを音声に変換する技術(text-to-speech)であるが、AIが特定人物の声を学習する(下の写真)。例えば、SV2TTSに文章を入力すると、トム・ハンクスがそれを読み上げているフェイクボイスを生成できる。この技術はGoogleのYe Jiaなどによって開発され、GitHubにソースコードが公開されている。

出典: Corentin Jemine

フェイクテキスト生成:GPT-2

更に、「GPT-2」を使うと、AIが人間のように文章を生成する。生成された文章はごく自然で、人間が作成したものと区別はつかない。GPT-2はAI研究非営利団体OpenAIにより開発され、その危険性を認識して、ソースコードは公開されていなかった。しかし、AIコミュニティが研究開発を進めるためはソースコードが必須で、OpenAIはこの方針を撤回し、GitHubにGPT-2を公開した。

GPT-2がツイートを生成

このため、テキスト生成の研究が進むと同時に、GPT-2を悪用した攻撃も始まった。GPT-2をソーシャルメディアのテキストで教育すると、AIがリアルなツイートを生成する。更に、情報操作のために発信されたツイートで教育すると、人間に代わりGPT-2が世論を操作するツイートを生成する。実際に、ロシアの情報操作機関Internet Research Agencyが発信したツイートで教育され、GPT-2が米国の世論を分断するツイートを自動で生成する。

出典: FireEye

(上の写真:GPT-2が情報操作のためのツイートを生成した事例。GPT-2は「It’s disgraceful that they are deciding to completely ban us! #Immigrants #WakeUpAmerica」と、トランプ大統領の移民禁止政策に反対するツイートを生成。GPT-2が生成するツイートは短く簡潔で、ツイッター独自の言い回しで、しばしば間違った文法の文章を生成。文章の最後にはハッシュタグを挿入。人間が生成したものとの見分けはつかず、AIが人間に代わり社会を攻撃する。)

Twitter Botsによる偽情報

いま、ツイッターにはコロナウイルスに関するツイートが数多く掲載されているが、このうち半数がAI(Twitter Botsと呼ばれる)により生成されたものである。これらツイートは社会を混乱させることを目的とし、「既往症があればコロナウイルスのPCR検査は不要」などと主張する(下の写真)。もはや、フェイクとリアルの見分けはつかず、読者は状況を総合的に判断して理解する必要がある。また、AI開発ではソースコードの公開が必須であるが、AI開発者はフェイクを見分ける技術の開発も求められている。

出典: “Sara”

米国大統領選挙への介入

今年11月には米国大統領選挙が行われ、既に、ロシアや中国やイランが情報操作作戦を展開している。国家情報局・防諜部門(National Counterintelligence and Security Center)によると、ロシアはトランプ大統領再選を目指し、中国とイランはバイデン候補を支援する情報操作を展開していると報告している。また、Black Hatセキュリティ国際会議で、ロシアの情報操作技術が他国に比べ圧倒的に高く、最も警戒すべき国家であると報告された。米国や西側諸国はAIを悪用した攻撃に対する防衛能力が試されている。

AIのブラックボックスを開く、GANがフェイクイメージを生成するメカニズムが明らかになる

AI・機械学習の最大の学会であるInternational Conference on Machine Learning(ICML)が開催され、ワークショップでは研究テーマごとに最新技法が議論された。今年はAIのブラックボックスを解明する技法の研究が進み、フェイクイメージが生成されるメカニズムが見えてきた。

出典: Bolei Zhou et al.

Explainable AI

AIはブラックボックスでアルゴリズムの判定ロジックが分からないという問題を抱えている。AIが判定理由を説明する機能は「Explainable AI」と呼ばれ重要な研究テーマとなっている。イメージ判定の分野で研究が進み、AIは判定理由をヒートマップで示す。(下の写真左側:AIは写真を歯磨きをしているシーンと判定したが、その根拠をヒートマップで示している。歯ブラシとそれを持つ手から歯磨きと判定した。右側:木を切っているシーンではチェーンソーと人間の頭部が決め手となった。)

出典: Bolei Zhou et al.

Extending Explainable AI

今年のテーマはこれを拡張した技法の研究で「Extending Explainable AI(XXAI)」と呼ばれる。ワークショップでExtending Explainable AIの研究成果が発表され、Chinese University of Hong KongのBolei Zhou助教授が、GAN(Generative Adversarial Networks)がフェイクイメージを生成する仕組みについて講演した。

GANとは

GANとは二つのAIが競い合ってフェイクイメージを生成する技法を指す。作画AI(Generator)がフェイクイメージを生成し、これを判定AI(Discriminator)が真偽を判定する。作画AIの技量が上がると、完璧なフェイクイメージを生成し、判定AIは騙され、これを本物と認定する。今では高解像度のフェイクイメージが生成され、本物との見分けはつかない(下の写真、BigGANという手法で生成された高精度イメージ)。

出典: Andrew Brocket al.  

GANがフェイクイメージを生成する仕組み

GANはGeneratorが生成したイメージをDiscriminatorが真偽を判定し精度を上げるが、この研究ではGeneratorに着目し、入力データをイメージに変換するプロセスを解明した。GANは入力されたデータ(ランダムな値)を各ノードで処理して最終イメージを生成するが、各ノードはイメージ生成で特定の役割を担っている。

(下の写真、GANのGenerator(左側のネットワーク)のノードは役割が決まっている。黄色のノードは雲を生成する。青色のノードは草を、肌色のノードはドアを生成する。生成されたイメージ(右側:generated image)は教会の周りに草木が茂り背後には空が見える写真となる。)

出典: Bolei Zhou

入力データとイメージの関係

今年は、上述の研究をもう一歩進め、入力データがイメージ生成にどのように関わっているかを解析した。入力データはランダムなベクトルで構成されLatent Spaceと呼ばれる。つまり、教育済みのGANにランダムな数字を入力すると寝室などを描き出す(先頭の写真)。ここで、入力する数字を変えると、寝室の内容が変わる。(先頭の写真上段:寝室を見る視点が変わる。下段:寝室のランプの輝度が変わる)。

データの役割を見つけ出す手法

入力データの数字を変えることで寝室のランプの輝度が増し部屋が明るくなるが、どのデータがこれに関与しているかは、生成されたイメージを分類することで特定する(下の写真)。具体的には、イメージフィルター(attribute classifier、F()の部分)で生成したイメージを区分けし、更に、イメージフィルターを入力データ(Latent Space Zの部分)で教育することで、どのデータがイメージ特性に寄与しているかが分かる。

出典: Bolei Zhou et al.

InterFace GAN

この仕組みを人の顔に適用すると入力データを操作することで顔の特性を変えることができる。この手法はInterFaceGANと呼ばれ、入力データの意味(Latent Space Semantic)を理解して、データを操作し、顔写真を編集することができる。Latent Space Semanticは年齢、メガネの着装、性別、顔の向き、表情などの意味を持ち、これらのデータを編集することで、顔写真を編集できる。(下の写真:左端の人物が、年を取り、メガネをかけ、性別を転換し、顔の向きを変えたケース。) 

出典: Bolei Zhou et al.  

GANのメカニズムの解明が進む

今年のメインテーマは説明責任のあるAIの拡張版Extending Explainable AIで、イメージ判定(Convolutional Neural Networks)だけでなく、ランダムフォレスト(Random Forrest)や強化学習(Reinforcement Learning)やGANなどに対象が拡張された。上述の事例がGANのケースでアルゴリズムがイメージを生成するメカニズムが分かってきた。これにより、データを操作するだけでイメージを編集できGANの応用分野が広がってきた。

もうスパコンは要らない!?AIが物理学を学習し物質の動きをシミュレーション、DeepMindの最新研究成果から

先々週、AI・機械学習の学会International Conference on Machine Learning(ICML)が開催され最新の研究成果が発表された。今年はコロナ感染拡大のためデジタル学会となり、欧米及びアジア諸国の研究者がオンラインで参加し、Zoomで講演する形式となった。

出典: Alvaro Sanchez-Gonzalez et al.

DeepMindの研究概要

この中でDeepMindはAIをシミュレータとして使う技法を発表した。シミュレータは物理現象をグラフィカルに表示する機能を持ち、水槽に水を注ぐと、AIがその動きを予測し、水の動きをビデオで表現する(上の写真右側)。実際の水の動き(上の写真左側)と比べると、複雑な動きをAIが正しく予測していることが分かる。

ニューラルネットワークでシミュレーション

これは「Graph Network-based Simulators」と呼ばれ、ニューラルネットワークでシミュレータを構築する。上の事例は、ニューラルネットワークが水槽に注がれた水の動きを予測したもので、初期条件を入力すると、ニューラルネットワークがその後の動きを計算する。つまり、ニューラルネットワークで水を表現し、それを動かすと、その後の挙動を推測する。

汎用のシミュレータ

Graph Network-based Simulatorsは、水のような液体だけでなく、砂やゼリーなど物理特性の異なる物質の動きを予測できる。水槽に水の塊を落とすと、その後の水の動きを予測する(下の写真上段)。同じニューラルネットワークが、ゼリーの塊を重ねると、それが崩れる動きを計算する(下の写真中段)。また、砂の塊を落とすと、それがタンク内に広がる動きを予測する(下の写真下段)。

出典: Alvaro Sanchez-Gonzalez et al.  

ニューラルネットワークの教育

ニューラルネットワークは実際の物質の動きを見て物理法則を学習する。教育の過程で、物質の動きを1ステップだけ教えると、ニューラルネットワークは数千ステップ先まで予測する。つまり、AIは物理法則を習得し、水槽に水の塊を落とすと、水が波打ちそれが鎮まるまで、遠い先の動きまで予測する。

シミュレーションの規模

更に、少量の物質(例えば水の分子2000個)を使ってニューラルネットワークを構成すると、ネットワークは大量の物質(水の分子85,000個)の動きを予測する。このため、少量の水で流れ方を教えると(下の写真、右上の箱)、ニューラルネットワークは大量の水の流れ方を学習する(下の写真、全体部分)。

出典: Alvaro Sanchez-Gonzalez et al.  

スパコンによるシミュレーション

物理現象のシミュレーションにはスパコンが使われる。スパコンは物質の動きをシミュレーションするために開発されたといっても過言ではない。事実、米国国立研究所Oak Ridge National LabはIBMのスパコン「Summit」を使って様々なシミュレーションを実行している。原子炉内部をスパコンでシミュレーションし、原子炉の耐用期間を延長する研究を展開している。

AIがスパコンを置き換える

スパコンによるシミュレーションで社会は多大な恩恵を受けているが、そのための対価が大きいのも事実である。IBM Summitのコストは2憶ドルといわれ、また、シミュレーショアプリの開発では数多くの研究者が必要となる。これに対し、Graph Network-based Simulatorsは汎用シミュレータで安価なAIプロセッサ(Google Cloud TPU)で動き、幅広い分野に適用できる。今すぐにSummitを置き換えることはできないが、AI開発が進むことでスパコンの一部をニューラルネットワークで代行できると期待されている。

【技術情報:Graph Network-based Simulators】

ニューラルネットワークの構成

Graph Network-based Simulatorsはニューラルネットワークで構成され、ネットワークのニューロンに物質の最小単位(例えば水の分子)を割り当てる。更に、ニューロン間の物理状態(分子の位置や速度、物質の特性、重力など)を指定する。これを実際の物理現象で教育すると、ニューラルネットワークは物質の動きを理解する。完成したニューラルネットワークに初期条件(水槽に水を灌ぐなど)を入力すると、その後の動きを予測する。

ニューラルネットワークの機能

Graph Network-based Simulatorsは物質の分子をEncodeし、これをProcessorで実行し、その結果をDecodeする(下のグラフィックス)。Encodeとは物質の状態(位置や速度や特性など)を凝縮しベクトルで表示する処理を指す。Processorは入力された分子の状態を元に、次の動きを予測する。Processorはこのプロセスを繰り返し、将来の動き(Mステップ先)まで予測する。DecodeとはProcessorの予測結果(ベクトル)を物質の状態に戻す処理をする。

出典: Alvaro Sanchez-Gonzalez et al.  

Message Passingという手法

Graph Network-based Simulatorsは物質の分子をネットワークのニューロンに割り当てるが、これら分子間の相互作用をメッセージ交換(Message Passing)として表現する(下のグラフィックス、中央)。メッセージを交換することで、分子は次の状態に移る。このプロセスを繰り返し分子の動きをMステップ先まで予測する。メッセージは分子の特性(物質の特性や重力など)と隣の分子との相互関係(距離や速度など)で構成される。

出典: Alvaro Sanchez-Gonzalez et al.  

本物より美味しい!!合成生物学の手法で生成されたアイスクリーム

食品産業はデジタルトランスフォーメーションを進め、先端技術を応用して食品の生成を始めた。ついに、牛乳を使わないアイスクリームが登場した(下の写真)。これは合成生物学の手法で生成したアイスクリームで、動物性たんぱく質を含まない健康食品として注目されている。実際に、食べてみると、本物のアイスクリームの味がして、次世代の食が生活に入ってきたことを感じた。

出典: Perfect Day

Perfect Dayという新興企業

これを開発したのはEmeryville(カリフォルニア州)に拠点を置く新興企業Perfect Dayで、牛乳を使わないで、植物性の糖を発酵させてたんぱく質を生成する手法を取る。コメに麹を加えて発酵させ日本酒を醸造するように、アイスクリームの元となる牛乳を“醸造”する。このアイスクリームはビーガンアイスクリーム(Vegan Ice Cream)に区分され、菜食主義の人も食べることができる健康食品として人気が高まっている。

アイスクリーム専門店

Perfect Dayはアイスクリーム専門店Smitten Ice Creamで売られている(下の写真)。数多くの種類のアイスクリームが売られているが、Perfect Dayは四つのフレーバーを提供している。

出典: VentureClef

実際に食べてみると

その中で、イチゴアイスクリーム(Fresh Strawberry、下の写真)を食べたが、本物のアイスクリームの味がしてとても美味しかった。ミルク独特のしつこさはなく、さっぱりとした味で、むしろ本物より美味しいかもしれない。多くのビーガンアイスクリームを食べたが、Perfect Dayの完成度は高く、本物に一番近いアイスクリームである。

出典: VentureClef

健康食品としてPR

Smitten Ice CreamはPerfect Dayを健康食品と位置付けプロモーションを展開している。店舗の説明によると、Perfect Dayは動物性たんぱく質(animal milk protein)を含んでいない食品と説明している。また、乳糖(lactose)やコレステロール(cholesterol)やホルモン(hormone)も含んでおらず、健康な食品であることをアピールしている。

たんぱく質を生成する手法

このアイスクリームは牛乳のたんぱく質を発酵のプロセスで生成する。発酵プロセスでは麹のような微生物(microflora)が必要になるが、これを遺伝子編集の手法で生成する。人工的に生成した微生物を植物性の糖(plant sugar)に加えて発酵させ、牛乳を構成するたんぱく質(wheyとcasein)を生成する。生成されたたんぱく質は植物由来であることから「flora-made dairy protein」と呼ばれる。

出典: VentureClef

牛乳を使わない理由

Perfect Dayはアイスクリームの他に、牛乳を使わないチーズやヨーグルトを開発している。Perfect Dayが牛乳を使わないで食品を生成する理由は地球温暖化問題と関係する。乳牛を生育するためには、大量の飼料や水を必要とし、地球環境に大きな負荷をかける。また、牛が排出するガスは地球温暖化の原因となる。食肉や牛乳を畜産の方式で提供する方式は事業として成立しなくなり、合成生物学の手法でたんぱく質を生成する方式が注目されている。

多くのビーガンアイスクリームが売られているが

既に、数多くのビーガンアイスクリームが販売されているが、これらは大豆や麦やナッツのたんぱく質を抽出して作られている。食べてみると植物性たんぱく質の味がして、それ程美味しいとは感じない。あるブランドは麦から抽出したたんぱく質を使っているが、アイスクリームの味はするが、かすかに日本の豆腐の味がして、この手法の限界を感じる。

食生活が充実

これに対してPerfect Dayは牛乳のたんぱく質そのものを合成生物学の手法で生成するので、食べると本物のアイスクリームの味と見分けはつかない。今までは健康に留意してアイスクリームを食べることを控えていたが、Perfect Dayの登場で再び美味しいアイスクリームを食べることができ、食生活が充実した(上の写真)。

コロナと共棲するため飲食店はリアルからデジタルに進化、シリコンバレーで”ゴースト・キッチン”が営業を開始

コロナがデジタルトランスフォーメーションを加速しているが、レストランもデジタル化を進めている。デジタルなレストランはGhost Kitchenと呼ばれ、店舗を持たない配送専門の飲食店となる。Ghost Kitchenはキッチンだけの施設で、注文を受けた料理を調理し、消費者宅まで配送する。DoorDashは仮想レストラン「DoorDash Kitchens」をシリコンバレーにオープンし営業を開始した(下の写真)。

出典: VentureClef

オンデマンドの出前サービス

DoorDashはサンフランシスコに拠点を多く新興企業で、レストラン出前サービスで急成長している。コロナの感染拡大でレストランは営業自粛を求められ、事業存続の危機に瀕している。多くのレストランは生き延びるため、DoorDashなどのオンデマンド配送サービスを利用し、宅配に特化した事業モデルにシフトしている。

DoorDash Kitchens

DoorDashは新たな試みとして仮想レストランの事業を始めた。これが「DoorDash Kitchens」で、シェフや事業者向けに調理場を提供する。シェフは店舗を持つ必要はなく、DoorDash Kitchensを借りて、簡単にレストランを運営できる。DoorDash Kitchensはダイニングスペースはなく、出前と受け取り専用のレストランとなる。

実際に使ってみると

実際にDoorDash Kitchensを使ってみたが、美味しい料理を短時間で受け取ることができ、とても便利だと感じた。専用アプリでレストランを選択し、そこで料理を注文し、それをDoorDash Kitchensで受け取る手順となる。ここでThe Italian Homemade Companyというレストランでパスタを注文し(下の写真、左側)、指定された時間にDoorDash Kitchensに出向き、料理を受け取った(下の写真、中央)。

出典: VentureClef

店舗で料理を受け取る

DoorDash Kitchensに到着すると、店舗は人目を引くデザインで、入り口にはDasher(宅配スタッフ)たちが出前の順番を待っていた(先頭の写真)。店舗内部にはダイニングスペースはなく、調理された料理がパッケージされ、棚に置かれていた(下の写真、左側)。棚の裏側がキッチンになっており、複数のレストランが入店し、ここで注文を受けた料理を調理する(下の写真、右側)。

出典: VentureClef / DoorDash

シンプルで美味しい料理

ここでラビオリ(Ravioli)とニョッキ(Gnocchi)とフェットゥチーネ(Fettuccine)を注文したが(下の写真)、ベーシックなイタリアンで美味しかった。レストランでは手の込んだ料理が出るが、DoorDash Kitchensではシンプルで美味しい料理をキッチンで量産する仕組みとなる。ここには複数のレストランが入っており、イタリア料理の他にハラール料理やタイ料理など6店舗が入居している。

出典: VentureClef

事業戦略

DoorDash Kitchensはレストランのターンキーソリューションで、シェフはレストランを開設することなく簡単に事業を開始できる。また、DoorDashが調理した料理を宅配するので、シェフは調理に専念できる。DoorDash Kitchensがレストランというプラットフォームを提供し、シェフはここで仮想レストランを運営する。ちょうどクラウドの上でシェフというアプリが動く形態で、クラウド・レストランとも呼ばれる。コロナの感染が広がる中、DoorDash Kitchensのようなクラウド・レストランに注目が集まっている。

出典: VentureClef

アウトドアダイニング

レストランはデジタル化を進めるとともに、ダイニングスペースをオープン化する試みを始めた(上の写真)。マウンテンビュー市は通りを歩行者天国とし、レストランはここにソーシャルディスタンスを保ってテーブルを配置している。屋内の閉じた空間では感染の危険性が高く、オープンスペースで安全なダイニングを提供する。コロナ感染が急増しているので出向くのをためらうが、営業時間にはテーブルはほぼ満席で、レストランの新モデルとして注目されている。