女性の服を脱がせるAIが進化:GANが高解像度ヌードイメージを生成、攻撃対象がセレブから一般女性に移り深刻な社会問題に

女性の服を“脱がせる”アプリ「DeepNude」で被害が拡大している。このアプリは写真の中の女性の服を取り去るもので、セレブが被害を受けてきたが、今では攻撃の対象が一般女性に移り、深刻な問題が報告されている。SNSに投稿している写真が悪用され、裸の写真が公開されている。DeepNudeは高度なAIを使い、生成されるヌード写真はリアルで、真偽の区別はつかない。

出典: layne@pinterest

調査レポート

これはセキュリティ会社Sensity.aiの分析によるもので、DeepNudeによる被害状況が明らかになった。DeepNudeはメッセージングサービス「Telegram」で使われ、一般女性が攻撃の対象となっている。2020年7月時点で、104,852人の女性の写真が使われ、被害者の数はここ三か月間で3倍になっている。

攻撃の仕組み

被害が拡大している理由はDeepNudeのユーザインターフェースの進化にあり、誰でも簡単に写真を加工できるようになったため。Telegramでボット(対話型AI)と対話しながら操作を進めるだけで服を脱がす (下の写真)。ボットの指示に従って、写真をアップロードすると、DeepNudeがそれを編集する。DeepNudeは写真に写っている女性のイメージを読み込み、それをベースに、服の部分を肌に変換する。つまり、アプリが女性の服を脱がしたイメージが生成される。

生成されたイメージを公開

生成した写真はスマホにダウンロードして閲覧できる。また、この写真をTelegramや他のサイトに公開すると、不特定多数がこれを閲覧することになる。簡単な操作でヌード写真を生成できるので、利用者が増え被害が拡大している。

出典: Sensity.ai

誰が攻撃を受けるのか

今まではセレブの写真が使われてきたが、今では攻撃の対象が一般女性となっている。利用者の63%が知人女性や一般女性を攻撃するとしている。SNSなどに掲載されている写真が本人の了解なく使われる。また、スマホで撮影した写真を使うケースもある。SNSには膨大な数の写真が掲載されており、誰もが被害にあう可能性がある。

攻撃の理由

生成した写真はTelegramの他に、他のメディアに掲載され、だれでも閲覧できる状態になっている。知人女性のヌード写真を生成する目的は、リベンジポルノや嫌がらせなどとされる。また、ランサムウェアのように、ヌード写真を消去するために、金銭を要求するケースもある。

攻撃から身を守る方法

DeepNudeは進化を続け、女性の写真から高解像度のヌード写真を生成する。生成されたイメージはリアルで真偽の判別はできない。このため、攻撃される危険性を認識し、写真の管理を厳格にすることが最初のステップとなる。SNSに全身がアップで写った写真を掲載すると悪用される可能性が高まる。また、水着など肌に密着し体形が分かる写真は特に危険で、高精度なヌードイメージに変換される。防衛技術は無く自分で身を守るしか手段が無い。

Telegramとは

Telegramはメッセージングサービスで、ロシアの実業家Pavel Durovにより開発された。2013年から運用を開始し、今では全世界で4億人の利用者がいる。利用料金は無料で、広告の掲載もなく、Durovが運用資金を拠出しているといわれている。Telegramはロシアで事業を開始したが、今は本社をロンドンに置き、開発拠点はドバイにある。DurovはロシアでSNS「VK」を運用しており、ロシアのZuckerbergとも呼ばれる。

出典: Telegram

Telegramのポジション

TelegramがDeepNudeをホスティングしていることは警察などに報告されているが、運用が続いている。Telegramは反社会的な団体の利用を容認しており批判を受けている。しかし、Telegramは表現の自由と利用者のプライバシー保護を理由に、一貫して、利用条件を設けないで運用している。

[技術情報:DeepNudeとGAN]

開発経緯

DeepNudeは匿名の技術者により開発され、2019年6月、ウェブサイト(下の写真)に公開された。このサイトからアプリをダウンロードしてWindowsとLinuxで実行することができた。しかし、社会の反響が甚大で、その危険性が指摘され、五日後にはサイトが閉鎖された。その後、この技術は別の人物に売却され、今では、オープンソースとして公開されている。Telegramで使われているDeepNudeはオープンソースを改良したものとみられている。

出典: DeepNude

技術概要

DeepNudeは改良が進み、最新版は「pix2pixHD」という技法を使っている。これはNvidiaにより開発されたGAN(Generative Adversarial Networks)で、入力されたイメージをベースに別のイメージを高解像度で生成する。下の写真:pix2pixHDの構造。pix2pixHDは二つのGAN(G1とG2)で構成される。G1はGlobal Generatorと呼ばれ低解像度のイメージを生成し、これをG2で高解像度(2048 × 1024)のイメージにエンハンスする。pix2pixHDは、Berkeley AI Research (BAIR) Laboratoryが開発した「pix2pix」を改良し、解像度を向上させ、安定性を強化した。

出典: Ting-Chun Wang et al.

利用方法

Pix2pixHDは、市街地のタグイメージ(下の写真、左側、Semantic Label Map)を、写真イメージ (下の写真、右側) に変換する。写真イメージはGANが生成したものであるが、本当の写真のようにリアルで、細部まで詳細に描かれている。どこかの街並みのように見えるが、このような場所は存在せず、生成された写真はGANが描き出した仮想社会。pix2pixHDで生成した市街地のイメージは自動運転車の教育データとして使われている。

出典: Ting-Chun Wang et al.