カテゴリー別アーカイブ: 人工知能

女性の服を脱がせるAIが高度に進化: AIが写真を極めてリアルなヌードイメージに変換、脱がせサイトが急拡大

女性の服を“脱がせる”サイトが急成長している。AIが写真に写っている女性を裸のイメージに変換するもので、生成されるヌードイメージはリアルで、真偽の区別がつかない。”脱がせサイト”に、女性の写真をアップロードすると、そのヌード写真が生成される。このサイトへのアクセスが急増し、危険なサービスがネット上で増殖している。セレブや一般女性が被害を受けており、これからはネットに写真を掲載する際は注意を要す。

出典: (非表示)

サイトXの概要

(被害の拡大を防ぐため、実名を記載せず「サイトX」と表記する。) サイトXは女性の写真をヌードイメージに変換する「Nudify」というクラウドを運営(上の写真、フィルターで加工)。このサイトで、女性の写真をアップロードすると、AIがそれから服を取り去った写真を生成する。写真を裸にするクラウドで、使い方が簡便なことから、アンダーグランドで話題になり、数多くの利用者を集めている。今年に入り、5000万件のアクセスがあり、隠れた人気サイトとなっている。

脱がせるアプリ

サイトXが注目される理由は、高精度なヌードイメージを生成するためである。現在、女性を裸にするAIの代表は「DeepNude」というアルゴリズムで、オープンソースとしてGitHubに公開されている(下の写真)。誰でも自由にこのAIを使い、”脱がせアプリ”を開発できる。実際に、ネット上にはDeepNudeで開発したアプリが多数掲載されている。

出典: DeepNude@GitHub

独自の進化を遂げる

サイトXはDeepNudeを使っておらず、独自でアルゴリズムを開発し、機能が格段に向上した。DeepNudeでは、高品質なイメージを生成するためには、入力する写真に厳しい条件が付く。普通の写真では上手くいかず、水着のように肌が露出しているものが求められた。サイトXではこの制約がなくなり、服を着て肌が露出していない写真もヌードイメージに変換される。このため、応用範囲が拡大し、被害が広がっている。

ビジネスモデル

サイトXはフリーミアムのビジネスモデルを取り、利用料金でビジネスを構成している。トライアルとして無料で使え、制限なく利用する場合は、一回のクエリー(API Quota)で0.15ドル課金される。生成したイメージをダウンロードして利用し、アップロードした写真は数日後に消去される。

パートナープログラム

サイトXの人気が拡大した背後には、ヌードイメージの作成をビジネスと捉え、パートナープログラムを導入した点にある。利用者は、生成したヌードイメージをネットに掲載するが、その際に、サイトXへのリンクを記載することで、報酬を得る仕組みとなっている。このリンクがクリックされると、利用料金が値引きされる。この仕組みでサイトXへのアクセスが急増している。

被害の実態

もはや、被害の範囲はセレブや著名人から一般女性まで多岐にわたっている。女性を正面から撮影した全身写真があれば、それをヌードイメージに変換できるため、多くの女性が被害を受けている。一般女性ではリベンジポルノとして使われるケースが多い。また、利用者の身近の女性が被害を受けるケースが多いと指摘される。

政府の規制

被害の範囲が拡大しているが、米国ではこれを規制する法令は無い。カリフォルニア州は、DeepFakes(顔をスワップするAI)に関し、これを選挙に悪用することを禁止する法令を制定したが、DeepNudeについてはこれを規制する法令は無い。脱がせアプリは、通常のサイトではなく、闇サイトで使われるケースが多く、被害の実態がつかめないことが、規制が進まない原因となる。

出典: gurinaleksandr

女性の防御手段

今のところ、女性が脱がせアプリから身を守る方法は見当たらない。女性が被害に会わないためには、全身の写真をネットに掲載しないことが肝要となる。脱がせアプリに攻撃される危険性を認識し、写真の管理を厳格にすることが必要となる。特に、ソーシャルメディアに全身が写った写真を掲載すると、悪用される可能性が高まる。自分を主張する自由が制約され、窮屈な社会となるが、危険性を考慮して判断を下すことになる。

米国でAIを使った人事採用が規制される、企業はアルゴリズムの妥当性を監査することが求められる

米国企業は、人間に代わりAIが応募者を審査する、「AI人事」の導入を進めている。これに対し、ニューヨーク州は、AI人事を規制する法令を可決した。これはAIが偏った判定をすることを防ぐもので、企業はアルゴリズムの妥当性を証明することが求められる。企業はAIで採用プロセスを自動化しているが、これからはAI人事の運用には制限が課されることになる。

出典: Google

ニューヨーク市の法令

米国では、多くの企業が人事採用プロセスにAIを導入し、アルゴリズムが応募者を評価して、採用の可否を判定する。ニューヨーク市議会は、全米に先駆けて、AIを使った人事採用を規制する法令を可決した。これによると、AIを人事採用プロセスで使う場合は、企業はアルゴリズムが公平に判断を下すことを証明することが求められる。

第三者による監査

具体的には、第三者がアルゴリズムの公平性を監査することが義務付けられた。企業は、アルゴリズムが、性別や人種や出身地に関わらず、公平に評価できることを証明する必要がある。更に、人事面接でAIを使う場合は、その旨を応募者に明らかにすることも求めている。

アルゴリズムの監査

アルゴリズムを監査するというコンセプトは、企業の決算を監査する考え方に似ている。上場企業は、決算報告書を財務当局に提出するが、その際、第三者により決算書の内容が正しいことを証明する。アルゴリズムも同様に、人事採用のプロセスで、AIがバイアス無しに正しく判定を下すことを証明することが求められる。

AI人事のバイアス問題

ニューヨーク市がAI人事を規制する背景には、アルゴリズムが特定グループに有利に働き、判定結果がバイアスしているケースが発生しているため。大企業の多くは、履歴書のスクリーニングや面接でAIを使っている。AIが人間に代わり、履歴書を読み、面接の応対を解析し、採用の可否を判断する。企業としては、多数の応募者を効率的に判定できるため、AIが必須のツールとなっている。同時に、アルゴリズムの公正性について問題が指摘されていることも事実。

出典: Google  

AI人事の判定結果を検証

実際に、AI人事の判定結果を検証するプロジェクト「Objective or Biased」がその問題を明らかにした。AIは様々な手法で面接者を評価し、採用するかどうかを判定する。その一つが、「AI面接」で、アルゴリズムはビデオで撮影された応募者の表情を分析し、採否を判定する。アルゴリズムは、声や使う言葉や手ぶりや表情を分析し、応募者の個性や特性を掴み、募集しているポジションに適しているかどうかを判定する。

AI面接の手法

プロジェクトはAI面接システム「retorio」の判定精度を検証し、結果が公平かバイアスしているかを評価した。retorioはドイツ・ミュンヘンに拠点を置く企業で、ビデオ映像をAIで解析し、応募者の特性を5つの指標で評価する。これらは、「ビッグファイブ」 (Big Five Personality Traits)と呼ばれ、オープン性(Openness)、誠実性(Conscientiousness)、外向性(Extraversion)、合意性(Agreeableness)、神経症(Neuroticism)で構成される。

AI面接の信頼性に疑問アリ

AIがビデオ映像からこれらビッグファイブの特性を評価し、採用の可否を判定する。プロジェクトの検証によると、AIの判定精度は、人物以外のオブジェクトに依存し、必ずしも正しく判定できていないと指摘する。例えば、メガネをかけて面接すると、AIの評価が低下する。また、応募者の背景により評価が変わる(下の写真)。応募者の背後に本棚があると、AIの判定精度が大きく向上する(黄色のグラフ)。これらの事例から、AI面接でアルゴリズムは本人だけでなく、メガネや本棚など、それ以外のオブジェクトを評価しており、判定精度に疑問が残るとしている。

出典: Objective or Biased

アメリカ連邦議会

アメリカ連邦議会もAIによる自動化プロセスを規制する法案を審議している。これは「Algorithmic Accountability Act」と呼ばれ、AIが自動で意思決定をするシステムをハイリスクと認識し、企業にAIの安全性を担保することを求める。具体的には、アルゴリズムの判定精度が高く、バイアスしていないことを保証することが課せられる。この法案は審議中で、可決するかどうかは見通せないが、連邦政府もAIの規制に動き始めた。

AI面接システムの販売停止

AI面接については、その判定精度を疑問視する意見が多く、米国のAI企業HireVueは、AI面接のシステムの販売を停止した。HireVueはビデオ面接の映像をAIで解析し、採用の可否を判定するシステムであるが、AIが本当に人間のように公正に判定できるのか、議論が続いていた。ニューヨーク市を発端に、米国でAI人事への規制が広がる勢いとなってきた。

Nvidiaはメタバースで地球のデジタルツインを生成、スパコンとAIで気候モデルをシミュレーション、数十年先の豪雨や干ばつを予測

先週、Nvidiaは開発者会議「Nvidia GTC 2021」で、地球温暖化対策に寄与する新技術を発表した。これは、地球をメタバースで構築し、ここで気候モデルをシミュレーションし、温暖化対策に役立てるという構想である。気候モデルは巨大で、新たにスパコンを開発して、これを実行する。しかし、高精度なモデルを実行するにはスパコンでも性能が十分でなく、AIで物理法則を解く技法を導入した。スパコンとAIを組み合わせ、数十年先の地球の気候を正確に予想する。

出典: Nvidia

地球温暖化問題

イギリス・グラスゴーで開催されたCOP26は、世界の平均気温の上昇を、産業革命前に比べ、1.5度に抑える努力をすることを再確認した。同時に、世界の平均気温は1.1度上昇しており、その影響が各地で広がっていることに警鐘を鳴らした。今年は、記録的な熱波や豪雨など、気象災害が世界各地で発生している。カリフォルニア州は記録的な干ばつで、大規模な森林火災が続き、気候変動がこれらの災害を加速している(下の写真)。

出典: Nvidia    

メタバースでシミュレーション

GTC 2021で、CEOであるJensen Huangが、NvidiaのプロセッサとAIを気候モデルに適用し、地球温暖化対策に寄与する手法を発表した。これはOmniverseで地球のデジタルツインを生成し、このモデルで地球の気候変動を解析する手法となる。具体的には、地球の気候モデル(Climate Model)を生成し、これをスパコンとAIでシミュレーションするアプローチを取る(下の写真、イメージ)。Nvidiaはメタバースの開発環境をOmniverseとして提供している。

出典: Nvidia    

気候モデルを生成

地球規模の気候モデルを生成することで、世界各地の気候を数十年先のレンジで予測する。将来の気候を正確に予想することで、危険性を正確に可視化でき、温暖化対策やインフラ整備のための基礎データとなる。天気予報は短期間の大気の物理現象を予測するが、気候モデルは数十年単位の気候シミュレーションで、物理学、化学、生物学などが関与し、巨大なモデルとなる。

豪雨や干ばつを予測

気候モデルを高精度で解析するには、地球規模の水の循環をシミュレーションする必要がある。これは「Stratocumulus Resolving」と呼ばれ、海水や地表面の水が、大気や雲を通して移動するモデルとなる(下の写真)。この循環が変わると、豪雨や干ばつによる被害が甚大となり、社会生活に大きな影響を及ぼす。

出典: NASA Goddard Space Flight Center

専用スパコンと最新のAI技法

しかし、このモデルをシミュレーションするためには、地表面をメートル単位の精度で計算する必要がある。現行の気候モデルのメッシュはキロメートルで、これをメートルにすると、演算量は1000億倍となり、世界最速のスパコンを使っても処理できない。このため、Nvidiaは気候モデル専用のスパコン「Earth-2」を開発するとともに、物理モデルをAIで解く技術の研究を始めた。下の写真は気候モデルの計算量の増加を示している。水循環モデル(Stratocumulus Resolving)をスパコンだけで計算するには、2060年まで待つ必要がある。

出典: Nvidia  

物理法則をAIで解く

このため、AIで物理法則を解く技法の研究が進んでいる。気候モデルのシミュレーションとは、物理法則に沿った挙動を可視化することを意味する。自然界の動きは物理法則に従い、古典力学、流体力学、電磁気学、量子力学などがその代表となる。気候モデルでは流体力学が重要な役割を果たし、流体の動きはナビエ–ストークス方程式(Navier-Stokes Equations)などで記述される。ニューラルネットワークでこの方程式を解く技法の開発が進んでいる。(下の写真、AIでハリケーンなどの異常気象を予想したケース。)

出典: Nvidia  

物理法則をAIで解くフレームワーク

Nvidiaは物理法則をニューラルネットワークで解くためのフレームワーク「Modulus」を提供している(下の写真)。Modulusを気候モデルに適用することで、AIでナビエ–ストークス方程式の解法を求めることができる。従来方式に比べ処理時間が大幅に短縮され、AIの新しい技法として注目されている。このプロセスを専用のスパコン「Earth-2」で実行することで、高精度な気候モデルのシミュレーションが実現する。

出典: Nvidia

気候変動に備える

気候モデルのシミュレーションで、数十年先の気候を正確に予測する。世界の主要都市は、数十年先に起こる気候条件に応じて、インフラ整備を進める。また、温暖化防止対策を策定する際に、どの方式が一番有効であるかを検証できる。地球のデジタルツインは、計測されるデータでアップデートされ、異常気象を高精度で予測し、地球温暖化対策の重要なツールとなる。

Nvidiaは企業向けメタバースを開発、リアルなAIアバターが人間に代わり顧客に応対する

今週、Nvidiaは開発者会議「Nvidia GTC 2021」で、メタバースの最新技術を公表した。Nvidiaはメタバースの開発環境を「Omniverse」という名称で製品化しており、企業はこのプラットフォームで3D仮想空間を生成し、ソリューションを構築する。基調講演で、人間のデジタルツインであるアバターの新技術が公開された。高度な言語モデルを組み込んだAIアバターが人間と会話するデモが実演された。(下の写真、CEOであるJensen Huangのフィギュア「Toy Jensen」が身振りを交えて人間と対話する。)

出典: Nvidia

Omniverseとは

Nvidiaは、3D仮想空間を開発するプラットフォームを「Omniverse」として提供している。企業は、Omniverseで3D仮想空間を生成し、ここで様々なシミュレーションを実行し、製造プロセスを最適化する。Omniverseは、既に多くの企業で導入されている。自動車メーカーBMWは、Omniverseで製造工場のデジタルツインを生成し、生産工程を最適化している。(下の写真、BMWは製造施設の高精度なコピーを3D仮想空間に生成し、ここで生産工程をシミュレーションし、効率などを検証した。)

出典: BMW  

人間のデジタルツイン

開発者会議では、Omniverseで人間のデジタルツインを生成する技法と応用事例が紹介された。この技法は「Omniverse Avatar」と呼ばれ、高度なAIを統合したデジタルヒューマンとなる。AIアバターは視覚を備えており、相手を見ながら人間と会話する。また、相手の話し言葉を理解し、AIアシスタントとして人間に助言する。AIアバターは3Dフィギュアとして生成され、レイトレーシング(Ray Tracing)を使って作画され、本物の人形が動いているように見える。

顧客サービスアバター:Project Tokkio

AIアバターが人間に代わり顧客に応対する。このプロジェクトは「Project Tokkio」と呼ばれ、AIアバターは顧客をビジュアルに認識し、対話を通して顧客をサポートする。その一つが上述の「Toy Jensen」で、3Dフィギュア形状のAIアバターが、身振りや手ぶりを交えて、顧客と対話する。

また、AIアバターが、レストランのキオスクで店員に代わり、顧客の注文を取る。AIアバターが顧客と会話しながら、料理の内容を説明し、好みを聞き、最適なメニューを推奨する(下の写真)。AIアバターは高度な会話能力を備えているが、この背後では世界最大規模の言語モデル「Megatron 530B」が稼働している。

出典: Nvidia  

自動運転車のアシスタント:Drive Concierge

クルマが自動運転車となると、AIアバター「Drive Concierge」が運転のアシスタントとなる。AIアバターは、クルマのディスプレイに表示され、ドライバーとのインターフェイスとなる(下の写真)。AIアバターがドライバーとの対話を通して、目的地と到着時間を理解し、時間通りに到着するために、最適な運転モードを選択する。

出典: Nvidia

ビデオ会議のアシスタント:Project Maxine

Nvidiaは、コラボレーション空間を生成するための開発環境「Project Maxine」を提供している。企業はこのプラットフォームを使って、遠隔勤務のためのビデオ会議空間(仮想オフィスなど)を構築する。開発者会議では、これを拡張した機能が紹介された。AIアバターをビデオ会議に組み込むもので、発言者の言葉をリアルタイムに翻訳する。(下の写真、英語で発言した内容がフランス語に翻訳される。フランス語で発声するだけでなく、口の動きもフランス語となる。) また、発言内容はテキストに変換して表示される。

出典: Nvidia

AIアバターを支える技術

AIアバターであるOmniverse Avatarは、多種類のAI技法を組み合わせて生成される。主なAI技法は次の通り:

  • Riva:対話型の言語モデル。音声認識機能で発言者の言葉を理解する。また、テキストを音声に変換する機能で、自然なボイスを生成する。
  • Megatron 530B:大規模な自然言語モデル。人間のように、言葉を理解し、また、言葉を生成する機能を持つ。文章を完結する機能や、質問に答える機能がある。更に、文章を要約したり、他の言語に翻訳する機能がある。
  • Merlin:深層学習に基づく推奨エンジン。
  • Metropolis:コンピュータビジョンでビデオの解析など利用する。

メタバースの標準プラットフォーム

Nvidiaはメタバース開発のためのプラットフォーム「Omniverse」を提供しており、企業はこの環境で3D仮想空間を生成する。メタバース開発のために、多くのエンジニアやクリエーターが異なるツールを使ってアプリケーションを開発する。Omniverseは異なるツールを連携し、共同開発のプラットフォームとなる(下のグラフィックス)。いま、世界各国でメタバースの開発が進んでいるが、これらは独自手法で構築され、固有のメタバースが数多く生成されている。Nvidiaは、Omniverseをオープンなメタバース開発環境と位置付け、業界標準となるプラットフォームを目指している。

出典: Nvidia

Facebookは人間の日常生活でAIを教育、ARグラスに搭載しアルゴリズムが利用者の視覚や聴覚をエンハンス

Facebookは人間の視線で周囲の状況を把握するAIの研究を開始した。このプロジェクトは「Ego4D」と呼ばれ、人間の視線で捉えたデータ(下の写真)でアルゴリズム教育することで、AIは実社会でインテリジェントな能力を発揮する。これをARグラスやVRヘッドセットに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。また、これをロボットに搭載すると、実社会で自律的に稼働する機能を得ることができる。

出典: Facebook

当事者の視点で環境を理解

コンピュータビジョンの進化でAIはオブジェクトを認識しその種別を正確に判定する。しかし、これらのAIは第三者視点(third-person perspective、下の写真左側)で開発されたもので、傍観者としてオブジェクトを判定する。これに対し、Facebookは第一者視点(first-person perspective、右側)でアルゴリズムを教育する研究を開始した。この技法は「Egocentric Perception」と呼ばれ、開発されたAIは当事者の視点でオブジェクトを判定できるようになる。これをARグラスやVRヘッドセットに搭載すると、AIがアシスタントとして周囲の状況を把握し最適な助言を行う。また、ロボットへ適用すると、AIが視覚となり実社会の中を自律的に稼働するシステムにつながる。(下の写真はサイクリングに関する画像認識の判定結果。第三者視点で開発されたAIの判定精度は高いが(左側)、第一者視点で開発されたAIの判定精度はまだ低い(右側)。)

出典: Facebook

開発したAIの利用方法

FacebookはARグラスの開発を進めており、その第一弾としてスマートグラス「Ray-Ban Stories」を発表した。これから製品化されるARグラスには第一者視点のAIが搭載され、インテリジェントなアシスタントとして使われる。AIが周囲のオブジェクトを見てその種別などを把握する。例えば、ARグラスで日常生活を録画しておくと、AIはこれを解析して利用者の質問に回答する。「祖母の腕時計をどこに片づけた」と質問すると、AIは過去のビデオを解析し、ARグラスにその場所を表示する(下の写真)。

出典: Facebook

大学との共同開発

利用者の視点でオブジェクトを判定するAIを開発するためには、アルゴリズムを教育するための大量のデータが必要になる。このため、Facebookは各国の大学と共同研究をすすめ、利用者視点のデータを集約して教育のためのデータセットを開発している(下の写真)。世界から13の大学が参加しているが、日本からは東京大学がこのプロジェクトに加わっている。

出典: Facebook

データセットの構成

開発者はスマートグラスなどを着装してカメラで日常生活を録画する。これら録画されたビデオにその意味を付加して、生活の中での動きとその説明文のペアを作る。これらのビデオを集約したデータセットを構築し、これらのデータを使ってAIを教育するプロセスとなる。日常生活の様式は国により異なり、Facebookは主要国の大学と共同でこれを進めている。(下の写真;皿洗いを撮影したビデオで、左からサウジアラビア、イタリア、ルワンダの事例となる。)

出典: Facebook

アルゴリズム教育

次は、生成したデータセットを使ってアルゴリズムを教育するステップとなる。ここがAI開発のコアで、Facebookはこれを研究課題として提示し、大学や研究機関の研究者がこれに挑戦する形式をとる。チャレンジは五つのテーマから構成される。

  • イベントの記憶(Episodic memory): AIはいつどこで何があったかを把握。(上述の事例の通り、祖母の腕時計をどこに格納したかを把握。)
  • 予測(Forecasting): AIはビデオをみて次のアクションを予測。
  • 手作業(Hand and object manipulation): AIは手の動きからどんな作業をしているかを把握。(ドラムを演奏する方法を把握し、それを教える(下の写真)。)
  • 音声映像の記録(Audio-visual diarization): AIはだれが何を言ったかを把握。
  • 人間関係(Social interaction): AIは誰と誰が会話しているかなど人間関係を把握。
出典: Facebook

AIビジョンの進化

AI開発でオブジェクトの形状を把握するコンピュータビジョンが急成長しているが、アルゴリズムを教育するためのデータセットが技術進化を支えている(下の写真)。AI開発の初期には手書き文字を判読するためのデータセット「MNIST」が開発された。コンピュータビジョンが急速に進化したのは、イメージのデータセット「ImageNet」の存在が大きい。ここには大量の写真とタグが格納され、これによりAIが人間の視覚を上回った。これらはすべて第三者視点のデータセットで、Ego4Dが第一者視点の最初のデータセットとなる。

出典: Facebook