カテゴリー別アーカイブ: 人工知能

米国で顔認識技術の販売が禁止される、欧州ではEU 一般データ保護規則(GDPR)違反で2億ユーロの制裁金を科せられる

世界で最も高精度といわれる顔認識技術「Clearview AI」の販売が米国で禁止された。また、欧州では、イギリスやフランスなどが、EU 一般データ保護規則(GDPR)に違反したとして、Clearview AIに制裁金を科した。Clearview AIはネット上の顔写真をスクレ―ピングする手法で、世界最大規模の顔データセットを構築したが、これが違法であると判断された。

出典: Clearview AI

Clearview AIとは

Clearview AIはニューヨークに拠点を置く新興企業で、高精度な顔認識技術を開発した。Clearview AIは、サイトに公開されている顔写真をダウンロードする手法で、顔のデータセットを構築した。顔写真の数は100億枚で、世界最大規模の顔写真データセットとなる。ここには日本人の顔写真も数多く含まれており、消費者が気付かない中、製品に組み込まれ利用されている。

全世界の人物を特定

Clearview AIは顔写真の数を増やし、1000億枚のイメージを格納する顔データセットを開発している。この規模のデータセットを使うと、AIは顔写真から、世界のほぼすべての人物の身元を正確に特定できる。具体的には、世界の人口の98%を、99.5%の精度で判定することが可能となる。世界のほぼ全ての人物を特定できる、極めて高機能な顔認識AIが生まれることになる。

顔写真を収集する手法

Clearview AIは、世界のウェブページから顔写真を収集する手法で、データセットを開発した(下のグラフィックス)。実際に、FacebookやLinkedInなどソーシャルメディアに掲載されている顔写真を、本人の許可なくダウンロードし、これをデータセットに格納した。これは、スクレ―ピングといわれる手法で、個人のプライバシーを侵害するとして、FacebookやLinkedInはClearview AIに、顔写真の収集を停止し、データを消去するよう求めている。

出典: Clearview AI

米国での利用実態

多くの問題を抱えながら、Clearview AIの技術は米国主要都市の警察に提供され、容疑者の身元を特定するために使われている。シカゴ市警察は犯罪捜査で容疑者を特定するためにClearview AIを使っている。犯罪者データベースに格納されている容疑者の顔写真をClearview AIに入力することで、身元を特定する。Clearview AIの判定精度は極めて高く、それが口コミで広がり、今では600を超える警察がClearview AIを使っている。

非営利団体による訴訟

一方、非営利団体「アメリカ自由人権協会(American Civil Liberties Union, ACLU)」は、顔写真を収集する方法に関し、Clearview AIを提訴した(下の写真)。ACLUは個人の自由や権利を守ることを目的とした非営利団体で、個人の許可を得ないで顔写真を収集することはプライバシーの侵害であ るとして、Clearview AIに運用の停止を求めていた。この訴訟で、2022年5月、両者で和解が成立し、Clearview AIは米国において顔データセットを民間企業に販売することが禁じられた。

出典: American Civil Liberties Union

個人情報保護法

この裁判はイリノイ州において、同州の個人情報保護法「Illinois Biometric Information Privacy Act (BIPA)」を根拠に争われた。BIPAとは、企業が個人の生体情報を収集する際には、個人の許諾を求めるもので、虹彩や顔イメージなどがこの対象となる。この裁判は「ACLU V. Clearview AI」と呼ばれ、イリノイ州の個人情報保護法の解釈が焦点となった。和解ではイリノイ州における販売の制限に加え、州を超え、全米において顔データセットの販売が禁じられた。

和解の内容

これにより、Clearview AIは、全米で、企業や個人に顔データセットを販売することが禁じられた。一方、政府機関への提供は制限されておらず、連邦捜査局(FBI)や、入国管理を司る米国国土安全保障省(United States Department of Homeland Security)へ、継続して顔認識技術を提供できる。また、警察など地方政府へ顔認識技術を供給できる。一方、イリノイ州内では、州政府や地方政府への製品供給を5年間禁止された。

EU 一般データ保護規則

欧州においては、フランス政府は2022年10月、EU 一般データ保護規則(General Data Protection Regulation 、GDPR)」の規定に違反しているとして、Clearview AIに制裁金を科した。政府の独立機関「Commission nationale de l’informatique et des libertés(CNIL)」は、Clearview AIが提供する顔認識技術は、GDPRに定める個人情報保護の規定に違反しているとして、制裁金2億ユーロを科した。また、Clearview AIに対し、フランス国内での顔イメージの収集を停止し、顔データセットからフランス人の顔情報を消去することを求めた。GDPRの規定によると、制裁金の額は、企業の全世界での売り上げの4%か、2憶ユーロのうち、高い金額としており、Clearview AIは最大額の制裁金を科された。

出典: NATO

Clearview AIのポジション

これに先立ち、Clearview AIはイギリスやイタリアやギリシャで制裁金を科せられており、欧州で事業を展開することができなくなった。これに対して、Clearview AIは、公開されているデータをダウンロードすることは、米国憲法で保障された権利で、実際に、Googleなどはこの手法で検索エンジンを構築している、と主張している。また、Clearview AIは、欧州では事業を展開しておらず、EUが米国企業に制裁を科すことはできない、とのポジションを取っており、制裁金の支払いなどには応じていない。

顔データセットの法的解釈

米国では連邦政府による顔認識技術を規制する法令は無いが、イリノイ州の個人情報保護法が州を跨り、全米に効果を及ぼしている。この和解で、顔認識AIで使う顔写真データは個人の生体情報との解釈が示され、顔データの収集や管理を法令に準拠して進める必要があることが認識された。また、欧州は米国より規制が厳しく、顔写真の収集は違法であり、顔認識技術の開発手法を見直す必要がある。

AIで短編映画を制作する時代が到来!Metaはテキストからビデオを生成する技法「Make-a-Video」を公開

Metaはテキストをビデオに変換するAIを公開した。これは「Make-a-Video」と呼ばれ、言葉の指示を理解し、それに従ってビデオを生成する機能を持つ。例えば、「スーパーマンのマントをまとった犬が空を飛ぶ」と指示すると、AIはそのシーンをビデオとして生成する(下の写真)。生成されたビデオの品質は高く、メタバースやプロモーションビデオの作成などで利用される。

出典: Meta

Make-a-Videoの概要

「Make-a-Video」は入力されたテキストを解析し、その意味を理解して、指示に沿って、ショートビデオを生成する。AIは異なるスタイルのビデオを生成し、現実には起こりえないシーンを描き出す(上の写真、「空を飛ぶ犬」)。また、これとは対照的に、現実のシーンを高精度で描写する(下の写真左側、「水を飲んでいる馬」)。更に、油絵のタッチなど、特定のスタイルでビデオを生成することもできる(下の写真右側、「イブニングドレスを着た二人が帰宅中に土砂降りの雨にあったシーン」)。

出典: Meta

ビデオを生成する仕組み

Make-A-Videoは複数のAIを組み合わせ、入力されたテキストを、荒い動画に変換し、その解像度をあげて、解像度の高いビデオを生成する仕組みとなる(下のグラフィックス)。AIは、入力されたテキストの意味を把握し、それをイメージに変換する(「P」の部分)。更に、そのイメージから、動画を構成するフレームを生成し(「Dt」)、フレームの数を増やし(「F」)、それらの解像度を上げる(「SRtl」と「SRh」)処理を実行する。Make-A-Videoは、テキストからラフな動画を生成し、複数のAIでその解像度を向上し、最終ビデオを生成する構造となる。

出典: Uriel Singer et al.

イメージからビデオを生成

Make-A-Videoはこの他に、イメージをビデオに変換する機能がある。AIが、入力された1枚のイメージを、ショートビデオに変換する。例えば、オランダの画家レンブラント(Rembrandt)の名作「ガラリアの海の嵐(The Storm on the Sea of Galilee)」をMake-A-Videoに入力すると(下の写真左側)、アルゴリズムはこれをショートビデオに変換する(右側)。ここには、嵐の中でキリストを乗せた船が、高波を受けて航行する様子が、動画で描かれている。

出典: Meta

ビデオからバリエーションを生成

更に、Make-A-Videoは、入力したビデオからそのバリエーションを生成する機能がある。AIが、入力されたビデオのフレームを解析し、その意味を理解して、バリエーションを生成する。宇宙飛行士が宇宙遊泳しているビデオを入力すると(下の写真左側)、AIはそれをアレンジしたビデオを生成する(右側)。

出典: Meta

AIがイメージを生成

Metaは、これに先立ち、テキストをイメージに変換するAI「Make-A-Scene」を公開している。AIは、入力された言葉の指示に従って、イメージを生成する。例えば、「笑っている紫色のヤマアラシ」と言葉で指示すると、Make-A-Sceneはこのイメージを生成する(下の写真中央)。

出典: Oran Gafni et al.

人間に代わりAIがクリエータになる

今回は、Metaはこの機能を拡張し、「Make-a-Video」として、テキストをビデオに変換するアルゴリズムを開発した。これらはコンテンツを生成するAIで、AI研究のホットテーマとなり、新技術が続々登場している。人間に代わりAIがビデオを生成する時代に突入し、メタバースの開発や、企業のプロモーションビデオの制作などでの展開が期待されている。

AIが生成したコミックブックの著作権が認められる、テキストをイメージに変換するAIでアニメ事業がスタート

米国でテキストをイメージに変換するAIで事業が生まれている。これは、言葉の指示に従ってイメージを生成するAIで、描きたい内容をテキストで入力すると、アルゴリズムはそれに沿った画像を生成する。この手法でコミックブックが制作され、販売が始まった。著作者はコミックブックの著作権を申請し、これが認められた。AIが描き出すイメージが著作権で保護されることになり、AI出版が大きな事業になると期待されている。一方、これに慎重な姿勢を示す企業は多く、AIで生成されるイメージの販売禁止も広がっている。

出典: Kris Kashtanova

コミックブック

このコミックブックは「Zarya Of the Dawn」というタイトルで、Kris Kashtanovaにより制作された。主人公Zarya(上のイメージ)が、未来のニューヨーク(下のイメージ)を探訪するストーリーとなっている。これらのグラフィックスはAIにより生成され、ここにセリフを付加して、物語を構成し、コミックブックが創られた。アーティストが画面を描き出す代わりに、AIがイメージを生成した。

出典: Kris Kashtanova 

製作者プロフィール

このコミックブックを制作したのはニューヨークを拠点に活動しているKris Kashtanovaで、職業は「Prompt Engineer」としている。テキストをイメージに変換するAIを使い、最適な入力文(Prompt)を見つけ、印象的なグラフィックスを生成するエンジニアとなる。

著作権を申請

Kashtanovaは、制作したコミックブックを著作権物として申請した。米国著作権局(United States Copyright Office)は、今週、これを認可し、コミックブックが著作物として登録された。これにより、「Zarya Of the Dawn」は、著作権法による保護の対象となった。AIが生成したイメージが著作権で保護されるのはこれが最初のケースで、AI出版事業への道筋が開けると期待されている。

過去の事例

AIが生成したイメージに対する著作権申請はこれが最初ではなく、過去にも行われたが、米国著作権局は、この申請を退けている。米国の発明家Stephen Thalerは、AIで創作したデジタルアートの著作権の登録を申請した。このAIは「Creativity Machine」という名前で、アルゴリズムが「A Recent Entrance to Paradise」という題名のデジタルアートを生成した。この申請に対し、米国著作権局は、2022年2月、AIが生成したアートは、人間が創作に関与しておらず、著作権の登録はできないとの判定を下した。

コミックブックの著作権が認められた理由

米国著作権局は、著作権で保護できる著作物は、人間が制作したものに限られる、との解釈を示している。AIなど人間以外のものが創作した著作物は、著作権の保護の対象とはならないことになる。一方、デジタルアート制作の過程で、人間の関与があれば、創作物は著作権で保護される対象となる。今回のケースでは、クリエーターがコミックブックを制作する過程で、AIというツールを使ってイメージを生成したので、この作品は著作権物として登録することができた。

出典: Kris Kashtanova 

Midjourney

Kashtanovaは利用したAIは「Midjourney」であることを明らかにしている。コミックブックの表紙に、製作者として、自身の名前とMidjourneyを併記している(先頭のイメージ)。MidjourneyとはAI研究団体で、独自の手法で、テキストをイメージに変換する技術を開発した。現在はベータ版が公開されており、サイトでイメージを生成できる。ギャラリーには既に、Midjourneyで制作されたデジタルアートが掲載されている(下のイメージ)。

出典: Midjourney

主人公は誰

Zarya Of the Dawnの著作権が認められたが、主人公「Zarya」は誰かという議論が広がっている。コミックブックを通じて、AIが同じ人物を描き出しており、製作者はテキストで特定の氏名を指示していることになる。巷では、この人物は米国の女優Zendaya(ゼンデイヤ)であるとの憶測が広がっている。Zendayaは映画やテレビで活躍するでけでなく、2022年にはTimeの「世界で最も影響力のある100人」に選ばれている(下の写真)。確かに、Zendayaは主人公Zaryaに似ている。

出典: Time 

AIイメージの取り使いを禁止

米国ではMidjourneyの他に、OpenAIが開発した「DALL-E」や、Stability AIの「Stable Diffusion」など、テキストからイメージを生成するAIがデジタルアートの制作で使われている。このため、ネット上にはAIが生成したデジタルアートが満ち溢れている。このような中、写真画像販売会社Getty Imagesは、AIで生成したイメージをサイトにアップロードして、これを販売することを禁止した。

禁止の理由

Getty Imagesは、AIが生成したイメージを禁止する理由として、イメージそのものと、AIを教育したイメージに関し、著作権侵害のリスクがあるという解釈を示してる。多くのAIは、著作権で保護されているイメージを使って、アルゴリズムを教育している。この手法はスクレイピングと呼ばれ、フェアユース(Fair Use)で、その利用行為は著作権の侵害に当たらないとの解釈が一般的である。しかし、生成したイメージを商品として有償で販売するケースでは、この抗弁は成り立たず、著作権侵害にあたるとの解釈がある。

出典: AI Comic Books

グレーなエリア

AIに関する著作権の議論が収束しないなか、既に、AIで生成されたコミックブックが数多く販売されている。その代表がAI Comic Booksで、AIで生成したコミックブックのマーケットプレイスで、ここで多くの作品が販売されている(上の写真)。Zarya Of the Dawnもこのサイトで販売されており、価格は無料であるが、その代わりに寄付金を募っている。アルゴリズムを著作権で保護されたイメージで教育すると、AIが生成したイメージは合法なのか、グレーなエリアでビジネスが広がっている。

世界一危ないAIが誕生!!高度な言語モデルを差別用語で教育すると危険な言葉をまき散らすチャットボットとなる

高度な言語モデルをネット上の差別用語で教育して、危険な発言を繰り返すチャットボットを開発した。このチャットボットは「GPT-4chan」と呼ばれ、人間と対話する機能を持つが、発言内容は通常の会話で許容される範囲を逸脱し、差別発言や暴言を繰り返す。安全なAI開発とは対極に位置し、世界で一番危険なAIが生まれた。

出典: Yannic Kilcher

GPT-4chanとは

GPT-4chanは研究者Yannic Kilcherにより開発され(上の写真)、掲示板サイト「4chan(4ちゃん」で短期間運用された。GPT-4chanは高度な言語モデルで、入力された言葉に対し、それに返答する文章を生成する機能を持つ。人間と対話する機能を持つチャットボットとなる。しかし、通常のチャットボットとは異なり、4chanで運用され、社会的に許容されない会話で使われた。

4chanの概要

4chanは、日本の「2ちゃんねる」から分派したもので、サブカルチャー向けの掲示板として利用されている。発言に関する規制は極めて緩やかで、差別や偏見や偽情報が飛び交うサイトとなっている。但し、犯罪など法令に抵触する発言は違法行為となり、取り締まりの対象となる。(下の写真、4chanのスレッドの一部で、アメリカで白人の人口を増やす方法が、支離滅裂なロジックで議論されている。)

出典: 4chan

Politically Incorrectという掲示板

GPT-4chanは、このサイトの中で、政治討論を交わす掲示板「Politically Incorrect(下の写真、略称は/pol/で政治的に不適切という意味を持つ)」で運用された。Politically Incorrectは、特定のグループに不快感を与えないよう配慮することなく、政策や考えをストレートに発言する場として使われている。この掲示板は極右団体「Alternative Right」が意見を交換する場となり、人種差別に関する投稿が大量に掲載されている。GPT-4chanは/pol/で24時間運用され、人間と対話を続け、生成された発言の数は15,000件に上る。この期間、利用者はチャットボットとは気づかず、会話が続けられた。

出典: 4chan

オープンソースの言語モデル

GPT-4chanはオープンソースの言語モデル「GPT-J 6B」を使っている。これはAI研究コミュニティ「EleutherAI」により開発された言語モデルで、「Transformer(トランスフォーマー)」というアーキテクチャを持ち、6B(60億)個のパラメータから成る。高度な言語機能を持ち、OpenAIの「GPT-3」に対抗して開発された。GPT-3はクローズドソースであるが、GPT-Jはオープンソースとして公開されており、世界の研究団体がこれを利用して言語モデルの研究を進めている。

差別用語のデータセット

GPT-4chanはこのGPT-J 6Bを4chanの/pol/に掲載されている大量の差別発言で教育したものである。差別発言のデータは「Raiders of the Lost Kek」といわれ、3.5年間にわたり/pol/で交わされた会話(下の写真)を収集したもので、イギリスのUniversity College Londonなどにより開発された。ここには330万のスレッドと1.345億の会話が収納されており、危険な発言や人種差別や攻撃的な発言の世界最大規模のデータセットとなる。

出典: Antonis Papasavva et al.

アカデミアの警告メッセージ

本来、GPT-JとRaiders of the Lost Kekは、AI研究を支援するために開発されたもので、AIの危険性を理解し、安全なAIを開発するための重要なシステムとなる。これに反し、GPT-4chanは差別発言や危険な言葉を生成する、世界で最も危険な言語モデルとなり、これが一般社会にリリースされた。スタンフォード大学などAI研究コミュニティは、GPT-4chanが社会に公開されたことに危機感を抱き、オープンレターを発信し(下の写真、レターの一部)、Yannic Kilcherに対し、AIの危険性を認識し、倫理的な開発を要請した。特に、ニューヨーク州バッファローで発生した大量殺人事件に関連する発言が教育データとして使われており、これを学習したチャットボットに対し、強い警戒感を示している。

出典: Percy Liang et al.

国家安全保障

GPT-4chanはAI開発の危険性を改めて認識させられる出来事となった。高度な言語モデルが開発され、それがオープンソースとして公開されることで、誰でも簡単に社会に危害を及ぼすAIモデルを生成できるようになった。つまり、欧米諸国に敵対する国々が、これらオープンソースを使って、社会や国民を攻撃する高度な言語モデルを開発できることを意味する。特に、言語モデルの基盤であるTransformerが、AI半導体と同様に、国家安全保障にかかわるコア技術となり、オープンソースの管理や運用方法が問われている。

ハイパーリアルなアバター、AIがセレブの完璧なデジタルツインを生成、DeepFakesがメタバースを支える

米国の人気テレビ番組でセレブ三人がオペラを歌唱するシーンが放送され社会が騒然とした(下の写真)。これは”フェイクビデオ”で、オペラ歌手三人が歌うシーンをテレビカメラで撮影し、顔の部分だけをリアルタイムでセレブのものに置き換えた。完璧な偽物で、究極のDeepFakesが生まれ、テレビで全米に放送された。実際にこの番組を見ていたが、完成度の高さに衝撃を受けた。

出典: America’s Got Talent

リアリティ番組

これは「アメリカズ・ゴット・タレント(America’s Got Talent)」と呼ばれる番組で、様々なジャンルのパフォーマーの公開オーディションを放送するもので、アメリカ版「スター誕生」という位置づけになる。今週、三人のオペラ歌手がステージでアリア「誰も寝てはならぬ(Nessun dorma)」を歌い(上の写真下段)、それを三台のカメラで撮影し、合成した映像を大型モニターに映し出す(上の写真上段)構成となっていた。

顔をスワップ

映し出される映像は三人のオペラ歌手の顔をセレブの顔にスワップしたもので、審査員のサイモン・コーウェル(Simon Cowell、下の写真右端)、ホーウィー・マンデル(Howie Mandel、左端)、及び、司会者のテリー・クルーズ(Terry Crews、中央)がオペラを熱唱するシーンが生成された。DeepFakesの出来栄えは完璧で、本人が歌っているように映し出されたが、審査員たちは席に座っており、フェイクであることが分かる仕組みになっていた。

出典: America’s Got Talent

DeepFakes技術

この技術を開発したのはロンドンに拠点を置く新興企業Metaphysicで、高品質なコンテンツを生成するAIを開発している。特に、AIでアバターを生成する技術に着目しており、超リアルなデジタルツインを生成する。生成されるハイパーリアルなアバターは、3D仮想社会で使われ、メタバースを支える基礎技術を担っている。

偽のトム・クルーズ

Metaphysicは、これに先立ち、映画俳優トム・クルーズ(Tom Cruise)のハイパーリアルなDeepFakesを生成し、全米を驚かせた。ショートビデオとしてTikTokなどに掲載され、完璧な偽物のトム・クルーズを生み出した(下の写真)。実際に、ショートビデオを観ると、完璧なフェイクで、偽物であると聞かされて驚いた。これらのビデオはTikTokの「deeptomcruise」のサイトに掲載されている(リンク)。

出典: TikTok

シンセティック・メディア

AIが生成するアバターは「Synthetic Media」と呼ばれ、誰でも簡単に動画や音声を生成でき、プロ並みのコンテンツを生成できる。人間と見分けのつかないデジタル・ヒューマンが生まれており、エンターテイメントやプロモショーンで使われている。ニューヨークに拠点を置く新興企業SynthesiaはAIアバターを開発し、人間に代わりアバターがプレゼンテータとなり、商品を説明する。異なる種類のアバターが揃っており、企業はブランドイメージに沿ったアバターと言葉のアクセントを選ぶことができる(下の写真)。

出典: Synthesia

シンセティック・ボイス

また、AIでボイスを生成する技術「Synthetic Voice」の開発が進み、品質が人間レベルに到達した。合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。シアトルに拠点を置くAI新興企業WellSaid Labsは、AIによる音声合成技術を開発している(下の写真)。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、それを人間のように滑らかなボイスに変換する。

出典: WellSaid

人間の3Dフィギュア

ハイパーリアルなアバターと音声が生成されているが、次のゴールはAIで人間の3Dフィギュア全体を生成することにある。例えば、トム・クルーズのフェイクビデオをすべてAIで生成する技術がAI研究開発の一番ホットなテーマとなっている。上述のDeepTomCruiseが完璧なのは訳があり、トム・クルーズのそっくり俳優が演じたビデオを使っているからである。そっくりさんの顔の部分だけを本物の顔にスワップしている。そっくり俳優がトム・クルーズのように振る舞い、声も本人と見分けがつかない。そっくり俳優が演じる部分をAIで生成することが次の目標で、大学や企業で研究開発が進んでいる。