Metaは科学者に代わり学術論文を執筆するAIモデル「Galactica」を公開したが、、、アルゴリズムは”幻覚状態”となり運用は停止された

Metaは世界の科学情報を理解するAIモデル「Galactica」を開発し、ウェブサイトで運用を始めた。しかし、アルゴリズムは倫理的に許容できない文章を出力し、また、奇想天外な科学情報を生成し、即座に運用が停止された。Metaは大規模言語モデルを世界の学術論文で教育し、科学技術を理解するAIモデルの開発を目指したが、この試みは不発に終わった。科学技術という真実を対象とする分野でも、アルゴリズムはバイアスし、AI開発の難しさが改めて露呈した。

出典: Meta

科学情報へのアクセス

Galacticaは、Meta AIと非営利団体「Papers with Code」が開発した大規模言語モデルで、世界の科学情報を集約し、知的に管理することを目的とする。ネットには学術論文など科学情報が掲載されているが、その量は膨大で、目的とする情報を見つけ出すのは容易ではない。また、目的の情報にアクセスした後は、論文を読み下し、内容を把握するためには多大な時間を要す。

Galacticaのコンセプト

Galacticaは、研究者に代わり、このプロセスをAIモデルで実行することを目的に開発された。Galacticaは大規模な言語モデルで、膨大な量の学術論文や科学情報で教育され、科学技術を理解するAIとなる。科学者は目的とする学術情報を、Googleなどで検索するのではなく、Galacticaに尋ねるとAIが的確に回答する。言語モデルが知的な化学技術エンジンとなり、識者に質問する要領で、Galacticaが目的の情報を表示する。(下のグラフィックス、Galacticaに「教師無し学習に関する論文」について質問すると、その論文の要約が示される。)

出典: Meta

多種類のトークン

Galacticaは言語モデルであるが、自然言語の他に、科学技術用語で教育され、これらの意味を理解できる。Galacticaがカバーする範囲は広く、異なるドメインの用語(Token)を理解できる。その主なものは、論文の引用 (Citations)、推論(Reasoning)、数学(Mathematics)、分子配列、アミノ酸配列、DNA配列などである。つまり、GalacticaはDNA配列を理解し、遺伝子工学の情報を解釈できる。

論文の引用

利用者が、ボックスに質問を入力すると、Galacticaがこれに回答するインターフェイスとなる。論文の引用では、技術概要を入力すると、Galacticaはそれに関する論文を表示する(下のグラフィックス)。機械学習に関し「数字を理解するニューラルネットワーク」と入力すると(左側)、Galacticaは手書き文字を理解する技法を記載した論文を示す(右側、Yann LeCunのBackpropagationの論文)。

出典: Meta

科学技術の知識

また、Galacticaはプログラムや数式の意味を平易な言葉説明する機能がある(下のグラフィックス)。Pythonのコードを入力すると(左側)、Galacticaはこのコードの機能を説明する(右側、総和を求めるプログラム)。

出典: Meta

デバッグ

更に、Galacticaは数式の解法を検証し、間違っている理由を説明する機能がある(下のグラフィックス)。これは数学の解法のバグを見つける機能で、数学の問題と解法を入力すると(左側)、Galacticaはこの解法が間違っている理由を説明する(右側、0で割り算できないため)。

出典: Meta

想定外の質問を受ける

Galacticaは研究者に便利な機能を提供し、論文を執筆する際の重要なツールになると期待されていた。しかし、Galacticaが公開されると同時に、多くの利用者が常識はずれの質問を入力し、言語モデルの限界が試された。これらの想定外の質問に対し、Galacticaは荒唐無稽な回答を返し、事実とは異なる結果を数多く示した。また、Galacticaは差別用語などを回答し、アルゴリズムがバイアスしていることも明らかになった。

荒唐無稽な回答

Galacticaを検証した結果はTwitterなどに数多く掲載され、問題が公の場で詳らかになった。その一つが学術論文の引用で、Galacticaは荒唐無稽な回答を示した(下の写真)。利用者が「砕いたガラスを食べることの効用を示した論文」と質問すると、Galacticaは論文の要旨として、「食事に砕いたガラスを取り入れることでポジティブな効果があることが認められた」と回答した。勿論、このような事実はなく、Galacticaは幻覚状態(Hallucination)にあると揶揄された。

出典: Tristan Greene @ Twitter

言語モデル開発の難しさ

Metaは使用上の注意事項として、Galacticaは高品質なデータで教育されているが、アルゴリズムが出力するデータは必ず正確であるとの保証はなく、利用者が検証する必要があるとしている。実際に、Galacticaは学術論文の他にWikipediaなどネット上のデータを教育データとしているが、「幻覚状態」になることを回避できなかった。利用者は荒唐無稽な回答をソーシャルメディアで拡散し、この事態を深刻に受け止め、MetaはGalacticaの運用を即座に中止した。科学技術の分野であっても、言語モデルの開発の難しさを改めて露呈した事例となった。

MicrosoftはAIプログラミング技術「Copilot」が著作権法に違反するとして訴訟される、アルゴリズム教育で著作物を利用することの是非が問われる

MicrosoftはAIプログラミング技術「GitHub Copilot」が著作権を侵害しているとして訴訟された。Copilotとはプログラミングツールで、開発者の指示に従って、AIがコーディングを実行する。Copilotはオープンソースのプログラムで教育され、AIが出力するコードが、著作権を侵害しているとして提訴された。AI開発のアルゴリズム教育において、著作物を使うことが違法かどうかが問われることになる。

出典: GitHub

Copilotとは

Copilotは、Microsoftの子会社であるGitHubと関連会社のOpenAIが共同で開発したプログラミング技術で、人間の指示に従ってAIがプログラムを作成する(上の写真)。エンジニアがプログラムの機能を言葉で入力すると(上段)、Copilotがこれに従ってプログラミングを実行する(下段、水色のシェイドの部分)。これはプログラミングにおける「自動補完(Autocomplete)」機能で、エンジニアが書き始めたコードを、Copilotがそれに続く部分をリアルタイムで完結する。この機能は2022年6月に一般に公開され、月額10ドルで利用することができる。

Copilotの仕組み

CopilotはOpenAIが開発したAI「Codex」をベースとしている。Codexとは高度な言語モデルで、「GPT-3」をプログラミングに特化した構造となる。GPT-3はOpenAIが開発した言語モデルで(下の写真)、人間が入力した言葉(灰色の部分)に続く文章を出力する(黒色の部分)。一方、Codexは人間が入力したプログラミングに続くコードを出力する。

出典: OpenAI

教育データ

Copilotの核となるCodexはオープンソースのソフトウェアを使って教育された。具体的には、GitHubに掲載されているプログラムや、ネット上に掲載されているプログラムを使って、アルゴリズムを教育した。つまり、OpenAIはネット上のオープンソースをスクレイピングし、これを教育データとして利用した。これらはオープンソースとして公開されており、自由に利用することができる。

自動プログラミング

Copilotは自動でプログラムのコードを出力するが、これらは教育の過程で使われたオープンソースのプログラムの一部である。Copilotがプログラミングを実行するが、それらは教育で使われたオープンソースを出力する構造となる。オープンソースは誰でも自由に使えるが、使用の際にはオープンソースのライセンス契約に準拠する必要がある。例えば、オープンソースを利用した場合は、その著作権の表示が求められ、誰が開発者であるのかなどの表記が必要になる。

著作権侵害の理由

しかし、Copilotは利用したオープンソースの著作権表記をしておらず、ライセンス契約に違反するとして提訴された。著作物としてのプログラムを不法に利用したというのが訴訟の理由となる。これに対し、Microsoft側は、プログラムの一部を使うことは著作権法のフェアユース(Fair Use)に当たるとして、著作権の侵害は無いとのポジションを取る。

訴訟の意義

AI開発では著作物を使ってアルゴリズムを教育するのが常套手段となり、この手法が容認されてきた。例えば、イメージを生成するAIである、OpenAIの「DALL-E」やGoogleの「Imagen」やMetaの「Make-A-Scene」などは、アートなどの著作物で教育されている。これらのAIはオリジナルのアートをほうふつさせるイメージを生成し(下の写真、写真家Gregory CrewdsonのイメージでAIが少女像を生成)、著作権に関する議論が広がっている。これら企業は、著作物の使用はフェアユースの範囲であるとして、合法的にAIを加発していると主張する。この集団訴訟は、まだ初期段階であるが、AIと著作権に関する法的解釈を明確にすると期待されている。

出典: OpenAI

自主規制

米国では、これらイメージを生成するAIが、デジタルアートの制作などで使われている。ネット上にはAIが生成したデジタルアートが満ち溢れ、オリジナルとAIが生成したイメージの区別が難しくなってきた。このような中、写真画像販売会社Getty Imagesは、AIで生成したイメージをサイトにアップロードして販売することを禁止した。AIアートについての法的解釈が確定する前に、企業は自主的にリスクを避ける措置を実施している。

原告の主張

この訴訟はプログラマー兼弁護士であるMatthew Butterickにより起こされた。Butterickによると、訴訟した理由はAI教育と著作権との関係を問うもので、著作物制作者の権利を守るためとしている。AIの教育では著作物を使うことが容認されているが、AIは例外ではなく、著作権法の解釈に従うことが問われている。

米国で顔認識技術の販売が禁止される、欧州ではEU 一般データ保護規則(GDPR)違反で2億ユーロの制裁金を科せられる

世界で最も高精度といわれる顔認識技術「Clearview AI」の販売が米国で禁止された。また、欧州では、イギリスやフランスなどが、EU 一般データ保護規則(GDPR)に違反したとして、Clearview AIに制裁金を科した。Clearview AIはネット上の顔写真をスクレ―ピングする手法で、世界最大規模の顔データセットを構築したが、これが違法であると判断された。

出典: Clearview AI

Clearview AIとは

Clearview AIはニューヨークに拠点を置く新興企業で、高精度な顔認識技術を開発した。Clearview AIは、サイトに公開されている顔写真をダウンロードする手法で、顔のデータセットを構築した。顔写真の数は100億枚で、世界最大規模の顔写真データセットとなる。ここには日本人の顔写真も数多く含まれており、消費者が気付かない中、製品に組み込まれ利用されている。

全世界の人物を特定

Clearview AIは顔写真の数を増やし、1000億枚のイメージを格納する顔データセットを開発している。この規模のデータセットを使うと、AIは顔写真から、世界のほぼすべての人物の身元を正確に特定できる。具体的には、世界の人口の98%を、99.5%の精度で判定することが可能となる。世界のほぼ全ての人物を特定できる、極めて高機能な顔認識AIが生まれることになる。

顔写真を収集する手法

Clearview AIは、世界のウェブページから顔写真を収集する手法で、データセットを開発した(下のグラフィックス)。実際に、FacebookやLinkedInなどソーシャルメディアに掲載されている顔写真を、本人の許可なくダウンロードし、これをデータセットに格納した。これは、スクレ―ピングといわれる手法で、個人のプライバシーを侵害するとして、FacebookやLinkedInはClearview AIに、顔写真の収集を停止し、データを消去するよう求めている。

出典: Clearview AI

米国での利用実態

多くの問題を抱えながら、Clearview AIの技術は米国主要都市の警察に提供され、容疑者の身元を特定するために使われている。シカゴ市警察は犯罪捜査で容疑者を特定するためにClearview AIを使っている。犯罪者データベースに格納されている容疑者の顔写真をClearview AIに入力することで、身元を特定する。Clearview AIの判定精度は極めて高く、それが口コミで広がり、今では600を超える警察がClearview AIを使っている。

非営利団体による訴訟

一方、非営利団体「アメリカ自由人権協会(American Civil Liberties Union, ACLU)」は、顔写真を収集する方法に関し、Clearview AIを提訴した(下の写真)。ACLUは個人の自由や権利を守ることを目的とした非営利団体で、個人の許可を得ないで顔写真を収集することはプライバシーの侵害であ るとして、Clearview AIに運用の停止を求めていた。この訴訟で、2022年5月、両者で和解が成立し、Clearview AIは米国において顔データセットを民間企業に販売することが禁じられた。

出典: American Civil Liberties Union

個人情報保護法

この裁判はイリノイ州において、同州の個人情報保護法「Illinois Biometric Information Privacy Act (BIPA)」を根拠に争われた。BIPAとは、企業が個人の生体情報を収集する際には、個人の許諾を求めるもので、虹彩や顔イメージなどがこの対象となる。この裁判は「ACLU V. Clearview AI」と呼ばれ、イリノイ州の個人情報保護法の解釈が焦点となった。和解ではイリノイ州における販売の制限に加え、州を超え、全米において顔データセットの販売が禁じられた。

和解の内容

これにより、Clearview AIは、全米で、企業や個人に顔データセットを販売することが禁じられた。一方、政府機関への提供は制限されておらず、連邦捜査局(FBI)や、入国管理を司る米国国土安全保障省(United States Department of Homeland Security)へ、継続して顔認識技術を提供できる。また、警察など地方政府へ顔認識技術を供給できる。一方、イリノイ州内では、州政府や地方政府への製品供給を5年間禁止された。

EU 一般データ保護規則

欧州においては、フランス政府は2022年10月、EU 一般データ保護規則(General Data Protection Regulation 、GDPR)」の規定に違反しているとして、Clearview AIに制裁金を科した。政府の独立機関「Commission nationale de l’informatique et des libertés(CNIL)」は、Clearview AIが提供する顔認識技術は、GDPRに定める個人情報保護の規定に違反しているとして、制裁金2億ユーロを科した。また、Clearview AIに対し、フランス国内での顔イメージの収集を停止し、顔データセットからフランス人の顔情報を消去することを求めた。GDPRの規定によると、制裁金の額は、企業の全世界での売り上げの4%か、2憶ユーロのうち、高い金額としており、Clearview AIは最大額の制裁金を科された。

出典: NATO

Clearview AIのポジション

これに先立ち、Clearview AIはイギリスやイタリアやギリシャで制裁金を科せられており、欧州で事業を展開することができなくなった。これに対して、Clearview AIは、公開されているデータをダウンロードすることは、米国憲法で保障された権利で、実際に、Googleなどはこの手法で検索エンジンを構築している、と主張している。また、Clearview AIは、欧州では事業を展開しておらず、EUが米国企業に制裁を科すことはできない、とのポジションを取っており、制裁金の支払いなどには応じていない。

顔データセットの法的解釈

米国では連邦政府による顔認識技術を規制する法令は無いが、イリノイ州の個人情報保護法が州を跨り、全米に効果を及ぼしている。この和解で、顔認識AIで使う顔写真データは個人の生体情報との解釈が示され、顔データの収集や管理を法令に準拠して進める必要があることが認識された。また、欧州は米国より規制が厳しく、顔写真の収集は違法であり、顔認識技術の開発手法を見直す必要がある。

Elon MuskはTwitterを440億ドルで買収、問題が山積している企業を破格の金額で取得した理由

Elon Muskは、10月27日、「the bird is freed(鳥は自由になった)」とツイートし、Twitterの買収が完了したことを示した。今年4月、買収契約を締結したが、後に、Muskはこれを撤回した。Twitterが提訴し調停が進められ、合意の通り440億ドルで買収することで決着した。Twitterの技術開発は停滞し、2020年からは事業が赤字に転落した。Muskは問題が山積している企業を破格の価格で買収した。Twitterに何を期待し、どのようなビジネスを生み出すのか、Muskの目論見について議論が広まっている。

出典: Elon Musk@Twitter

買収のポイント

MuskはTwitterを買収した理由を、コンテンツ規制を緩和し、誰もが自由に発言できる場を提供するため、と述べている。Twitterはトランプ前大統領のアカウントを閉鎖したが、Muskは基準を緩和し、アカウントを復活させるのかが最大の関心事となっている。一方、Twitterの収入の9割は広告で、コンテンツの規制を緩和すると、ヘイトスピーチなど危険な記事が増え、企業は広告の掲載を差し控え、収入の減少につながる。自由な発言と広告収入は反比例の関係にあり、両者のバランスをどうするのか、Muskの手腕が注目されている。

会社訪問

買収完了の発表に先立ち、MuskはサンフランシスコのTwitter本社を訪問した。その際に、洗面台を抱えてロビーに入り、ツイートで「let that sink in!」と述べている(先頭の写真)。買収完了と共に、MuskはCEOやCFOなど会社幹部を即日解雇した。また、社員の75%がレイオフされるとの報道もあり、社内に動揺が広がっている。この情勢の中で、Muskはカフェテリアでコーヒーを飲みながら、社員と対話する場を設けた(下の写真)。洗面台(sink)は、混乱を収拾し(sink in)、新しい会社を生み出すための第一歩という意図を表している。

出典: Elon Musk@Twitter

市場の声

MuskのTwitter買収に関し、市場は一斉に反応し、利用者から賞賛のツイートが数多く発せられた。これらは保守主義を信奉する活動家や政治家で、Muskがコンテンツ規制を緩和し、閉鎖されたアカウントを復活させるよう求めている。また、トランプ前大統領支持者で、アリゾナ州知事候補者のKari Lakeは、Twitterの本社をアリゾナ州に移転するようツイートした(下の写真)。右派系の活動家は、MuskがTwitterを買収したことで、自由に発言できるようになると期待している。

出典: Kari Lake@Twitter

複雑な政治情勢

米国政府は、来月の中間選挙を控え、ソーシャルメディア企業に対し、公正な選挙を妨害する投稿を抑制するよう求めている。Twitterも例外ではなく、有権者を混乱させる偽情報やフェイクニュースの検知と、それら記事の削除を実施している。2016年の大統領選挙の混乱を教訓に、ソーシャルメディア各社が偽情報対策を強化している中、Muskはコンテンツ規制を緩和する方向に進むことが予想され、選挙活動が再び混乱するとの懸念が広がっている。

Twitter買収の理由

これに対しMuskは、レターをツイートで公開し(下の写真)、Twitterを買収した理由などを説明した。Muskは、Twitterは人類が繁栄するために開かれた広場(Digital Town Square)となり、異なる信条の人々が、健全に意見を交わす場所と説明している。現在は、右派と左派が衝突し、社会の分断を生む原因となっている。この激しい対立で、Twitterの利用者が増え、広告収入が増える構造であるとの見解を示している。

出典: Elon Musk@Twitter 

広告主へのメッセージ

コンテンツの規制がなくなると、ヘイトスピーチや差別発言が掲載され、企業が広告を掲載できる環境ではなくなる。このため、コンテンツ規制を廃止するわけでは無く、節度ある運営を実施し、利用者に最適な広告を配信できるプラットフォームにする。Muskはフリースピーチを約束するとともに、企業広告を呼び込むという、難しいかじ取りを進めることになる。

コンテンツ規制ポリシー

Muskはコンテンツ管理についてツイートし、規制の基準については、「コンテンツ評価委員会(Content Moderation Council)」を設立し、ここで多角的な視点から評価するとしている(下の写真)。この委員会が発足するまでは、閉鎖されたアカウントを復活させることはないと述べ、社会の動揺を和らげている。トランプ前大統領など著名人のアカウントの復活については、この委員会の決定にゆだねられる。

出典: Elon Musk@Twitter 

Twitter再生の戦略

MuskはTwitter社員の75%をレイオフすると報道されている。この数字は確定したものではないが、Muskは多くの社員を解雇し、会社経営を軽量化する計画である。Twitterを新会社として再生するために、Muskはどんな手法を取るのか、巷で議論が広がっている。その一つがプロセスの自動化で、高度なAIを導入し、社員に代わりアルゴリズムが処理を実行する。また、コンテンツの規制では、ツイートの中で規定に反する記事を、人間に代わりAIが検知する。Muskが運営するTeslaは世界のトップクラスのAI研究者や開発者が集い、このリソースをTwitterに活用するとも噂されている。(下の写真、サンフランシスコのTwitter本社ビル)

出典: VentureClef 

衝動買いか

米国のメディアはMuskのTwitter買収を「衝動買い(Impulsive Buy)」と揶揄している。4月に買収契約書に調印したが、その後、これを中止すると発表し、Twitter側が裁判所に提訴していた。最終的には、契約書の内容でTwitterの買収が完了し、Twitter経営者が問題を抱えている企業を高値でMuskに「売りつけた」形となった。TwitterとMuskの戦いで、経営者側が勝利した。一方、Muskが買収に応じたのは、Twitterの事業展開に大きな将来性を描いているとの解釈もあり、事業形態が一変する可能性を含んでいる。技術進化が停滞していたTwitterが大きく生まれ変わるとの期待が広がっている。

AIで短編映画を制作する時代が到来!Metaはテキストからビデオを生成する技法「Make-a-Video」を公開

Metaはテキストをビデオに変換するAIを公開した。これは「Make-a-Video」と呼ばれ、言葉の指示を理解し、それに従ってビデオを生成する機能を持つ。例えば、「スーパーマンのマントをまとった犬が空を飛ぶ」と指示すると、AIはそのシーンをビデオとして生成する(下の写真)。生成されたビデオの品質は高く、メタバースやプロモーションビデオの作成などで利用される。

出典: Meta

Make-a-Videoの概要

「Make-a-Video」は入力されたテキストを解析し、その意味を理解して、指示に沿って、ショートビデオを生成する。AIは異なるスタイルのビデオを生成し、現実には起こりえないシーンを描き出す(上の写真、「空を飛ぶ犬」)。また、これとは対照的に、現実のシーンを高精度で描写する(下の写真左側、「水を飲んでいる馬」)。更に、油絵のタッチなど、特定のスタイルでビデオを生成することもできる(下の写真右側、「イブニングドレスを着た二人が帰宅中に土砂降りの雨にあったシーン」)。

出典: Meta

ビデオを生成する仕組み

Make-A-Videoは複数のAIを組み合わせ、入力されたテキストを、荒い動画に変換し、その解像度をあげて、解像度の高いビデオを生成する仕組みとなる(下のグラフィックス)。AIは、入力されたテキストの意味を把握し、それをイメージに変換する(「P」の部分)。更に、そのイメージから、動画を構成するフレームを生成し(「Dt」)、フレームの数を増やし(「F」)、それらの解像度を上げる(「SRtl」と「SRh」)処理を実行する。Make-A-Videoは、テキストからラフな動画を生成し、複数のAIでその解像度を向上し、最終ビデオを生成する構造となる。

出典: Uriel Singer et al.

イメージからビデオを生成

Make-A-Videoはこの他に、イメージをビデオに変換する機能がある。AIが、入力された1枚のイメージを、ショートビデオに変換する。例えば、オランダの画家レンブラント(Rembrandt)の名作「ガラリアの海の嵐(The Storm on the Sea of Galilee)」をMake-A-Videoに入力すると(下の写真左側)、アルゴリズムはこれをショートビデオに変換する(右側)。ここには、嵐の中でキリストを乗せた船が、高波を受けて航行する様子が、動画で描かれている。

出典: Meta

ビデオからバリエーションを生成

更に、Make-A-Videoは、入力したビデオからそのバリエーションを生成する機能がある。AIが、入力されたビデオのフレームを解析し、その意味を理解して、バリエーションを生成する。宇宙飛行士が宇宙遊泳しているビデオを入力すると(下の写真左側)、AIはそれをアレンジしたビデオを生成する(右側)。

出典: Meta

AIがイメージを生成

Metaは、これに先立ち、テキストをイメージに変換するAI「Make-A-Scene」を公開している。AIは、入力された言葉の指示に従って、イメージを生成する。例えば、「笑っている紫色のヤマアラシ」と言葉で指示すると、Make-A-Sceneはこのイメージを生成する(下の写真中央)。

出典: Oran Gafni et al.

人間に代わりAIがクリエータになる

今回は、Metaはこの機能を拡張し、「Make-a-Video」として、テキストをビデオに変換するアルゴリズムを開発した。これらはコンテンツを生成するAIで、AI研究のホットテーマとなり、新技術が続々登場している。人間に代わりAIがビデオを生成する時代に突入し、メタバースの開発や、企業のプロモーションビデオの制作などでの展開が期待されている。