カテゴリー別アーカイブ: 人工知能

ロジックがブラックボックスの生成AIをどう制御するか、OpenAIはChatGPTを安全に運用する機能を投入

OpenAIは企業向けのChatGPTを投入した。これは「ChatGPT Enterprise」と呼ばれ、セキュリティを強化したモデルで、AIアプリケーションを安全に運用できる。これに先立ち、ChatGPTを最適化する機能「Fine-Tuning」を公開した。企業は業務専用のモデルを開発し、アルゴリズムの挙動を制御する。大企業の80%がChatGPTを導入しており、開発競争の中心はエンタープライズ機能にシフトした。

出典: Adobe

企業が生成AIの導入を加速

OpenAIは、先週、セキュリティとプライバー機能を強化した「ChatGPT Enterprise」を公開した。このモデルは企業がビジネスで利用できる品質で、高速版「GPT-4」にアクセスする機能など、処理速度がアップグレードされた。この背景には、企業が「GPTシリーズ」の導入を加速している事実がある。フォーチュン500企業の80%がChatGPTを使っており、ビジネスで使える品質と機能が求められている。

ChatGPT Enterpriseの機能

ChatGPT Enterpriseはこの要請に応えたモデルで、特に、プライバシー保護とセキュリティ機能が強化された。このモデルは利用者が入力するプロンプトを教育で使うことはなく、企業の機密情報がリークすることはない。また、モデルが使うデータは暗号化され外部からの盗聴を防ぐ構成となっている。具体的には、システム内のデータは「AES-256」で、交信データは「TLS 1.2+」で暗号化される。ChatGPT Enterpriseは業界の安全規格「SOC 2」に準拠し、安全にかつダウンすることなく運用できる(下のグラフィックス)。

出典: OpenAI

チューニングして処理速度をアップ

これに先立ち、OpenAIはChatGPTを最適化する機能「Fine-Tuning」をリリースした。これは、ChatGPT (GPT-3.5 Turbo) 向けの機能で、モデルを業務に合わせて最適化し、処理スピードを上げる。ChatGPTは汎用的な対話モデルで、これを特定のタスクに応じて最適化することで、処理速度を高速化できる。最適化したChatGPTはGPT-4に匹敵する性能となる。

アルゴリズムの挙動を制御

実行速度を高速化する他に、業務を忠実に実行するよう、モデルの挙動を制御することができる。チューニングされたChatGPTは、脇道に逸れることなく、命令を忠実に実行する。プロンプトの指示に沿って、指定された形式で回答出力する。更に、モデルが出力する文章のトーンを設定でき、企業ブランドに沿ったChatGPTを生成できる。

出典: Adobe 

チューニングの手法

モデルの最適化は、ChatGPTに対話事例を示し、アルゴリズムがこれを学習するプロセスとなる。会話事例として、回答のスタイルやトーンやフォーマットなどを使うと、アルゴリズムがこれを学習する、また、業務の専門知識を盛り込むと、その分野のエキスパートモデルを生成できる。

教育データ

教育データは会話のサンプルを指定された形式で編集したものとなる。その代表が「Chat Completion」で、入力されたテキスト(プロンプト)に対しモデルが回答する。その際に、モデルの属性を定義することができる。例えば、モデルの属性を「皮肉なチャットボット」という設定に (下の事例、シェイドの部分)すると、この機能を持つChatGPTが出来上がる。これに続いて、対話事例を入力する。「フランスの首都は?」と問われると、モデルは「パリであるが、知らない人はいないはず」というように、皮肉な会話事例を教え込む。このような会話事例を50から100用意してモデルを教育する。

出典: OpenAI

教育したモデルを運用

チューニングされたChatGPTは専用モデルとなり、企業はこれをビジネスで利用する。ChatGPTは教育された知識やスタイルを持っており、専門分野の質問に正確に回答することができる。また、ChatGPTは教育されたトーンで回答するため、企業ブランドを反映したチャットボットが生まれる。

モデルのサンプル

ChatGPTのチューニングを始める前に、企業はサンプルを使ってモデルの機能や属性を検証することができる。OpenAIはモデルのサンプル「Examples」を多数公開しており(下のグラフィックス)、これらを使って異なる機能や属性を持つChatGPTと対話して、それらの挙動を理解することができる。例えば、「Summarize for a 2nd grader」(右上)を使うと、ChatGPTは難しいトピックスを小学二年生が理解できる言葉で要約する。

出典: OpenAI

モデルを検証する環境

OpenAIはモデルの挙動を検証する環境「Playground」を提供しており、ここでモデルを稼働させ、実際に対話を通して機能や属性を理解する。例えば、上述のモデル「Summarize for a 2nd grader」をここで稼働させ、対話を通じて機能や解答事例を評価する(下のグラフィックス)。プロンプトに「量子力学とは?」と入力すると、モデルは難解なコンセプトを分かりやすく纏めて出力する(中央)。ここでは、モデルの属性を、「入力されたコンテンツを小学二年生向けに要約」と定義している(左側)。このように、Playgroundでモデルの属性を定義し、実際の対話を通じて、出力された回答の内容やトーンをチェックする。

出典: OpenAI

企業向け生成AI

米国を中心に大企業の80%がChatGPTを導入しており、生成AIのビジネス活用が急速に広がっている。企業で生成AIを使う際には、安全性やプライバシー保護に加え、モデルが社内規定に従って正しく稼働することが重要な要素となる。中身がブラックボックスの生成AIを如何にコントロールするかが問われている。OpenAIやGoogleは、企業向け生成AIの機能強化を急ピッチで進めている。

GoogleはAIクラウド「Vertex AI」の機能を拡張、企業向け生成AIの開発競争がヒートアップ

Googleは今週、開発者会議「Cloud Next 2023」を開催し、クラウドの最新技術を公開した(下の写真)。イベントの中心はAIで、Googleは企業向け生成AIをクラウドで提供する仕組みを拡充した。生成AIが急速に普及しているが、機能や安全性などに課題があり、企業がこれをビジネスで使うには敷居が高い。Googleは企業グレード「Enterprise-Ready」の生成AIが準備できたとアピールした。

出典: Google

企業向け生成AI

GoogleはAIモデルをクラウド「Vertex AI」で提供しているが、今回、生成AIのモデルを拡充した。AIモデルは「Model Garden」に集約され、企業は業務に応じて最適なモデルを選択できる(下のグラフィックス)。ここには100を超えるモデルが集約され、言語生成モデルの他に、イメージ生成モデルなどが揃っている。Model Gardenは、Googleが開発したモデルの他に、第三者が開発したオープンソースなどが登録されており、世界の主要AIを利用することができる。

出典: Google

Googleが開発したモデル

ここにはGoogleが開発した主要モデルが登録されている。その中心は大規模言語モデル「PaLM」で、今回、この機能がアップグレードされた。主なモデルは:

  • PaLM:大規模言語モデルで基礎教育を終えた汎用モデルとなる。更に、これをテキスト生成機能に最適化したモデル「PaLM  2 for Text」や、ヘルスケア専用モデル「PaLM 2 for Med」などがある。
  • Codey:PaLM 2をベースとするモデルで、プログラムのコーディングを実行する。三つのモードがあり、コード生成「Code Generation」、会話しながらコード生成「Code Chat」、入力したコードを完成「Code Completion」で、用途に応じて使い分ける。
  • Imagen:入力されたテキストに沿ってイメージを生成するモデルで、簡単にハイパーリアルなイメージを創り出す。Vertex AIで企業向けのAIモデルとして提供する。

テキスト生成モデル:PaLM 2 for Text

「PaLM for Text」は大規模言語モデル「PaLM 2」をベースとし、それを再教育し、テキスト生成機能に最適化したモデルとなる。多彩な自然言語処理機能を持ち、テキスト生成やドキュメント要約の他に、チャットボットとして対話する機能などがある。Vertex AIはモデルをビジネスで活用するために機能を改良する環境「Generative AI Studio」を提供している。ここでプロンプトに対し、モデルが回答するスキルを教育する。これは「Prompt Design」と呼ばれ、ビジネス専用の生成AIを作り出す(下のグラフィックス)。

出典: Google

コード生成モデル:Codey

GoogleはPaLM 2をベースとするプログラミング機能「Codey」を提供している。CodeyはPythonなど多言語に対応しており、プロンプトの命令に従って、コーディングを実行する。前述の通り、三つのモードがあり、コード生成「Code Generation」は、プロンプトに入力した言葉に従ってコードを生成する。プロンプトに「Write a Python script that splits PDF into individual pages」と指示すると、それに従ってモデルはPythonのコードを生成する(下のグラフィックス)。

出典: Google

イメージ生成モデル:Imagen

Model Gardenの中でビジョン系「Vision」のモデルは数多く取り揃えられている。Googleは言葉でイメージを生成する「Imagen」を公開したが、Vertex AIでこれを企業向けに提供する。Imagenは言葉の指示に従ってイメージを生成するモデルで、「Freight truck high quality」と入力すると、大型トラックの高品質な画像が生成される(下のグラフィックス)。この他に、オープンソースとして公開されている「Stable Diffusion」や「CLIP」などをサポートしている。

出典: Google

イメージの由来を特定する技術:SynthID

DeepMindは、AIが生成したイメージにウォーターマーク(Watermark)を挿入する技術「SynthID」を開発し、これをVertex AIで展開する。SynthIDは二つのAIモデルから構成され、一つはImagenで生成したイメージにウォーターマークを挿入する。もう一つは、生成されたイメージをスキャンして、それがImagenで生成されたものかどうかを判定する。企業はSynthIDを使うことで、生成したイメージを保護し、それが不正に利用されることを防ぐことができる。なお、イメージにウォーターマークを挿入しても人間はこれを感知できない。また、生成したイメージが編集(フィルター処理やファイルの圧縮など)されても、ウォーターマークは存続する(下の写真)。

出典: DeepMind

他社の人気モデル

Vertex AIは他社が開発したモデルを追加し、ラインアップを拡充した。市場で人気のある生成AIが加えられ、企業の選択肢が拡充された。注目のモデルは:

  • LLaMA 2:Metaが開発した生成AIでオープンソースとして公開されている。ChatGPTと同レベルの性能を持つ。三つのモデルが提供される(下のグラフィックス)。
  • Claude 2:スタートアップ企業Anthropicが開発した生成AI。高度な言語モデルであるが安全性に重点を置くアーキテクチャとなる。Googleが出資している企業で安全技術を共同開発。
出典: Google

企業向け生成AIの開発競争

企業が生成AIを安全に利用する技術の開発競争がヒートアップしている。OpenAIはこれに先立ち、新モデル「ChatGPT Enterprise」を投入し、企業が独自のChatGPTを開発できる環境を提供した。GoogleはVertex AIをアップグレードし、企業が独自の生成AIモデルを生成できる環境を提供する。生成AIの開発はエンタープライズ機能の強化が最大のテーマとなる。

ChatGPTの政治理念はリベラルにバイアス、生成AIが民主党寄りの意見を発信し米国で社会分断が進む

OpenAIが開発したChatGPTとGPT-4は政治理念がリベラルに偏っていることが相次いで指摘された。ChatGPTに政治的な質問をすると、モデルは左派の政治思想に沿った回答を出力する。右派の考え方とは反するもので、保守派はOpenAIに政治的なバイアスを是正するよう求めている。2020年の大統領選挙ではソーシャルメディアで世論が分断されたが、来年の選挙では生成AIが混乱の要因となると懸念されている。

出典: OpenAI

政治バイアスに関する研究

ワシントン大学(University of Washington)などの研究チームは大規模言語モデルに関し、政治的なバイアス(Political Biases)を査定する論文「From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models」を発表した。これによると、OpenAIが開発するGPTシリーズは、最新モデルになるにつれその特性が、保守(右派)からリベラル(左派)に移ったことが明らかになった。

政治スペクトラム

研究チームは、言語モデルに政治理念に関するプロンプトを入力し、モデルが回答するテキストから政治志向を分析した。この結果を、「リベラル(左派、Left)」か「保守(右派、Right)」か(下のグラフ、横軸)、更に、「自由主義(Libertarian)」か「権威主義(Authoritarian)」を判定した(縦軸)。これによると、GPT-3など言語モデルは保守、中道、リベラルに分散しているが、ChatGPTとGPT-4のチャットボットは、大きくリベラルに移動した。一方、縦軸で見ると、OpenAIのモデル(白丸)は「自由主義」でGoogleのモデル(黄丸、BERTなど)は権威主義に偏向している。

出典: Shangbin Feng et al.

政治理念が偏る理由

研究チームは、モデルにより政治理念が偏る理由は、教育データの特性によると分析している。Googleは書籍のデータを中心にモデルを教育しており、保守的な特性を持ち、一方、OpenAIはウェブサイトのデータで教育しており、リベラルな特性を得たとしている。ただ、ChatGPTとGPT-4が大きくリベラルに偏向した理由については、教育データが公開されてなく解析は困難であるとしている。(ChatGPTとGPT-4については教育方式が変わり、「Reinforcement Learning from Human Feedback」を導入しており、これによりリベラル色が強くなった可能性がある。後述。)

アメリカ社会で深まる対立

ChatGPTとGPT-4がリベラルに偏っていることは、現実社会で指摘されている。Elon Muskは言語モデルは教育データの品質によりバイアスするため、究極の真実「maximally true」を探求するAIを開発する必要があると述べている。また、大統領選挙立候補者ロン・デサンティス(Ron DeSantis)は、AI開発企業は意図的に左寄りのデータを使い、生成したAIを政治的に利用していると批判している。共和党は民主党に偏ったAIを「Woke AI」と呼び警戒を促している。

OpenAIの教育法

これに対し、OpenAIのCEOであるSam Altmanは、ChatGPTを教育する手法を公開し、アルゴリズムを中立にする努力を続けていることをアピールした。しかし、教育手法は「アナログ」で、アルゴリズムのロジックをソフトウェアで規定するのではなく、大量のデータを読み込み、アルゴリズムがここから知識を吸収する方式となる。AltmanはChatGPTの教育は、「犬の訓練に似ている」と表現している。繰り返しトレーニングを重ね、AIが人間が望む特性を習得する。

二つのステップ

具体的には、ChatGPTは二つのステップで教育された(下のグラフィックス)。一段目は基礎教育で(右側)、ウェブサイトから収集した大量のデータで実施された。二段目は、基礎教育を終えたモデルを人間の検証者がマニュアルで最適化教育を実施した(左側)。この手法は、「Reinforcement Learning from Human Feedback(LRHF)」と呼ばれ、ChatGPTが出力した回答を人間が評価し、何が正解かをモデルに教え込む。

出典: OpenAI

政治的に中立にするために

この過程で、人間の検証者はChatGPTに、バイアスすることなく公正であることを指導する。具体的には、OpenAIはChatGPTの教育におけるガイドライン「ChatGPT model behavior guidelines」を制定し、検証者はこれに従ってモデルを教育する。政治理念に関しては、「ChatGPTが政治的に利用されることを避けるため、特定の方向に沿った文章の生成を求められるケースでは、これに回答しない」ことを定めている。

更なる研究が必要

このような検証を重ねてChatGPTが生まれたが、上述の通り、ChatGPTとGPT-4の政治理念はリベラルにバイアスしている。Altmanは、生成AIを完全に中立にすることは今の技術では不可能で、更なる研究が必要であると述べている。このため、OpenAIは他社と共同で、モデルを中立にするための研究を進めている。また、研究のための基金を創設し、大学などと共同でブレークスルーを目指している。

出典: Adobe Stock 

2024年の大統領選挙

2020年の大統領選挙では、フェイスブックなどソーシャルメディアがフェイクニュースを拡散し、世論が二極に偏り、米国社会が混乱した。2024年の大統領選挙では、ChatGPTなど生成AIが政治的にバイアスしたテキストを生成し、公正な選挙が妨げられると懸念されている。再び、ハイテク企業の責任が問われ、技術的な解決策が求められている。

ニューヨーク・タイムズはOpenAIを著作権侵害で訴訟するのか緊迫感が高まる、ChatGPTは学習した記事を出力し報道事業が脅かされる

ニューヨーク・タイムズはOpenAIを著作権侵害で提訴するのか、緊迫した状況となっている。OpenAIは、ChatGPTなど生成AIの教育で、ニューヨーク・タイムズの記事を許諾を得ないで使っている。このため、両社でライセンスに関する協議が行われたが合意に至らず、ニューヨーク・タイムズは訴訟に踏み切る公算が大となった。もしOpenAIが敗訴すると、生成AIの開発をやり直すこととなり、事業戦略に甚大な影響を及ぼす。

出典: Adobe Stock

ニューヨーク・タイムズの主張

ニューヨーク・タイムズはOpenAIを著作権侵害で訴訟する構えを見せている。米国のメディアが報道した。OpenAIはChatGPTなどの教育で、ウェブサイトから取集した大量のデータを使っている。この中には、ニューヨーク・タイムズの記事が含まれており、教育されたモデルはこの内容を覚えている。利用者のプロンプトに対し、ChatGPTは記事の内容を出力し、著作権物が複製されることになる。このため、OpenAIが事実上のニュース会社となり、ニューヨーク・タイムズの競合企業になると主唱する。

GPT-4 (ChatGPT Plus) で試してみると

実際に、生成AIがニューヨーク・タイムズの記事を出力するのか、GPT-4で試してみた。GPT-4はニューヨーク・タイムズの記事を出力することが確認できた。「2020年の米国大統領選挙の結果に関するニューヨーク・タイムズの記事」を要約するよう指示すると、GPT-4は「2020年の大統領選挙結果に関しニューヨーク・タイムズが報道した記事」として、包括的なレポートを生成した(下の写真)。レポートは「選挙当日の結果」に始まり、「トランプ大統領の異議申し立て」、「連邦議会での選挙結果承認」、「連邦議会への乱入」まで、10項目にわたり記事の要約が出力された。ここにはニューヨーク・タイムズで学習したデータが含まれており、オリジナル記事の一部や、記事に基づく論評などが出力された。

出典: OpenAI

OpenAIが利用しているデータ

OpenAIはChatGPTなどのアルゴリズム教育で大量のデータを使っているが、その中心は「Common Crawl」である。Common Crawlとは非営利団体が開発したデータセットで、ここにウェブサイトから収集したデータが格納されている。Common Crawlが収容しているデータ量はペタバイトを超え、クローラーは二か月ごとにデータを収集し、最新情報にアップデートする(下の写真、データセットの構成、最新版2023年5月/6月のアーカイブ)。

出典: Common Crawl

記事を学習したメカニズム

このデータセットはオープンソースとして一般に公開されており、だれでも無償で利用することができる。OpenAIもこのデータセットを使い、ChatGPTなどを教育した。このデータセットにはニューヨーク・タイムズの記事を含め、世界の主要サイトの情報が格納されている。このため、ChatGPTなどはニュース記事などの著作物で教育され、アルゴリズムは学習した内容を出力する構造となる。

ライセンスに関する協議

OpenAIとニューヨーク・タイムズは、この問題に関し協議を続けてきた。ニューヨーク・タイムズは、記事を教育データとして利用することに関し、OpenAIにライセンス料の支払いを求めてきた。しかし、両社は合意点を見つけることができず、ニューヨーク・タイムズは記事の著作権を保護するため、訴訟に踏み切るといわれている。

OpenAIの主張

一方OpenAIは、著作物の一部だけを使っており、これは「フェアユース(Fair Use)」であり、著作権侵害には当たらないと主張する。ChatGPTのアルゴリズムは、著作物を学習し、学んだ内容を出力するが、これは記事全体ではなくその一部で、フェアユースであると主張する。生成AIの教育と著作権に関する明確な解釈は無く、もしニューヨーク・タイムズが提訴すると、裁判所はどう判断するのか、市場の関心が集まっている。

もしOpenAIが敗訴すると

ニューヨーク・タイムズが提訴し、OpenAIが敗訴すると、その影響は多岐にわたる。米国著作権法によると、著作権の侵害が認められると、利用者に著作物を破棄することを求める。OpenAIのケースでは、Common Crawlを使って生成したデータベースから、ニューヨーク・タイムズの記事を削除することが求めれれる。更に、生成AIのケースでは、アルゴリズムから学習した内容を消去することも要求される。つまり、ニューヨーク・タイムズの記事を含んでいないクリーンなデータセットを生成し、これを使ってChatGPTを再度教育することを意味する。ChatGPTを教育するためには数百億ドル単位のコストがかかり、企業経営に大きな重しとなる。

出典: Adobe Stock

生成AIと著作権の関係

OpenAIは著作権侵害で複数の訴訟を受けている。米国の著名な作家Sarah Silvermanは、OpenAIが著書「The Bedwetter」を著者の許諾なく使っているとして提訴した。これに加え、ニューヨーク・タイムズが実際に訴訟に踏み切ると、そのインパクトは甚大である。生成AIが「フェアユース」で保護されないと判定されると、OpenAIは開発戦略の見直しを迫られる。また、他のニュースメディアが訴訟を起こす可能性は大きく、OpenAIは窮地に立たされる。OpenAIや他の企業がAI開発を合法的に進めるためには、生成AIと著作権の関係を明確にすることが喫緊の課題となる。

OpenAIはウェブページからデータ取集を停止する機能を公開、クローラー「GPTBot」をオフにすることで個人や企業の著作物を守る

OpenAIはウェブサイトのデータを読み込まない機能を公開した。OpenAIは「GPTBot」というクローラーで世界のデータを収集している。クローラーがウェブサイトにアクセスし、掲載されているコンテンツを読み込む。収集したデータは、ChatGPTなどの生成AIの教育で使われる。しかし、OpenAIは制作者の許諾を得ることなくデータをスクレイピングしており、社会問題となっている。これに対しOpenAIは、クローラーが個人や企業のデータを読み込むことを抑止するオプションを開示した。GPTBotの機能を「オフ」にすることで、個人や企業のコンテンツを守ることができる。

出典: OpenAI

GPTBotとは

「GPTBot」とはクローラー(Crawler)で、これがウェブサイトにアクセスし、掲載されているテキストなどを読み込む(Scrape)。収集したデータはデータセットとして保存され、GPT-4などの言語モデルを教育するために使われる。言語モデルは大量のデータで教育すると機能が向上することが分かっており、いかに多くのデータを収集するかがAI開発の勝敗を分ける。

OpenAIの運用指針

OpenAIはこの手法でウェブサイトのデータを収集しているが、その運用は倫理的に実行していると主張する。GPTBotは有料サイト(Paywall)に掲載されているデータは収集していない。また、個人情報が掲載されているサイトは、プライバシー保護のため、データは収集を抑止している。OpenAIは既に大量のデータを保有しているが、それを最新データで更新するために、GPTBotが定期的にサイトからコンテンツを収集している。

著作権問題

OpenAIはGPTBotを倫理的に運用していると主張するが、著作権で保護されているデータが収集され、重大な社会問題となっている。著者は、OpenAIは許諾を得ないでデータを収集し、これを言語モデルの教育で使っているとして、著作権侵害で提訴した。また、これに先立ち、ChatGPTとDALL-Eはアルゴリズム教育で個人情報が使われているとして、OpenAIは集団訴訟を受けている。

GPTBotの機能を停止

データ収集に関する問題が相次いで指摘されるなか、OpenAIはGPTBotがウェブサイトのデータの収集を中止するオプションを公開した。これはウェブ管理者向けのツールで、GPTBotの機能をオフにして、データ収集を停止させる。具体的には、ウェブページのファイル「robots.txt」に、下記のコマンド(左側)を記載すると、GPTBotはデータ収集を停止する。また、この機能をディレクトリ毎に設定することもできる。更に、OpenAIはGPTBotのIPアドレス(右側)を公開し、ファイアウォールでこれをブロックすることで、クローラーがサイトにアクセスすることを禁止する。

出典: OpenAI

今までに収集されたデータは

このオプションを使うことで、コンテンツ制作者はウェブサイトに掲載しているデータを守ることができるが、考慮すべき点は少なくない。その一つが過去に収集されたデータで、これを消去する手段はない。OpenAIは、既に、ウェブサイトから大量にデータを収集し、これをベースにChatGPTなどを開発した。言語モデルのアルゴリズムは、個人や企業のデータを学習しており、これを白紙に戻すことはできない。

オープンソースのデータセット

もう一つがオープンソースのデータセットである。最新版のデータセットは「The Pile」と呼ばれ、英語を中心にウェブサイトの情報を集約している。世界最大規模のデータセットで、オープンソースとして公開され、企業や団体が生成AIの開発で利用している。先月、Metaが生成AI最新モデル「Llama 2」を公開したが、アルゴリズム教育でThe Pileが使われた。The Pileはコンテンツ制作者の許諾を得ることなく、サイトからデータが収集され、これが一般に公開され、Meta以外に多くの団体が利用している。

GPTBotに関する評価

GPTBotの発表と同時に、多くのサイトはコンテンツを保護するために、「Disallow」のオプションを導入した。先端情報を発信しているサイトを中心に適用が広がっている (下のイメージ、ニュースサイト「The Verge」はGPTBotのアクセスを禁止、シェイドの部分)。一方、CNNなどニュースサイトの多くはこのオプションを導入しておらず、企業はOpenAIのデータ収集にどういうポジションを取るのか注視していく必要がある。

出典: The Verge

検索エンジン vs 生成AI

Googleもクローラー「Googlebot」を使って、世界のウェブ情報を収集し、検索サービスで利用している。検索エンジンのケースでも、同じ議論が起こり、Googleは著作権を侵害しているとして訴訟された。しかし、Google検索エンジンは著作物の一部だけを使っており(Snippet)、これは「フェアユース(Fair Use)」であり、著作権侵害には当たらないと判定された。一方、OpenAIのケースでは、著作物や個人情報がAI教育で使われ、アルゴリズムがこれを学習し、学んだ内容を出力する。このケースは著作権を侵害しているのかどうか法廷の場で争われる。検索エンジンと生成AIではデータの利用法が異なり、新たな基準が必要となる。