作成者別アーカイブ: nad00251

OpenAIはウェブページからデータ取集を停止する機能を公開、クローラー「GPTBot」をオフにすることで個人や企業の著作物を守る

OpenAIはウェブサイトのデータを読み込まない機能を公開した。OpenAIは「GPTBot」というクローラーで世界のデータを収集している。クローラーがウェブサイトにアクセスし、掲載されているコンテンツを読み込む。収集したデータは、ChatGPTなどの生成AIの教育で使われる。しかし、OpenAIは制作者の許諾を得ることなくデータをスクレイピングしており、社会問題となっている。これに対しOpenAIは、クローラーが個人や企業のデータを読み込むことを抑止するオプションを開示した。GPTBotの機能を「オフ」にすることで、個人や企業のコンテンツを守ることができる。

出典: OpenAI

GPTBotとは

「GPTBot」とはクローラー(Crawler)で、これがウェブサイトにアクセスし、掲載されているテキストなどを読み込む(Scrape)。収集したデータはデータセットとして保存され、GPT-4などの言語モデルを教育するために使われる。言語モデルは大量のデータで教育すると機能が向上することが分かっており、いかに多くのデータを収集するかがAI開発の勝敗を分ける。

OpenAIの運用指針

OpenAIはこの手法でウェブサイトのデータを収集しているが、その運用は倫理的に実行していると主張する。GPTBotは有料サイト(Paywall)に掲載されているデータは収集していない。また、個人情報が掲載されているサイトは、プライバシー保護のため、データは収集を抑止している。OpenAIは既に大量のデータを保有しているが、それを最新データで更新するために、GPTBotが定期的にサイトからコンテンツを収集している。

著作権問題

OpenAIはGPTBotを倫理的に運用していると主張するが、著作権で保護されているデータが収集され、重大な社会問題となっている。著者は、OpenAIは許諾を得ないでデータを収集し、これを言語モデルの教育で使っているとして、著作権侵害で提訴した。また、これに先立ち、ChatGPTとDALL-Eはアルゴリズム教育で個人情報が使われているとして、OpenAIは集団訴訟を受けている。

GPTBotの機能を停止

データ収集に関する問題が相次いで指摘されるなか、OpenAIはGPTBotがウェブサイトのデータの収集を中止するオプションを公開した。これはウェブ管理者向けのツールで、GPTBotの機能をオフにして、データ収集を停止させる。具体的には、ウェブページのファイル「robots.txt」に、下記のコマンド(左側)を記載すると、GPTBotはデータ収集を停止する。また、この機能をディレクトリ毎に設定することもできる。更に、OpenAIはGPTBotのIPアドレス(右側)を公開し、ファイアウォールでこれをブロックすることで、クローラーがサイトにアクセスすることを禁止する。

出典: OpenAI

今までに収集されたデータは

このオプションを使うことで、コンテンツ制作者はウェブサイトに掲載しているデータを守ることができるが、考慮すべき点は少なくない。その一つが過去に収集されたデータで、これを消去する手段はない。OpenAIは、既に、ウェブサイトから大量にデータを収集し、これをベースにChatGPTなどを開発した。言語モデルのアルゴリズムは、個人や企業のデータを学習しており、これを白紙に戻すことはできない。

オープンソースのデータセット

もう一つがオープンソースのデータセットである。最新版のデータセットは「The Pile」と呼ばれ、英語を中心にウェブサイトの情報を集約している。世界最大規模のデータセットで、オープンソースとして公開され、企業や団体が生成AIの開発で利用している。先月、Metaが生成AI最新モデル「Llama 2」を公開したが、アルゴリズム教育でThe Pileが使われた。The Pileはコンテンツ制作者の許諾を得ることなく、サイトからデータが収集され、これが一般に公開され、Meta以外に多くの団体が利用している。

GPTBotに関する評価

GPTBotの発表と同時に、多くのサイトはコンテンツを保護するために、「Disallow」のオプションを導入した。先端情報を発信しているサイトを中心に適用が広がっている (下のイメージ、ニュースサイト「The Verge」はGPTBotのアクセスを禁止、シェイドの部分)。一方、CNNなどニュースサイトの多くはこのオプションを導入しておらず、企業はOpenAIのデータ収集にどういうポジションを取るのか注視していく必要がある。

出典: The Verge

検索エンジン vs 生成AI

Googleもクローラー「Googlebot」を使って、世界のウェブ情報を収集し、検索サービスで利用している。検索エンジンのケースでも、同じ議論が起こり、Googleは著作権を侵害しているとして訴訟された。しかし、Google検索エンジンは著作物の一部だけを使っており(Snippet)、これは「フェアユース(Fair Use)」であり、著作権侵害には当たらないと判定された。一方、OpenAIのケースでは、著作物や個人情報がAI教育で使われ、アルゴリズムがこれを学習し、学んだ内容を出力する。このケースは著作権を侵害しているのかどうか法廷の場で争われる。検索エンジンと生成AIではデータの利用法が異なり、新たな基準が必要となる。

Googleは生成AIをロボットに適用、ロボットは人間の言葉を理解しカメラの映像で命令を実行、知能が向上し学習していないタスクを実行できる技能を獲得

Google DeepMindは生成AIでロボットの頭脳「RT-2」を開発した。生成AIはチャットボット「Bard」のエンジンとして使われているが、これをロボットに適用した。RT-2は人間の言葉を理解し、カメラの映像を読み込み、ロボットのアクションを計算する。この手法は、ロボットは教育されていない命令を実行できることを意味し、汎用ロボットの開発に向けて大きな技術進化となる。

出典: Google DeepMind

RT-2とは

Google DeepMindはロボットの頭脳「Robotic Transformer 2 (RT-2)」を開発した。名前の通り、言語モデル「Transformer」で構成されるロボットで、言葉(人間の命令)とイメージ(カメラの映像)をアクション(ロボットの動作)に翻訳する機能を持つ。人間の指示をそのままロボットが実行することを意味し、RT-2は初めての環境でもタスクを実行することができる。RT-2はロボットハードウェアに実装され、カメラで目の前のオブジェクトを捉え、ロボットアームが処理を実行する(上の写真)。

汎用ロボットの開発

GoogleはTransformerを搭載することで汎用ロボットを開発するアプローチを取る。現在のロボットは、特定のタスク(リンゴを掴むなど)を繰り返し練習し、スキルを獲得する。これに対し汎用ロボットは、特定のスキル(リンゴを掴むなど)を習得すると、それを別のタスク(バナナを掴むなど)に応用する。人間のように学習したことを汎用的に使いこなす能力で、ロボット開発のグランドチャレンジとなっている。

RT-1とRT-2を開発

言語モデル「Transformer」をロボットに適用する試みは「RT-1」で始まり、ロボットは学習したスキルを別のロボットに移転することが可能となった。RT-2はRT-1が学習したことを継承し、更に、ウェブ上のデータを学び、世界の知識を習得した。これにより、人間の言葉をロボットの言葉に翻訳し、初めての環境でもタスクを実行し、ロボットの汎用性が向上した。

RT-2の成果:初めてのタスク

RT-2はカメラで捉えたイメージだけで、指示された命令を実行する。具体的には、ロボットが「イチゴを掴んでボールに移す」よう指示されると、RT-2はカメラで捉えたイメージから、次のアクションを予想し、これをロボットが実行する(下の写真左側)。今までのロボットは、イチゴを掴んでボールに移す操作を何回も練習して、このスキルを獲得するが、RT-2は学習していないスキルでも、これを実行することができる。同様に、「テーブルから落ちそうな包みを掴んで」と指示されると、RT-2は初めてのタスクでもこれを実行する(右側)。

出典: Google DeepMind

RT-2の成果:初めての環境

RT-2は今までに学習したことのない環境で、命令を実行することができる。RT-2は、見たことのないオブジェクトを操作できる(下の写真左側)。また、学習していない背景(中央、テーブルクロス)や、学習していない環境(右側、キッチンのシンク)において、指示されたタスクを実行できる。このスキルは汎用化(Generalization)と呼ばれ、学習したことを元に、新しい環境でその知識を応用し、タスクを実行できる能力を指す。

出典: Google DeepMind

RT-2の成果:推論機能

RT-2のモデルが更に改良され、ロボットは推論機能を獲得した。これは「考察の連鎖(chain-of-thought)」と呼ばれるもので、ロボットは複数の思考ステップを経て結論を導き出す。ロボットは「目的」と「アクション」を理解してそれを実行する。具体的には、ロボットに「くぎを打つ」という目的を示し、このために「どのオブジェクトを使えるか」と聞くと、ロボットは「紙」、「石」、「コード」の中から(下の写真左側)、「石」を取り上げる(右側)。RT-2は「金槌」が無い時は「石」を代用できることを推論した。

出典: Google DeepMind

ベンチマーク結果

RT-1とRT-2がタスクを実行できる能力を比較すると、その差は歴然としており、大規模言語モデルを適用することで、性能が向上することが示された(下のグラフ)。具体的には、既に学習したタスク「Seen」を実行できる割合については、両者で互角となる(左端)。しかし、初めてのタスク「Unseen」に関しては、RT-2が実行できる割合がRT-1を大きく上回る(右端)。RT-2は、人間と同じように、学習したことを新しい環境に適用できることを意味し、汎用的に学習する機能を獲得した。(RT-1は灰色のグラフ、RT-2は紫色と薄青色のグラフ。)

RT-2は大規模言語モデルの種類により二つのモデルが開発された。二つの言語モデルは:

  • PaLM-E:言語モデル「PaLM」をロボット向けに最適化。言語とイメージを処理。
  • PaLI-X:言語モデル「PaLI」の小型モデル。多言語とイメージを処理。
出典: Google DeepMind

ロボット開発は進まないが

大規模言語モデル「Transformer」はChatGPTなどチャットボットのエンジンとして使われ、人間の言語能力を凌駕し、社会に衝撃を与えた。Googleはこれをロボットに適用することで、研究開発におけるブレークスルーを目指している。デジタル空間のAIは劇的な進化を続けているが、ロボットなど実社会におけるAIは目立った進展が無い。生成AIでこの壁を破れるのか、世界の研究者が注目している。

Metaは生成AI「Llama 2」をオープンソースとして公開、企業は無償で利用でき選択肢が拡大、ChatGPTに匹敵する性能でOpenAIの地位が揺らぐ

Metaは今週、生成AI「Llama 2」をオープンソースとして公開した。Metaはこのモデルをビジネスで利用することを許諾しており、企業の選択肢が拡大する。Llama 2は性能が大きく進化し、OpenAIのChatGPTと対等となった。OpenAIが市場をリードしてきたが、Llama 2の登場で、首位争いが激化する。

出典: Meta

Llama 2の概要

Llama 2はMetaが開発した大規模言語モデルで、「Llama 1」の後継モデルとなる。Llama 2はオープンソースとして公開され、企業はこれをダウンロードして、ビジネスで利用できる。Llama 1は研究開発に限定されたが、Llama 2は大学の他に、企業や政治団体などがこれを利用でき、急速に普及が広がると予想されている。また、MetaはLlama 2に関する情報を公開しており、モデルに関する理解が進み、生成AIでイノベーションが生まれると期待している。

オープンソース

Llama 2はオープンソースとして公開され、企業はこれらをダウンロードして自由に利用できる。モデルの他にプレ教育のパラメータ(Weights)を公開しており、Llama 2をそのまま運用できる。また、企業は、これをベースに、独自のデータでモデルを最適化し、専用の生成AIを構築できる。業務に特化した高速モデルを開発でき、利用方法が一気に広がる。一方、オープンソースであるが、Metaは利用条件の中で、特定の使い方について制限している:

  • 利用者数の制限:利用者数は70万人以下であること
  • 利用対象の制限:Llama 2を使って別の言語を開発することを禁止

オープンソースであるが一部の利用条件が制限されているので注意を要す。(この制限はGoogleなど競合企業がLlama 2を利用して技術開発することを抑止することを意図している。)

Microsoftとの提携

MetaはMicrosoftと提携して生成AIを共同で開発していくことを表明した。この最初のステップとして、Llama 2をMicrosoftクラウド「Azure」で提供する。MicrosoftはAI開発の各種ツールを提供しており、これらを利用してLlama 2を組み込んだシステムを開発できる。例えば、フィルタリング機能を使い、安全なLlama 2を開発できる。また、Llama 2は、Amazon Web ServicesやHugging Face経由でも提供され、これらのサイトからダウンロードできる。

モデルの構成

Metaが提供するLlama 2は、三つのモデル(カッコ内はパラメータの数)から構成される:

  • Llama-2-7B: (70億)
  • Llama-2-13B: (130億)
  • Llama-2-70B: (700億)

これに加え、会話モデル「Llama 2-Chat」が公開された。これはLlama 2を会話データで再教育したもので、チャットボットとして機能する。同様に三つのモデルから構成される:

  • Llama-2-7B-Chat: (70億)
  • Llama-2-13B:-Chat (130億)
  • Llama-2-70B-Chat: (700億)

(OpenAIとの対比では、Llama-2-70B-ChatがChatGPTに相当する。)

Llama 2-Chatの性能

Llama-2-70B-Chatの性能は、ChatGPTに匹敵する (下のグラフ最上段)。実際には、両者の性能を比較すると、Llama-2-70B-Chatの勝率は35.9%、負けは32.5%、引き分けは31.5%で、ほぼ互角の性能となる。これは、生成AIがどれだけ役に立つかという有益性(Helpfulness)で評価したもので、人間の検証者がこれを判定した。一方、Metaは、言語モデルを評価するもう一つの指標として、安全性(Safety)を導入しており、こちらはLlama-2-70B-ChatがChatGPTを上回った。

出典: Meta

モデルの教育方法

Llama 2-Chatは、Llama 2という言語モデルを、会話モデルに最適化する手法で開発された。Llama 2はプレ教育(Pretrained)された大規模言語モデルで、これを会話データで再教育し、Llama 2-Chatを生成した(下のグラフィックス)。その際に、人間のフィードバックでアルゴリズムを教育し、モデルは人間と対話するスキルを習得した。前述の通り、Llama 2-Chatは、有益性(Helpfulness)と安全性 (Safety)という二つの基軸を持つチャットボットとして生成された。

出典: Meta

教育で使ったデータ

Llama 2はインターネットに公開されているデータで教育された。但し、Metaが運用しているFacebookなどのデータは使われていない。また、公開情報の中でも、個人情報が多数含まれているサイトでは 、公開情報から個人情報を削除している。Llama 2は2兆トークンで教育され、Llama 1の1.4倍の量となり、これが性能向上の大きな要因となる。

Red Teaming

MetaはLlama 2の開発でモデルの安全性を強化するために、「Red Teaming」という手法を使った。これは、開発者がモデルを攻撃し、アルゴリズムの脆弱性を発見し、これを補強する手法となる。攻撃者は、サイバー攻撃の専門家の他に、電子詐欺や偽情報開発の専門家、法律家、政治家、人権団体など、幅広い分野のエキスパートが参加した。また危険性を検証する分野として下記を選定した:

  • リスク分野:犯罪計画、人身売買、非合法薬物、ポルノ、非合法医療など
  • 攻撃分野:仮定の質問、プロンプトの改造、繰り返される対話など
  • 兵器製造:核兵器、生物学兵器、化学兵器、サイバー攻撃など

安全性に関する評価

Red Teamingという手法を導入することで、Llama 2-Chatは極めて安全なモデルとなった。Llama 2-Chatは、人間のフィードバックでアルゴリズムを教育し安全性を高めたが、それでもアルゴリズムは危険性を内包している。これらをRed Teamingの手法で改良することで、安全性を向上させた。バイデン政権はAI企業に、安全なモデルを生成するために「Red Teaming」の手法を推奨したが、Metaはこれに準拠した最初の企業となった。その結果、危険な情報を出力する割合が大きく低下し(下のグラフ、紺色の部分)、ChatGPT(下のグラフ、右端)と比較し、高い安全性をマークした。

出典: Meta

Metaの目論見は

MetaはLlama 2をオープンソースとして公開する理由として、コミュニティと共同で生成AIを開発することで、成長のスピードが速まるとしている。具体的には、Metaは、Llama 2の利用状況を把握し、それをベースにモデルを改良することで、大きな進展が期待できるとしている。この背後には、Facebookで偽情報が拡散し、アメリカ社会が混乱した問題がある。これを教訓にMetaは、生成AIでは他社に先駆けて安全なモデルを投入し、社会に寄与することを目指している。

バイデン政権はAIの安全性に関するガイドラインを制定、OpenAIの「GPT-4」やGoogleの「PaLM 2」はモデルの安全検査を求められる

今週、バイデン大統領はGoogleやOpenAIなどAI企業7社と会見し、AIの安全性に関するガイドラインを発表した(下の写真)。これは「Voluntary Commitments」と呼ばれ、法的義務はない自主規制であるが、企業7社がこれに同意し、AIモデルの安全検査を実施する。このガイドラインは、アメリカ国民をAIの危険性から守ることに加え、中国などを念頭に、国家安全保障を強化する構造となっている。米国政府はAI規制法の準備を進めているが、このガイドラインが法案の骨格を構成し、AI規制政策の構造を理解できる。

出典: White House

ガイドラインの概要

バイデン政権はAIの安全性に関するガイドラインを公表し、開発企業はこの規定に沿って、モデルの安全性を検証することとなる。対象となるモデルは生成AIだけで、OpenAIの「GPT-4」と「DALL-E 2」、また、Googleの「PaLM 2」(Bardのエンジン)などに適用される。ガイドラインは「安全性」、「セキュリティ」、「信頼性」の三つの基軸から構成される。

  • 安全性 (Safety):モデルの安全性を検査。開発企業はアルゴリズムを検査し、AIが兵器開発に悪用される可能性など、危険性を洗い出す。
  • セキュリティ (Security):サイバー攻撃に備える。生成AIは国家安全保障にかかわる機密情報を含んでおり、サイバー攻撃に備え、情報管理を厳格にする。
  • 信頼性 (Trust):信頼できるAIを開発。生成AIで制作したコンテンツには、その旨を明示し、利用者に信頼できる情報を提供する。

安全性 (Safety)

ガイドラインは安全性に関し、AIモデルを検証することと、AIモデルに関する情報を共有することを求めている。AIモデルの検証では「Red-Teaming」という手法を推奨しており、社内だけでなく社外組織と共同でこれを実行する。(Red-Teamingとは、開発者がハッカー「Red Team」となり、モデルに様々な攻撃を行い、もう一方の開発者「Blue Team」がこれを防衛する手法で、アルゴリズムの脆弱性を把握し、モデルの危険性を理解する。)

出典: CrowdStrike

安全性 (Safety):モデルの危険性とは

この手法でモデルが内包する危険性を洗い出し、市民生活に及ぼすリスクの他に、サイバー攻撃などの国家安全保障に関する危険性も把握する。ガイドラインが懸念する主なリスクは:

  • 兵器製造:生物学兵器、化学兵器、核兵器開発にAIが悪用されるリスク
  • ハッキング:システムの脆弱性を検知するためにAIが悪用されるリスク
  • システム制御:AIがサイバー空間を超え物理装置の制御を奪うリスク
  • 社会問題:AIのバイアスや差別により社会に悪影響を与えるリスク

安全性 (Safety):情報共有と標準規格

ガイドラインは、各社がモデルを検証してこれらのリスクを査定するが、その検証結果を企業や政府と共用することを求めている。更に、リスクを査定する手法については、アメリカ国立標準技術研究所(NIST)が制定した「AI Risk Management Framework」に準拠することを推奨している。これは責任あるAI開発と運用を規定したフレームワークで、米国におけるAI技術の標準仕様書となっている。

セキュリティ(Security)

ガイドラインは、AIモデルに関する情報は知的財産で、これが盗用されないようセキュリティを強化することを求めている。外部からのサイバー攻撃と、内部関係者による盗用に備え、セーフガードを強化することを求めている。AIモデルの知的財産とは、アルゴリズムのパラメータ「Weights」を指し、開発企業はこれを厳重に守ることを求めている。(「Weights」とはアルゴリズムのパラメータの値を指す。「Weights」はアルゴリズムをデータで教育して決定する。生成AIは大規模なモデルで、Weightsを決定するには、スパコンを使って大規模な計算が必要となる。)

出典: OpenAI

信頼性(Trust)

ガイドラインは、生成AIが出力したコンテンツには、その旨を明記することを求めている。対象は、テキストの他に、オーディオやイメージで、利用者がその背景を正しく理解できることが重要としている。更に、開発企業に、オーディオやイメージに関し、その出典やウォーターマークを挿入するメカニズムの導入を求めている。また、開発企業に、AIモデルの機能だけでなく、制限事項や対象分野などをドキュメントとして公開することを求めている。これは「Model Card」といわれる手法で、AIモデルの取扱説明書となる。

信頼性(Trust):イノベーション

ガイドラインは、更に、高度なAIのイノベーションを進め、社会が抱えている問題の解決に寄与するよう求めている。これらはグランドチャレンジと呼ばれ、地球温暖化の抑止やがんの早期検知やサイバー攻撃への防御技術などで、AIがこれらの解法に寄与すべきとしている。更に、開発企業は、学生や労働者へAIに関する教育や啓もう活動を通し、皆がAIの恩恵を享受できるよう求めている。

出典: Adobe Stock

米国と欧州との違い

バイデン政権が制定したガイドラインは、生成AIに限定し、国民の安全を守ることに加え、国家安全保障を強化することを規定している。特に、生成AIの知的財産を守り、敵対国やハッカー集団に悪用されることを防ぐことに重点を置いている。これに対し、EUが最終調整を進めているAI規制法「AI Act」は、生成AIを含む広範なAIを対象に、利用者の権利を守ることを主眼に置いている。更に、AIモデルを教育するデータに関する規制もあり、著者者の権利を保護することを規定している。米国のガイドラインは国家安全保障の強化に重点を置いていることが特徴となる。

米国の法令整備

ガイドラインは、法的な拘束力はなく、合意した企業がこれに基づき、自主的に義務を履行する構造となる。合意した企業は7社で、Amazon、Anthropic、Google、Inflection、Meta、Microsoft、及び OpenAIがガイドラインに従って安全性を検証する。また、このガイドラインは、AI規制法が制定されるまでの規約で、暫定的な措置という位置づけとなる。現在、米国政府はAI規制法の準備を進めているが、このガイドラインがその構成のベースとなる。AI規制法の制定までには時間を要すが、ガイドラインからAI規制法の姿を読み取ることができる。

OpenAIは性能の壁に突き当たる、GPT-4の規模を拡大しても性能が伸びない、新たなアーキテクチャを開発中、GPT-4は小型モデルを組み合わせた複合型AIか

大規模言語モデル「GPT-4」は、サイズを拡大しても、それに応じて性能が伸びない、という問題に直面している。ニューラルネットワークのパラメータの数を増やしても、モデルの性能が向上しない、ということを意味する。OpenAIのCEOであるSam Altmanは、この問題を認め、「AIの規模拡大競争の時代は終わった」と述べている。この発言は、OpenAIは大規模言語モデルの新しいアーキテクチャの開発を進めている、ことを示唆している。

出典: Adobe Stock

大規模言語モデルの性能問題とは

これは「Diminishing Returns」と呼ばれ、言語モデルのサイズを大きくしても、その成果(リターン)が得られない事象で、性能が伸びない問題を指す。OpenAIは言語モデルとして「GPTシリーズ」を開発してきたが、GPT-3までは規模を拡大すると、それに伴って性能が向上した。特に、GPT-3では、人間レベルの言語機能を習得し、社会に衝撃を与えた。しかし、最新モデルGPT-4ではこのトレンドが崩れ、もうこれ以上ニューラルネットワークの規模を拡大できない地点に到達した。

言語モデルの限界

大規模言語モデルが限界点に到達したとは、今のプロセッサでは処理できない規模になったことを意味する。技術的な観点からは、GPT-4は「Transformers」というアーキテクチャで構成されたモデルで、規模を拡大するとは、パラメータの数を増やし、教育データの量を拡大することを意味する。GPT-4を教育するためには巨大なシステムが必要で、Altmanはモデルの開発で1億ドルを要したと述べている。更に、開発した巨大なモデルを実行するには、大量の計算機が必要になり、運用費用が巨額になる。つまり、巨大な言語モデルを開発し、それを運用するには、技術的にもビジネスの観点からも、現実的でないというポイントに到達した。

出典: Microsoft 

新たなアーキテクチャの研究

このため、Altmanは言語モデルの性能限界を突破するために、新たなアーキテクチャを探求する必要があると述べている。しかし、そのアプローチについては何も語っておらず、研究者の間でその手法に関する議論が白熱している。

研究者の推論を纏めると ##未確認情報##

ネットではGPT-4のアーキテクチャについて様々な議論が交わされている。OpenAIは、これらの推測に関し何もコメントしておらず、議論の過程の情報となる。これらの議論を纏めると、GPT-4は単体のモデルではなく、16の小型モジュールを組み合わせた、複合型の言語モデルとなる。アーキテクチャの観点からは、このモデルは「Mixture of Experts」と呼ばれ、16の専用モジュールから成り、プロンプトに対しモジュールの中の「エキスパート」が回答を生成するという構図となる。具体的には、GPT-4のシステム構成は:

  • モジュール構成:GPT-4は16のモジュールから構成される。モジュールのパラメータの数は1110億で、GPT-3程度の規模となる。GPT-4全体では、パラメータの数は1.8兆個となる。GPT-4はGPT-3を16ユニット結合したサイズとなる。
  • エキスパート機能:この構成は「Mixture of Experts (MoE)」と呼ばれ、各モジュールが分野のエキスパートとなる。問われたことに関し、最適のモジュールが解答を生成する。例えば、科学に関する質問には、それ専門のモジュールが稼働し解答を生成する。
  • 教育データ:GPT-4は13兆のトークン(Token、単語などの基本単位)で教育された。極めて大量のデータで教育された。教育データはテキストやプログラムのコードが使われ、また、ツイッターやRedditなどのソーシャルメディアのデータが使われた。更に、YouTubeのビデオと、書籍などの著作物が使われた。
  • インファレンス(実行):開発された巨大なモデルを如何に効率的に運用するかが課題となる。モデルを実行するプロセスは「Inference」と呼ばれ、Mixture of Experts構成を取ることで、運用コストを低減できる。プロンプトに対し、GPT-4全体を稼働させる必要はなく、専用のモジュールを2つ稼働させる。これにより、GPT-4を実行するコストはGPT-3の3倍と予測される。

Mixture of Expertsとは

Mixture of Expertsは早くから開発されている技法で、Googleはこのアーキテクチャに基づくモデル「GLaM」をリリースした。Googleは、このアーキテクチャを「Mixture-of-Experts with Expert Choice Routing」として発表している(下のグラフィックス)。これは、Transformersの「Feed Forward Neural Networks(FFN)」というネットワークを「Mixture-of-Experts」(FFN 1からFFN 4の四つのモジュール)で置き換えることにより、モデルの処理を効率化できるとしている。Googleはこのアーキテクチャに基づく言語モデル「Generalist Language Model (GLaM)」を開発し、言語モデルの規模を拡大できることを示した。具体的には、「GLaM」と「GPT-3」を比較すると、教育したモデルを実行するプロセス(Inference)で、計算量を大きく削減することができることを示した。

出典: Google

規模拡大からアイディアを競い合う時代に

大規模言語モデルは「Transformers」で構成されたニューラルネットワークで、その規模を拡大することで、性能が向上し、新たな機能を獲得してきた。しかし、このトレンドは限界地点に達し、これ以上規模を拡大しても大きな性能の伸びは期待できない。これからは、言語モデルのアーキテクチャを改良することで、スケーラビリティを探求することとなる。この分野では既に、GoogleやDeepMindが新技術を開発しており、OpenAIとの競合がより厳しくなる。