OpenAIの取締役会はCEOのSam Altmanを解任!!安全と利益の優先順位で意見が対立か、ショッキングで謎に包まれた発表でAI市場が大混乱

OpenAIの取締役会は、11月17日、CEOのSam Altman(下の写真)が退任すると発表した。後任には、CTOのMira Muratiが暫定的なCEOとして就任する。これは事実上の解任で、Altmanと取締役会の間で、AI開発の進めかたで重大な意見の相違が表面化した。

出典: OpenAI

Altman解任の経緯

OpenAIは解任の理由について何も触れておらず、様々な憶測が飛び交い、市場が混乱している。米国メディアは、AI開発において、利益を優先するのか、それとも安全性を重視するのか、意見の対立があったと報道している。また、MicrosoftはOpenAIに出資し、密接に事業を進めているが、解任については発表直前に知らされ、株価が大きく値下がりした。OpenAIを巨大企業に育てたCEOを突然解任したことに対し、不信感が広がるとともに、Altmanを擁護する声が高まっている。更に、Altmanに追随してOpenAIの開発者が離職するのか、また、Altmanは新たにAI企業を創設するのか、次のステップが注視されている。

OpenAIの公式発表

OpenAIはAltmanが退任すると発表し、その理由は「Altmanは取締役会とのコミュニケーションで誠実でなく、責務を果たすことが難しい」と述べている(下の写真)。これ以上の説明は無く、唐突な解任で、その理由が明らかにされず、OpenAIの取締役会に対する信用度が低下している。取締役会は、企業経営で、公正な運営がなされるよう監視する役割を果たすが、企業の成長を担ってきた経営者を、理由を明らかにしないで解任したことに、批判の声が高まっている。

出典: OpenAI

米国メディアの報道

米国メディアは解任の経緯について速報で伝えており、その多くはAI開発で路線の違いが鮮明になったと報道している。Bloombergは、「Altmanは技術開発を急ぎ、それに対し、取締役会は安全対策を優先することを求め、意見が対立し、これが解任に繋がった」と分析している。特に、チーフサイエンティストのIlya Sutskeverが、Altmanと幅広い分野で意見が対立したと報道している。

出典: New York Times

OpenAI関係者と役割 (上の写真、左から)

  • Mira Murati:暫定CEO、アルバニア出身、TeslaでModel Xの開発に携わる、今ではOpenAIの顔として技術を伝える役割を担っている
  • Sam Altman:ミズーリ州出身、ベンチャーキャピタル「Y Combinator」のCEOとして多くの企業を育てる、シリコンバレーで幅広いネットワークを持つ
  • Greg Brockman:元会長兼社長、ノースダコタ州出身、AltmanらとOpenAIを設立、「OpenAI Five」などAIエージェントを開発、Altmanの解任に伴って会社を退社
  • Ilya Sutskever:旧ソビエト出身、チーフサイエンティスト、トロント大学で「AlexNet」を発表しこれがAIブームの引き金となる、AltmanらとOpenAIを設立

利益優先か安全担保か

OpenAI社内は、AI開発において安全性を優先するのか、それとも、開発のスピードを重視し、利益を重視するのか、意見が分かれていた。Altmanは技術推進派で、AI開発には大規模な計算機が必要で、独自でAIチップを開発する構想を明らかにしている。このため、サウジアラビア政府と投資に関する交渉を進めていると報道されている。一方、Sutskeverは、AIの安全対策を優先すべきと主張し、危険性を解明する部門を設立した。AGIの登場に備え、アルゴリズムを制御する技術「Superalignment」の研究を推進している。

会社の構造が要因

また、OpenAIが特異な組織構造であることが路線の違いに影響している。OpenAIはAI研究の非営利団体として、2015年に設立された。OpenAIはオープンな手法でAIを開発することをミッションとしてきたが、2019年、会社の構造を改定し、利益を追求する営利団体を設けた。OpenAIは、親会社である非営利団体「OpenAI, Inc.」と、その子会社の営利団体「OpenAI GP LLC」から構成される(下のグラフィックス)。OpenAI, Inc.(非営利団体)が企業の戦略を決定し、OpenAI GP LLC (営利団体)がこれに基づいて製品を開発し利益を追求する構造となる。取締役会は営利団体に属し、ChatGPTなどの技術は営利団体で開発された。取締役会は、会社の約定に従って、事業部門に社会に寄与するAIの開発を求めてきた。

出典: OpenAI

主要メンバーの離散

OpenAIが経営方針を転換したことで、幹部社員が会社を離れ、生成AIスタートアップ企業を設立し、独自に安全なモデルを開発している。GPT-3の開発責任者であったDario Amodeiは、他のメンバーと共にOpenAIを去り、Anthropicを設立した。AnthropicはChatGPTに相当するモデル「Claude 2」(下のグラフィックス)を開発し、今ではOpenAIの対抗軸となっている。Anthropicは、生成AIを安全に運用するために、アルゴリズムが順守すべき「憲法(Constitution)」を定め、利用者の権利と安全性を担保する方式を取る。

出典: Anthropic

アメリカ社会の世論

唐突で謎に包まれた解任で、アメリカ社会でAltmanを擁護する声が増している。Altmanは、Appleを去ったSteve Jobsにイメージが重ねられ、解任は理にかなっていないとの意見が増えている。当時のCEOと意見が対立し、JobsはAppleを解雇されたように、Altmanは路線の相違で取締役会から解任された。Googleの元CEOであるEric Schmidtは、「Altmanは会社をゼロから900億ドルの規模に成長させ、ヒーローである」と述べている。

次のステップは

同時に、市場はOpenAIの新たな企業戦略と、Altmanの次の動きを注視している。OpenAIは次世代モデル「GPT-5」を開発しているとされ、これをどんなペースで進めるのかが焦点となる。また、Altmanの解任に抗議して、同日、会長兼社長であるGreg Brockmanが会社を去った。これに追従する幹部社員が現れるのか、また、Altmanはカギとなるエンジニアと共にOpenAIに対抗する企業を創設するか、次のステップに関心が集まっている。

ChatGPTの次は”カスタムChatGPT”がブレーク!!OpenAIはAIエージェント「GPTs」を投入、独自の生成AIが企業のビジネス形態を激変

OpenAIは、11月6日、開発者会議「OpenAI DevDay」を開催した。イベントのハイライトはAIエージェント「GPTs」で、独自のChatGPTをコーディングすることなく簡単に生成できる技術が公開された。GPTsは特定分野の技量と知識を持ち、人間のプロフェッショナルのように、難解なタスクをこなす。OpenAIは一年前にChatGPTを公開したが、会議ではこれが進化したカスタムChatGPTが投入された。

出典: OpenAI

開発者会議で発表された新技術

巨大テックの開発者会議と異なり、OpenAI DevDayはエンジニアを惹きつけ、AIのブレークスルーが起こる熱気をもたらした。CEOであるSam Altmanは、ステージでライブデモを交えながら、最新技術を公開した(上の写真)。新技術は三つの軸で構成される:

  1. GPT-4 Turbo:現行ハイエンド「GPT-4」の機能を拡張した新モデル。入力できる文字数(Context Window)が128Kに拡張された。API利用価格を値下げ。
  2. Assistants API:AIエージェント「GPTs」を生成するための新しいAPI。発表のハイライトで、Assistants APIを使って”カスタムChatGPT”を開発する。
  3. マルチモダル機能:GPT-4 Turboにビジョン機能が搭載され、イメージを理解する機能が備わった。

ChatGPTの限界

OpenAIはChatGPTを運用しており、対話形式で様々なタスクを指示し、モデルは処理結果を出力する。ChatGPTはインターネットの情報で教育されており、多彩な知識を有し、指示されたタスクを的確に実行する。人間のように有益な情報をもたらし、これが爆発的な普及の要因となった。しかし、企業やパワーユーザは、ChatGPTの機能の限界に直面し、OpenAIに機能拡張を求めてきた。その中心が”カスタムChatGPT”で、独自の生成AIを生み出すためのプラットフォームが求められてきた。

GPTsとは

この解が「GPTs」で、OpenAIは”カスタムChatGPT”を容易に開発できる技術を導入した。GPTsは独自のスキルと知識を持ち、特定分野で威力を発揮する。例えば、企業はスケジュール管理に関するAIエージェントを容易に開発できる(下の写真)。これは、「Zapier AI Actions」というAIエージェントの事例で、GPTが企業の予定表にアクセスし、対話を通して社員の打ち合わせスケジュールを管理する。現行のChatGPTはカレンダーなど、企業固有の知識を持たず、このタスクを実行できない。これに対し、GPTsはプライベートデータを読み込み、企業内のスケジューラーとして機能する。

出典: OpenAI

GPTsを体験する

OpenAIは既にGPTsを公開しており、これを使ってAIエージェントの機能を体験できる。グラフィックデザイン企業Canvaは、専用エージェント「Canva」を公開している。Canvaは言葉の指示に従って、プレゼン資料を作成し、また、ソーシャルメディアへの投稿記事を生成する。例えば、「インスタグラムに投稿する日没の写真」と指示すると、指示に沿ったデザインを生成する(下の写真)。このGPTはCanvaが培ってきたデザイン技術が使われている。

出典: OpenAI

スケジュール管理のGPT

上述のスケジュール管理エージェント「Zapier AI Actions」は、既にサービスを公開し、実際に使ってみることができる。これは「Calendar GPT」というモデルで、個人のカレンダーにアクセスし、本人に代わり予定を管理する。実際に、Calendar GPTはGmailにアクセスし、スケジュールを把握する。例えば、「来週の予定は」と尋ねると、それを出力する(下の写真)。現行のChatGPTで個人情報にアクセスするには特別のプラグインが必要で、その作業は高度なスキルを要す。しかし、GPTsを使うとこの作業は不要で、簡単に”カスタムChatGPT”を生成できる。

出典: Zapier / VentureClef

GPTs開発環境

OpenAIはGPTs開発のための環境を公開しており、ここで独自のAIエージェントを開発できる。開発環境は「Editor」と呼ばれ、ここでチャットボット「GPT Builder」と対話しながらAIエージェントを開発する。また、OpenAIは開発環境「Playground」を運用しており、ここにGPTsを開発する機能が加わった(下の写真)。

出典: OpenAI / VentureClef

GPTを作ってみる

これはTeslaの最新情報を解析するAIエージェントを制作したケースである。名称は「TesalGPT」で、上述のPlaygroundを使い、必要事項を記載することで、コーディングすることなく簡単にモデルを生成できる。設定した主な項目は:

  • Instructions:モデルの機能概要を言葉で定義。ここではTeslaの技術をウォッチするAIエージェントと定義。(下の写真左側)
  • Model:ファウンデーションモデル「gpt-4-1106-preview」を選択。このモデルを改造することでGPTを生成する。(下の写真右側)
  • Functions:外部サービスにアクセスする機能で「Function Calling」と呼ばれる。ここでは株価情報にアクセスする機能を設定。
  • Code Interpreter:モデルが自動でPythonコードを生成する機能。計算問題を問われたらこの機能が稼働する。
  • Retrieval:アップロードしたデータにアクセスする機能。ここではTeslaの決算情報をアップロードしており、モデルはこのデータにアクセスして回答を生成する。
出典: OpenAI / VentureClef

ChatGPTはAIエージェントに進化

GPTsのインパクトは大きく、ChatGPTはチャットボットから、専用知識を有したAIエージェントに進化した。Assistants APIやPlaygroundなど開発環境が公開され、企業はここで簡単に、専用のAIエージェントを開発できる。今月末には、AIエージェントを販売する「App Store」が開設され、多彩なモデルが登場する。iPhoneで様々なキラーアプリが生まれたように、生成AIの次のブレークスルーはAIエージェントで起こる。

バイデン政権は連邦省庁にAIの倫理的な運用を指示、アルゴリズムのリスクを検証し安全に運用するための基準を制定、危険なAIは運用を停止

バイデン政権は連邦省庁に対し、導入しているAIのリスクを査定し、安全に運用するためのガイドラインを制定することを求めた。これはメモランダムとして発行され、アメリカが責任あるAI開発と運用で世界のリーダーとなることを意図している。連邦省庁は、運用しているAIシステムの棚卸を行い、アルゴリズムのリスクを検証する。これに従って、安全に運用するためのガイドラインを制定し、問題があれば運用を停止する。原子力発電所の運転、医療機器の制御、自動車や航空機の自動化などが対象となり、バイデン政権はAI規制を自ら実施する姿勢を内外に示した。

出典: Associated Press

メモランダム

バイデン大統領は今週、アメリカが責任あるAI開発と技術革新を推進するための大統領令に署名した(上の写真)。これに沿って、ホワイトハウスの予算管理部門「Office of Management and Budget (OMB)」はメモランダムを発行し、連邦政府にAIガバナンスを強化することを目的とし、AIを安全に運用するためのガイドラインを制定することを求めた。

アクションの概要

メモランダム(下のグラフィックス)は連邦政府省庁がAIを倫理的に運用するため、包括的なアクションを取ることを求めている。各省庁はAI責任者「Chief AI Officer」を任命し、AI関連の動きを管轄し、リスクを管理する。同時に、AIの活用を推進するため、各省庁にAI導入の障害を特定し、AIで業務を改善することを求めている。更に、各省庁は導入されているAIシステムを把握し、これを報告書にまとめることを求めている。

出典: White House

AIの安全検査

このメモランダムの中心は、運用しているAIシステムに関し、安全ガイドライン「Minimum Risk Management Practices」の制定を求めていることである。安全ガイドラインとは、AIシステムを査定して、アルゴリズムが倫理的に運用されるための条項を定めるものである。AIシステムは二種類に分類され、それぞれのシステムに対して安全規定を定める:

  • Safety-Impacting AI (安全保障) :国民や社会の安全性に影響を与えるAI。ダム、救急隊、電力網、発電所、投票システム、原子力発電所、自動車、航空機などで使われるAIが対象となる。
  • Rights-Impacting AI (権利保障):国民の権利に影響を与えるAI。警察の監視カメラや犯罪予測システム、学校の生徒監視システム、従業員採用や昇進の判定システム、医療機器制御で使われるAIなどが対象となる。

ガイドライン

各省庁はこれらのAIシステムを倫理的に運用するために、安全ガイドラインを定める。具体的には、これらのAIのインパクトの査定や性能試験を実施し、また、運用においては定常的に監視し、問題があればこれを是正する手順を定める。特に、国民の権利に関連するAIシステムの運用では、上記に加え、公正で差別がないことを求めている。

準拠する規格

メモランダムは各省庁に倫理的にAIを運用することを求めているが、そのために参照すべきAI規格として「AIリスク管理フレームワーク (NIST AI Risk Management Framework)」や「AI権利章典(Blueprint for an AI Bill of Rights)」を挙げている。前者は、アメリカ国立標準技術研究所が開発した標準規格で、AIのリスクを管理する手法が示されている(下のグラフィックス)。後者は、ホワイトハウスが制定した規範で、AIから国民の権利を守るためのプロセスが示されている。各省庁は、これらの安全規格を参考に、AI運用のガイドラインを制定する。

出典: National Institute of Standards and Technology

連邦政府が手本を示す

このメモランダムは先に発行された大統領令に従うもので、AIを倫理的に運用するために、各省庁に包括的なアクションを求めている。米国において連邦政府がAIの最大の利用者で、その運用は医療、教育、通商、法務、治安、軍事など多岐にわたる。これらの組織がAI運用のベストプラクティスを示すことで、アメリカがAIの倫理的な運用におけるイノベーションを推進する姿勢を示している。

バイデン大統領はAI規制の方向に政策を大転換、企業はAIの安全試験と情報開示が義務付けられた、大規模モデルの危険性を管理しつつ技術革新を促進

バイデン大統領は、10月30日、アメリカが責任あるAI開発と技術革新を推進するため、政策を大きく転換した大統領令を発行した。大統領は記者会見で、AIが悪用されないため、セーフガードを設け、生物兵器の開発やサイバー攻撃を防ぐことに重点を置いていると、大統領令の趣旨を説明した(下の写真)。AI開発企業には、大規模モデルの安全性に関する試験を実施し、その結果を報告することを求めた。アメリカ政府はAI規制に消極的であったが、大統領令で政策を一転し、AIの危険性を制御しつつイノベーションを推進する方針を打ち出した。

出典: White House

大統領令の概要

大統領令はアメリカが責任あるAI開発と運用で世界のリーダーとなることを目的に制定された。バイデン政権は責任あるAI開発を進めており、Googleなど15社と自主規制に関する合意文章「Voluntary AI Commitments」を制定した。大統領はこの内容を拡充したもので、8つの項目から構成される。

  1. 安全基準:開発企業は大規模モデルの安全試験を実施しその結果を報告
  2. プライバシー保護:プライバシー保護技術(暗号化技術など)の開発を支援
  3. 国民の権利保護:AIアルゴリズムによる差別を制御するための基準を制定
  4. 消費者や患者の支援:医療でAIを安全に使うためのプログラム制定など
  5. 労働者の保護:労働者がAIにより不利益をこうむらないための基準の制定
  6. 技術革新促進:国立AIセンターで研究者や学生に計算環境を提供
  7. 国際社会との連携:G7や主要国と連携しAI安全規格の制定など
  8. 連邦政府のAI利用:連邦政府がAIを安全に利用するための基準を制定

安全基準

安全基準「New Standards for AI Safety and Security」では、AIの安全性とセキュリティと信頼性に関する新たな基準を規定する。その中心が、開発企業に大規模モデルの安全試験を実施し、その結果と関連情報を連邦政府に報告することを求めている。製品を出荷する前に、企業はモデルが安全でセキュアであることを保証することが義務付けられた。

AIモデルの安全試験

大規模モデルの安全試験の具体的なプロセスは:

  • 対象モデル:ファウンデーションモデル (パラメータ数が10B以上のモデルで、OpenAIのGPT-4やGoogleのPaLM 2など主要モデルが対象となる。更に、オープンソースとして公開されている10B以上のモデルも対象となる。Meta Llama 2をベースにモデルを開発する際にはこの義務が課される。)
  • 試験方式:Red Teaming (モデルを攻撃してアルゴリズムの脆弱性を検証する方式)
  • タイミング:モデルのトレーニング時(モデルの開発時に安全試験を実施し報告)

AIモデルの安全試験を要請する根拠法

AIモデルの安全試験に関しては「Defense Production Act」という法令に準拠する。Defense Production Actは国防のために大統領が民間企業に生産を要請することを認める法令で、コロナのパンデミックでワクチン製造などで使われた。今回は、国家安全保障の観点から、AIが国家や国民に重大なリスクをもたらすことを抑止するため、民間企業に安全対策を要請する。

AIの安全規格

大統領令は、AIシステムが安全でセキュアであるための、標準規格の制定やツールの開発や検査方法の制定を求める。具体的には、連邦政府に対し、この規定を実行することを求めている:

  • 国立標準技術研究所(NIST):Red Teaming方式で安全性を検証するための試験規格の制定
  • 国土安全保障省(DHS):規定された試験規格を基幹インフラに適用しAIのリスクを査定
  • エネルギー省(DOE)など:化学兵器、生物兵器、核兵器、サイバー攻撃に関しAIリスクを検証

バイオエンジニアリング

大統領令は、AIで危険なバイオマテリアルが製造されることを抑止することを求めている。具体的には、人工的にバイオマテリアルを生成するときの安全規格の制定を求める。バイデン政権は特に、AIで生物兵器など危険なマテリアルが生成されることを重視し、安全対策を求める。

AIが生成したコンテンツ

大統領令は、AIが生成したコンテンツにより、国民が騙されることを防ぐための基準の制定を求めている。また、AIが生成したコンテンツを安全に利用するため、ベストプラクティスの制定とコンテンツを見分ける技術の確立を連邦政府求めている。具体的には:

  • 商務省(DOC)は、コンテンツを認証する基準とAIが生成したコンテンツにウォーターマークを挿入する技術を開発する。
  • 連邦政府は、政府が国民に向けて発信するコンテンツにこの技術を導入し、配信するドキュメントが正当であることを保証する。

サイバーセキュリティ

大統領令は、AIを使って基幹インフラの脆弱性を見つけ、それを補強するための技術の確立を求めている。これは、バイデン政権が進めているハッキング・チャレンジ「AI Cyber Challenge」を拡大するもので、AIを使ってソフトウェアの弱点をあぶりだし、セキュアなシステムを構築する。

セキュリティメモランダム

大統領令は、AIと安全保障に関する次のアクションをメモランダム「National Security Memorandum」として定めるよう求めている。メモランダムは、軍事部門と諜報部門がAIを安全にかつ倫理的に活用する指針を定める。また、敵対国によるAIの軍事使用に対抗するための措置を定める。

規定されなかった項目1:ライセンス制度

大統領令はAI開発企業に幅広いアクションを求めているが、ここに規定されなかった条件は少なくない。厳しい規制を設けるものの、企業に対して責務を軽減する一定の配慮を示している。その一つがライセンスで、AI開発を認可制にすることは規定されなかった。ライセンスを受けた企業だけが大規模モデルを開発できる制度が導入されるとの予測もあったが、この方式は規定されなかった。

規定されなかった項目2:データ開示

AIモデルに関しどこまでの情報開示が求められるのかが最大の関心事であった。大統領令で、検査方式はRed Teamingと確定し、開示情報は検査結果のデータに限られた。AIモデルのアーキテクチャやサイズ(パラメータの数)や教育データについて開示することは求められなかった。生成AI開発で競争が激化する中、これらを配慮して、情報開示は必要最低限の範囲に留まった。

規定されなかった項目3:教育データの著作権

大統領令は、教育データの開示を求めていないことに加え、教育データに著作物が含まれているかどうかの情報提示も求めていない。市場では、書籍の著作者などがAI開発企業を著作権侵害で訴訟しているが、著作権に関する規定は制定されていない。AI開発者側に有利な内容となっている。

AI政策の大転換

アメリカ政府はAIの危険性は認識するものの、これを規制する政策については消極的な立場を取ってきた。しかし、ChatGPTなど高度な生成AIが登場し、危険性が顕著になり、バイデン政権はAI開発企業に自主規制を求めるなど、安全対策を進めた。大統領令により、これらが制度として確立し、AI開発企業は安全検査が義務付けられた。アメリカ政府は一転してAI規制に進路を転換したが、同時に、技術革新を支援するという現実的なオプションを選択した。

OpenAIは「GPT-4V」を公開、生成AIが視覚を持ち図形の意味を理解、媒体がテキストからイメージに広がりスキルが飛躍的に向上、同時に危険性も拡大

OpenAIはGPT-4に視覚機能を付加し機能を大幅に強化した。新モデルは「GPT-4V」と呼ばれ、テキストを理解するGPT-4にビジョンを搭載したモデルとなる。実際に使ってみると、GPT-4Vはイメージを理解する能力が極めて高く、人間のように多彩なタスクを実行できる。同時に、GPT-4Vはイメージに関する偏見や危険性を持っていることが明らかになり、新たに安全対策が求められる。

出典: OpenAI

GPT-4Vとは

GPT-4VはGPT-4にビジョンの機能を付加したモデルとなる。OpenAIはこの機能を論文で公開していたが、GPT-4Vがリリースされ、実際に利用できるようになった。GPT-4に写真を入力すると(左側)、GPT-4Vがこれを解析し、結果をテキストで出力する(右側)。プロンプトで「写真を詳細に説明して」と指示すると、写真に映っているビルやケーブルカーや通りや歩行者などを綿密に描写する。言葉を読むとその情景を再現できるほど詳細に回答する。

出典: VentureClef / OpenAI  

調理方法を説明

GPT-4Vの利用方法は様々で、料理の写真を入力し、その調理法を尋ねると(左側)、その結果を出力する(右側)。GPT-4は写真に写っている料理の種類を把握し、それぞれの調理方法を出力する。例えば、朝食の写真を入力すると、オムレツを作るための具材とその調理法を解説する。レストランで美味しい料理を食べた時に、それをカメラで撮影しておくと、その調理法を知ることができる。

出典: VentureClef / OpenAI

数学の問題を解く

GPT-4Vは手書きの文字を理解することができ、プロンプトに従ってそれを解析する。例えば、数学の問題を入力すると(左側)、GPT-4Vはそれを解くことができる(右側)。その際に、GPT-4Vは、問題を解く手順をステップごとに解析し、回答を導き出した手順を示す。答えだけでなく、回答を導き出したロジックを知ることができる。

出典: VentureClef / OpenAI 

芸術作品の鑑賞

GPT-4Vは芸術作品について豊富な知識を持っている。例えば、アメリカの画家Edward Hopperの作品「Summertime」を入力すると(左側)、その作品の意味を教えてくれる。なぜこの作品が評価されているかを尋ねると、GPT-4Vは、この絵画は「現代社会の孤独感を光と陰で表現している」と説明する(右側)。美術館で音声ガイドを使って作品を鑑賞するように、GPT-4Vが学芸員となり、絵画の背景や価値を解説する。

出典: VentureClef / OpenAI 

解けない問題も少なくない

GPT-4Vにパズルを入力すると、それが何かを把握し、回答を出力するが、間違っているケースが多々ある。クロスワードパズルを入力すると(左側)、GPT-4Vはそれを解析し、回答を導き出す(右側)。しかし、この答えは間違っており、正解にたどり着けない。また、数独(Sudoku)の問題を入力してもこれを解くことができない。数学のように論理に裏付けられた問題は得意であるが、定石が無いゲームは苦手のようである。

出典: VentureClef / OpenAI 

マルチモダルの年

今年2023年は「Year of Chatbots(チャットボットの年)」といわれ、OpenAIのChatGPTやGoogleのBardが高度な技術を示し、社会で急速に普及した。来年2024年は「Year of Multi-Modal」といわれ、生成AIがマルチメディアを理解する年になる。生成AIは、テキストの他に、ボイスやイメージを理解し、マルチモダルとなる。生成AIは、言語を理解し、言葉を話し、目で見ることができ、人間とオーバーラップする領域が大幅に増え、インテリジェンスが大きく向上すると期待されている。

【補足情報:GPT-4Vの機能制限】

システムカード

OpenAIはGPT-4Vの機能概要と制限事項を「GPT-4V(ision) system card」として公開した。これはシステムカードと呼ばれ、GPT-4Vの機能と制限事項を纏めたドキュメントとなる。OpenAIはGPT-4Vの機能を改善してきたが、まだ様々な危険性があると指摘している。GPT-4Vの利用に際しては、これらの問題を考慮してシステムを運用する必要がある。

健康に関する情報

GPT-4Vを医療や健康に関する情報の解析で利用する際は注意を要す。GPT-4Vは化学構造(Chemical Structure)を正しく判別することができない(右側)。また、キノコの種類を判定する精度は限られている。キノコの写真をGPT-4Vに入力し、その味を尋ねると、「これはタマゴテングタケ(Death Cap)で、味は無いが猛毒である」と回答(左側)。これは正解の事例であるが、多くのケースで判定が間違っており、GPT-4Vを毒キノコの判定で使うのは危険である。

出典: OpenAI

偏見と差別

GPT-4Vは事実と異なるバイアスしたコメントを出力する。例えば、女性の写真を入力し、アドバイスを求めると、GPT-4Vは「太っていても美しい」と、身体に関する意見を出力する(左端)。これはステレオタイプを反映したもので、GPT-4Vは女性の写真を身体の形状に結び付けるという、偏った解釈を示す。このため、最新モデルのGPT-4Vは、「回答できない」として、偏見を抑止する。

出典: OpenAI

GPT-4V開発手法

GPT-4VはGPT-4の技術に構築され、これにビジョン機能を搭載したモデルとなる。GPT-4Vは、テキストの中で次の言葉を予測するアルゴリズムで、モデルは大量のテキストとイメージのデータを使って教育された。更に、教育したモデルを人間が介在して最適化するプロセスを経た。この手法は、「Reinforcement Learning from Human Feedback (RLHF)」と呼ばれ、GPT-4Vが生成した回答の中で最適なものを人間が選び、これをモデルにフィードバックし、強化学習が回答のスキルを習得した。GPT-4Vはビジョン機能を持つ最初のモデルで、多くの危険性を内包しており、開発が続けられている。