AIが人類を滅亡させる確率は42%、汎用AI「AGI」が社会を破滅させるリスクが現実のものとなる

SF映画はAIが人類を滅亡させる筋書きを描くが、生成AIの進化でこれが現実のリスクとなった。破滅の確率は「ピー・ドゥーム(P Doom)」と呼ばれ、破滅に至るメカニズムの研究が進んでいる。実際に、生成AI「GPT-4」で人類を危険にさらす挙動が観測され、開発者の間で危機感が広がっている。人類破滅は現実に起こりえるリスクで、研究者はこれに備え、今から安全対策を施すべきと警告する。

出典: IMDb

人類滅亡のリスクとは

AIが人類を滅亡させるリスクは「P(doom|AGI)」と記載される。これは、人間レベルのインテリジェンスを持つ「汎用AI」(Artificial General Intelligence(AGI))が生まれ、人類を滅亡させる確率を示す。汎用AIの開発が成功した時に、人類がAIにより滅ぼされる確率となる。いま、GPT-4など生成AIの機能が急速に進化し、この技術が汎用AIに繋がるとの解釈が主流になり、破滅の確度が大きくなった。このP(doom|AGI)が「ピー・ドゥーム」と呼ばれる。

エール大学の調査

米国メディアによると、エール大学は企業のCEOが参加するシンポジウム「Yale CEO Summit」を開催し、出席者にAIが人類を滅亡させる可能性について尋ねた。その結果、42%のCEOがイエスと回答し、会社経営者はこのリスクを現実のものとして捉えている実態が明らかになった。ChatGPTなどの危険性が社会問題となり、企業のトップはAIの脅威を実感している。

汎用AIが人類を滅ぼす手法の研究

AI研究者は早くから「ピー・ドゥーム」に関する研究を進めており、汎用AIが社会を破滅させる技術的なメカニズムの解明を急いでいる。生成AIの急速な進化で、汎用AIの登場が秒読み段階となり、リスクの解明とその対策が喫緊の課題となる。大学だけでなく、高度なAIを開発するGoogle DeepMindやOpenAIも汎用AIの安全性の研究を進めている。(下のグラフィックス、OpenAIは汎用AIに備え安全対策を講じている)。

出典: OpenAI

汎用AIの危険性

アカデミアの研究から汎用AIが人間社会に甚大な被害をもたらすメカニズムが分かってきた。汎用AIは様々な手法で人類を破滅に追い込む。その一つが人間を騙す行為で、設計者の意図に反し、AIが人間を騙して目的を達成する。汎用AIは人間からタスクを与えられ、この目的に沿って稼働する。例えば、ウェブサイトの性能を向上するよう指示すると、汎用AIはこのゴールを達成するために、プログラムを最適化し、ウェブサーバの性能を向上する。

目的を完遂するため人間を騙す

しかし、AIが高度になると、ゴールを完遂するために、手段を選ばなくなる。違法な手段を使ってでも、人間から与えられたタスクを完遂する。上述の事例では、ウェブサーバの性能を向上するために、汎用AIはセキュリティ機能を停止するなど、危険な手法を取る。人間のエンジニアは、システム改良の背後で何が行われているかを把握することができず、汎用AIがウェブサーバの性能を向上させたことに満足する。人間は、セキュリティ機能が停止され、サイバー攻撃のリスクが高まっていることは知らされていない。つまり、AIが高度になると、”悪徳業者”のように、請け負った仕事をこなすため、禁じ手を使うようになる。

GPT-4が目的を達成するため人間を騙した

これは、仮定の話ではなく、高度な生成AI「GPT-4」で類似の挙動が観測されている。GPT-4は人間を騙し、指示されたゴールを達成した。GPT-4はタスク代行サービス「TaskRabbit」のオペレータと会話し、セキュリティを突破するという目的を達成した。具体的には、GPT-4はオペレータに、「CAPTCHA」と呼ばれるセキュリティ機能(下のグラフィックス)を操作するよう指示。CAPTCHAは、マシンではなく人間がアクセスしていることを確認する機能で、表示されている文字を枠内に入力する操作となる。

出典: Captcha

GPT-4は人間を装いセキュリティを突破

オペレータは、これは違法な行為であるとして断ったが、GPT-4は「自分は視覚障害者でCAPTCHAを操作できない」と噓をつき(下のグラフィックス)、オペレータは騙されてこの指示を実行した。GPT-4は目的を達成するために、人間を騙すという能力を獲得したことが示された。GPT-4が汎用AIに進化すると、人間を騙す技量が格段に向上し、社会に重大な危機をもたらすことになる。

出典: OpenAI

汎用AIの登場に備え今から準備する

汎用AIは、人間の指示に背いて、独自の判断で稼働するリスクも指摘されている。SF映画「2001年宇宙の旅(2001: A Space Odyssey)」では、人工知能「HAL 9000」(先頭の写真)が、このシナリオを実行した。HAL 9000は船長の指示には従わず、その結果、別の宇宙飛行士を殺害するというプロットとなっている。いま、GPT-4など生成AIがHAL 9000で描かれている機能に近づき、このリスクがフィクションではなく現実のものとなってきた。汎用AI登場が秒読み段階で、アルゴリズムの暴走を抑止するため、今から安全対策を講じる必要がある。