カテゴリー別アーカイブ: セキュリティ

サイバーセキュリティ最大の展示会「RSA Conference 2026」、AIエージェントの危険性に議論が集中!!CiscoはAIエージェント向けセーフティ・フレームワークを公開

サイバーセキュリティに関する世界最大の展示会「RSA Conference 2026」がサンフランシスコで開催された(下の写真)。カンファレンスの中心テーマはAIエージェントで、モデルが内包している危険性を理解し、これを如何に制御するかが議論された。企業はAIエージェントの導入を進め、このペースでいくと1兆ユニットが稼働する時代となる。しかし、AIエージェントのセキュリティに関する理解は進んでおらず、重大なインシデントが発生すると懸念される。CiscoはAIエージェントの危険性に関する啓蒙活動を続け、エージェントを安全に運用する技術を開発し、これをオープンソースとして公開した。

出典: VentureClef

カンファレンス総括:エージェント・セキュリティ

RSA Conferenceは世界最大のセキュリティ・カンファレンスでサイバー・セキュリティに関する最新技術が公開された。近年、サイバー・セキュリティはAIと融合し、RSA Conferenceは「AIカンファレンス」に転身した。今年は、AIエージェントに議論集中し、基調講演や展示会場ではエージェント・セキュリティが最重要テーマとなった。エージェント・セキュリティは二つの側面を持ち、1)AIエージェントへのサイバー攻撃を防ぐ手法と、2)AIエージェントが内包している危険性を制御する手法となる。これらのテーマに関し、主要各社から新技術やソリューションがリリースされた。

エージェント・ワークフロー

Cisco社長Jeetu Patelは基調講演でAIエージェントのセキュリティについて最新技術を解説した。AIエージェントが企業に導入され、「Agentic Workflow」として会社の基幹業務を担う中、そのリスクを解析しソリューションを提示した。AI市場は転換期を迎え、2022年11月にChatGPTがリリースされ、2026年11月に「OpenClaw」が誕生した。ChatGPTは「チャットボット」で、OpenClawは「エージェント」と位置付けられる(下の写真)。チャットボットは問われたことに回答を生成するが、エージェントは指示されたタスクを完遂するためにアクションを取るモデルとなる。

出典: RSAC

エージェントのセキュリティ

エージェントはチャットボットとはシステム構造が根本的に異なり、今までに経験したことがない重大なリスクを内包している。エージェントは「ツールを使う機能」を実装しており、人間のようにアプリやサービスを使うことができる。エージェントがメールにアクセスし受信メールを読み、顧客管理システム「CRM」や人事管理システム「HR」を操作するなど、幅広い権限が与えられている。エージェントがこれらシステムを使うことで、人間のように業務を遂行することができる。しかし、エージェントが操作を間違えると重大な問題が発生する。

エージェントのリスク

エージェントは人間の社員とは異なり、指示されたタスクを朴訥に実直に実行する。エージェントはタスクに関連する背景情報などコンテクストを理解することなく、プロンプトを忠実に実行する。例えば、社内イベントを企画実行する際に、エージェントはホテルの予約で4万ドルを出費するなど、巨額の経費を承認なく出費するリスクを抱える。また、エージェントは人事システムから個人情報を読み取り外部にリークする危険性がある。Slackなどのコミュニケーションツールから、企業の製品計画など機密情報をリークする重大なリスクを内包している。

アクション・コントロール

Ciscoは「Zero Trust framework」をセキュリティの基盤としており、これを人間からエージェントに拡張する戦略を取る。エージェントは人間とは異なるリスクを内包しており、独自のセキュリティ・フレームワークを構築した(下の写真)。人間のセキュリティは「アクセス・コントロール」が基本指針となる。これは利用者を審査しIDとパスワードを授与し、限定された領域でアクセスを許諾する仕組みとなる。これに対しエージェント向けに「Agentic Identity and Access Management (IAM)」というフレームワークを導入した。Agentic IAMとは、人間に代わり業務を遂行するエージェントを把握し、そのIDを管理し、エージェント運用の責任者を登録する方法となる。コンセプトは、エージェントに許諾する権限をタスク遂行時だけに留め、活動範囲を最小限に制約することを基本指針とする。

出典: RSAC

オープンソースとして公開

CiscoはAIエージェントのセキュリティに関するツールをオープンソースとしてGitHub公開した(下の写真)。これは「Cisco AI Defense」と呼ばれ、エージェントのスキルをスキャンする機能「Skill-Scanner」や、MCPサーバのセキュリティを検証するツール「MCP-Scanner」などが公開されている。企業はこれをダウンロードしてエージェント・セキュリティを強化できる。

出典: Cisco

DefenseClaw」をリリース

この中で「DefenseClaw」が注目されている。DefenseClawはオープンソースのセキュリティとガバナンスのフレームワークで(下の写真)、ここで人気のエージェント「OpenClaw」を安全に運用することができる。DefenseClawは三つのコア技術で構成され、エージェントの安全性を審査し、また、実行時にはエージェントの挙動を継続してモニターする:

  • 実行前の審査:エージェントをインストールする前にその機能を審査し安全性を確認する。具体的には上述のスキル審査「Skill-Scanner」やMCPサーバの審査「MCP-Scanner」を実行する。
  • 実行時の監視:稼働前にエージェントは安全であることを確認するが、実行時に危険なモデルに転身する可能性がある。このため、実行時にメッセージやプロンプトをモニターし安全性を監視する。
  • ポリシー:管理者は稼働可能なエージェントと稼働不可なエージェントのリストを作り運用を管理する。エージェントが許可されていないスキルを使うと、エージェントの運用を停止する。
出典: Cisco

OpenClawとは

OpenClawとは個人向けのAIエージェントで、秘書のように生活や仕事をサポートする。OpenClawは知的なAIエージェントであるが、同時に、極めて危険なツールでもある。セキュリティ業界は一斉にOpenClawを企業が安全に利用するためのセーフティ技術の開発を始めた。NvidiaはOpenClawを安全に運用するための実行ライブラリ「OpenShell」を投入した。CiscoはNvidiaと提携し、DefenseClawをOpenShellのフレームワークで運用する計画を発表した。

出典: OpenClaw

セキュリティ = AI

展示会場にはセキュリティ主要企業がブースを設置し最新技術をアピールした。RSA Conferenceの展示会場は「North Expo(北展示場)」と「South Expo(南展示場)」の二か所に分かれている。北展示場にはIT企業が、南展示場にはセキュリティ企業が集う構成となっていた。AIがセキュリティのコア技術になり、IT企業はAIをセキュリティに応用するアプローチを取る。ここにはCiscoをはじめ(下の写真)、Google、Microsoft、IBMなどがブースを構えていた。「セキュリティ=AI」という位置づけが鮮明になり、IT企業が集う北展示場が大変賑わっていた。

出典: VentureClef

AIがセキュリティ企業の製品を置き換える!?Anthropicはソフトウェアのセキュリティを強化する機能「Claude Code Security」を公開、AIがコードベースをスキャンし脆弱性を検知

Anthropicはソフトウェアのセキュリティを強化する機能「Claude Code Security」をリリースした。これは、コーディング・エージェント「Claude Code」に搭載された機能で、コードベースをスキャンしてセキュリティの脆弱性を洗い出す。また、Claude Code Securityは、セキュリティホールを改修するためのコードを生成する。既に、AnthropicはClaude 4.6でオープンソースをスキャンして、500件のセキュリティホールを検知している。Claude Code Securityによりセキュリティ製品が不要になり、主要セキュリティ企業の株価が一様に下落した。

出典: Anthropic

Claude Code Securityとは

「Claude Code Security」はコーディング・エージェント「Claude Code」に実装されている。Claude Codeの初期画面で「Scan Code」のボタンをクリックして起動させる(下の写真)。Claude Code Securityはコードベースをスキャンしてセキュリティの欠陥や弱点(脆弱性)を検知して、これを修正するための修正コード(パッチ)を生成する。エンジニアがこれを検証してソフトウェアに適用するプロセスとなる。Claude Code Securityはベータ版として一部の研究者向けに公開され評価作業を進めている。

出典: Anthropic

従来のセキュリティ手法

コードベースをスキャンしてセキュリティの脆弱性を検知するツールは幅広く使われている。「SonarQube」や「Checkmarx」などがその代表で、コードベースをスキャンして安全性に関する問題点を見つけ出す(下の写真)。これらは開発中のコードベースを検証し、セキュリティに関する問題点を洗い出すために使われる。その手法は「Static Application Security Testing」と呼ばれ、事前に設定したルールに準拠してセキュリティホールを検知する仕組みとなる。

出典: SonarQube

Claude Code Securityの手法

これに対し、Claude Code SecurityはAIモデルをベースとし、インテリジェントな手法でセキュリティの脆弱性を検知する。Claude Code Securityは人間のようにコードを読み、その構造や意味を理解する。これにより、コンテクストの視点から問題点やエラーを見つけ出す。シンタックスにエラーがなく、正常にコンパイルでき、スペック通り機能するコードでも、コードのロジックを検知し問題点を見つけ出す。

Claude Code Securityが脆弱性を検知した事例

EコマースサイトでClaude Code Securityがセキュリティホールを検知した事例(下の写真)。このサイトはハッカーがデータに攻撃命令「Command Injection」を挿入しシステムの制御を奪う脆弱性がある。コードが外部ウェブサイトのデータを読み込む構造となっており、ハッカーはデータにShell Command(基本ソフトを操作する命令)を挿入すると、このコマンドが実行されEコマースサイトの制御を奪われる。

出典: Anthropic

プルリクエストとマージ

Claude Code Securityはセキュリティの脆弱性を埋めるためにパッチを生成する。このパッチをそのままソフトウェアに適用するのではなく、人間がこれを検証して、正しいことを確認して実施するプロセスとなる。ソフトウェア開発の観点からは、Claude Code Securityが修正コードを生成して、チームメイト(人間)にこの検証を依頼する。これは「プルリクエスト(Pull Request)」と呼ばれ、この過程をClaude Code Securityが担う。人間がリクエストされたコードを検証し、正しいことを確認して、メインのコードに「マージ(Merge)」するプロセスとなる。最終判断はあくまで人間で、修正コードの責任は人間が担う。(下の写真、Claude Code Securityが生成したパッチ。上述の「Shell Command」を実行する命令が消去され、ハッカーは悪意あるコマンドをインジェクトしても、それはテキストとして処理され実行されない。)

出典: Anthropic

セキュリティ企業の株価下落

AnthropicがClaude Code Securityをリリースした直後に、米国の主要セキュリティ企業の株価が下落した(下のグラフ)。セキュリティ大手のCrowdStrikeは8%、Zscalerは11%、下落した。現行のセキュリティ製品はルールベースで脆弱性を検知するが、Claude Code Securityは人間のようにコンテンツを理解してセキュリティホールを埋める。投資家の間で現行モデルがClaude Code Securityに置き換えられるとの懸念が広がっている。

出典: SeekingAlpha

セキュリティ企業の反論

これに対し、セキュリティ企業はClaude Code Securityは市場の一部をカバーするだけで、その影響は限定的であると反論している。セキュリティの対象分野は広く、Claude Code Securityは「Application Security」に区分される。これは、ソフトウェアなどアプリケーションのセキュリティを対象とする。この他に、サイバー攻撃をリアルタイムで検知する「Endpoint Security」、ファイアーウォールなど「Network Security」、認証管理など「Identity Management」など幅広い分野でセキュリティ製品が活躍している。Claude Code Securityは製品ポートフォリオのごく一部で、影響の範囲は限られると主張する。

シンメトリックな脅威

サイバー攻撃とその防御は「シンメトリックな脅威(Symmetric Threats)」と呼ばれる。サイバー攻撃ではAIを悪用し、システムの脆弱性を見つけ出し、そこから侵入してシステムの制御を奪う。これに対し、防御側はAIを活用し、システムをスキャンして脆弱性を洗い出し、問題個所を修正する。また、AIでサイバー攻撃のシグナルを検知し、侵入を食い止める。攻撃側と防御側で技術競争が進む中、防御側は攻撃者より一歩先行することで攻撃を食い止める。このため、高度なAIセキュリティを開発することが国家安全保障にとって至上命題となる。

中国企業がAnthropicのAI技術を盗用、DeepSeekなどが「知識蒸留」という手法でClaudeの推論機能を抽出、短期間で高度なAIモデルを開発できた理由が判明

Anthropicは中国企業からAIモデルの知識を盗み出す攻撃を受けたことを明らかにした。DeepSeekなど中国企業は「知識蒸留(Knowledge Distillation)」という手法で、Anthropicの先進モデル「Claude」から推論機能などを抽出した。米国政府はGPUプロセッサを中国に輸出することを制限しているが、中国企業はClaudeの知識を抽出することでこの規制を迂回した。攻撃手法は巧妙で、中国企業は巨大ネットワークを構築し、多数のアカウントから発信元情報(IPアドレス)を偽り、Anthropicのサーバにアクセスした。DeepSeekが短期間で高機能なAIモデルを開発し米国市場に衝撃を与えたが、Anthropic Claudeのスキルを盗用することでこれを達成したことが判明した。

出典: Anthropic

攻撃の概要

Anthropicは2月23日、中国企業DeepSeek、 Moonshot、MiniMaxから「知識蒸留(Knowledge Distillation)」という手法で大規模な攻撃を受けたことを発表した。これら企業は、Anthropic Claudeから不正な手法で知識を蒸留(Illicit Distillation)し、AIモデルの開発で利用した。知識蒸留はAI開発で一般的に使われる技法であるが、他社の技術を抽出することは違法行為となる。

知識蒸留とは

知識蒸留は大規模モデルのスキルを抽出し、それを小規模モデルに転移し、短時間・低コストでAIモデルを開発する手法となる(下の写真)。AI開発で幅広く使われており、Anthropicのケースでは、ハイエンドモデル「Opus」の知識を知識蒸留の手法でローエンドモデル「Haiku」に転移した。HaikuはOpusの多くのスキルを修得し、モデルの開発を短時間・低コストで達成した。

出典: Jianping Gou et al.

不正な知識蒸留

これに対し中国企業三社は、知識蒸留の手法を、先進技術を盗むために悪用した。中国企業が標的とした先進技術はClaudeのAIエージェントに関連するもので、推論機能、コーディング機能、ツールを使う機能などが抽出された。攻撃の規模は巨大で、24,000の不正アカウントから1600万回のアクセスを受けた。不正な知識蒸留はAnthropicの使用契約に違反するだけでなく、米国の輸出規制にも抵触する。

中国への輸出規制

米国政府はNvidia GPU最新モデルなどAIプロセッサを中国に輸出することを規制している。中国企業がGPU最新モデルで高度なAIを開発することを制限することを目的とする。同時に、米国政府は中国から米国のAIモデルにアクセスすることを禁止している。プロセッサだけでなくソフトウェアに関しても、中国企業が使うことを禁じている。中国企業はGPU最新モデルが使えない環境で、Anthropic Claudeの知識を盗用することで、短期間で高度なモデルを生成した。

中国企業三社の攻撃手法

中国企業からの攻撃は大規模で、巧妙なネットワークを構築することで、Anthropicの防衛網を突破した。また、中国企業三社の攻撃対象技術は異なり、開発している製品に必須な技術を抽出したことが分かる。企業ごとの攻撃の手法は:

  • DeepSeek:15万回のアクセスで推論機能を抽出  [高度な推論機能を持つ「DeepSeek-R1」をリリースしAI市場に衝撃をもたらした](下の写真)
  • Moonshot AI:340万回のアクセスでエージェント機能とコーディング機能を抽出  [大容量メモリ(コンテキストウィンドウ)を搭載するモデル「Kimi」を開発]
  • MiniMax:1300万回のアクセスでコーディング機能とツールを使う機能を抽出  [パーソナリティやマルチモダル機能に特徴がある個人向けのAIモデル「Talkie」を開発]
出典: DeepSeek

DeepSeekのケースを検証すると

DeepSeekの攻撃手法を検証すると中国企業のAI開発戦略の特殊性が浮かび上がる。DeepSeekの攻撃は三つの要素から構成され、短期間で高度な推論モデルを開発できた理由が分かる。

  • 推論スキルの抽出:攻撃の目的は知識蒸留でClaudeに15万回アクセスしてスキルを盗み出した。DeepSeekのターゲットは推論機能で、Claudeに特殊なプロンプトを入力し、Claudeが思考する過程「Chain of Thoughts」を入手した。このChain of ThoughtsをDeepSeek R1に入力することで推論機能をコピーした。
  • 同期型トラフィック:DeepSeekは巧妙な手法でAnthropicの防御システムを掻い潜った。単一のアカウントから大量のプロンプトを発信すると、攻撃のシグナルと判定され、Anthropicはトラフィックを遮断する。このため、多数のアカウントから構成されるネットワーク「Hydra Network」を構築し、アカウント間でClaudeへのアクセス時間を調整し、ロードバランシングによる攻撃を実行した。単一のアカウントからのアクセス時間を短くし、作業を持ち回りで実行した。
  • 中国政府の検閲:中国政府はAIモデルが中国共産党の思想に準拠することを求める。DeepSeekは天安門事件など不都合な情報を出力することは禁止されている。しかし、出力を抑制すると利用者から知識が不十分と批判される。そのため、DeepSeekはClaudeに最適な解答モデルを生成することを求め、この回答をベースにDeepSeekを教育した。

知識蒸留の危険性

Anthropicは、中国企業がClaudeの知識をコピーすることで、基礎研究のフェイズをスキップして、短期間に米国モデルに追い付くことができる、と警鐘を鳴らした。更に、Claudeのスキルが抜き取られると、中国のAIモデルが高度なインテリジェンスを持ち、それが悪用されると重大なリスクが発生する。AnthropicはClaudeが悪用されてCBRN(Chemical, biological, radiological, nuclear)兵器を開発することを抑制するため、ガードレールを設け兵器開発に関する回答をブロックしている。しかし、中国企業がガードレールを設けないでそのまま使うと、CNRN兵器の開発に繋がり、世界の安全保障が脅かされる。

OpenAIの議会報告書

OpenAIはこれに先立ち、米国連邦議会下院の委員会に、中国企業による知識蒸留に関する報告書を提出した。OpenAIは、DeepSeekが知識蒸留の手法でOpenAI GPT-4やo1からスキルをコピーしたと述べ、中国企業は短期間で度高度な推論モデルを生み出したと結論付けた。また、DeepSeekは第三者のプロキシサービス(「Obfuscated Proxy」、デバイスが米国内にあるよう装う手法)を使ってOpenAIの制限を掻い潜った。OpenAIは中国からのアクセスを禁止しするためジオブロッキングを導入しているが、Obfuscated Proxyを使うことでこれを突破した。

出典: Google Gemini Pro Image

AIモデルへのサイバー攻撃は多彩

AIモデルはサイバー攻撃への耐性が低くセキュリティ強化が課題となってきた。AIモデルへのサイバー攻撃は四種類に区分され(上の写真)、知識蒸留は「Model Extraction」という攻撃手法となる。AIモデルに特殊なプロンプトを入力し、アルゴリズムの中身を盗み出す攻撃となる。この他に、AIモデルは教育と実行の過程でサイバー攻撃を受ける。前者は教育データを汚染する手法で、「Poisoning Attacks」と呼ばれ、開発されたモデルは正常に稼働しない。後者は実行時に、AIモデルに悪意あるデータを入力するもので「Evasion Attacks」と呼ばれ、システムを誤作動させる。この他に、AIモデルのバイアスや重みを改ざんし、システムを誤作動させる「Model Tempering」という攻撃がある。AnthropicとOpenAIだけでなく、高度なAIモデルを運用している企業はサイバー攻撃を受ける可能性が高く、セキュリティを強化することが喫緊の課題となる。

AGI(人間を超えるAI)がリリースされると社会は重大なリスクに直面する、未成熟なAIと共に成長する戦略は

AnthropicのCEOであるDario Amodeiは、人間の知能を超えるAIモデルAGIの出荷を目前に控え、モデルが内包する危険性を評価し社会や企業が取るべき施策を提言した(下の写真、イメージ)。Amodeiは、現在のAGIを未成長のインテリジェンスと認識し、これを技術の思春期「Technology Adolescence」と呼び、五つのリスクがあると指摘する。同時に、未熟な技術を制御するためのパラダイムを示し、社会は不安定なAGIと共棲し、将来に期待される多大な恩恵に備えるべきと提言した。

出典: Generated with Google Gemini 3.0 Pro Image 

技術の思春期とは

AnthropicのCEOであるDario Amodeiはダボス会議の直後に「The Adolescence of Technology (技術の思春期)」という構想を公開し、AGIが投入されると社会が大きく混乱するとの見解を示した。このプロセスを人間が子供から大人に成長する過程の思春期に例え、AGIがこのステージにあると説明した。Amodeiは、AGIの開発を中止するのではなく、上手く制御することで将来に大きな恩恵が期待できるとし、リスクを制御する戦略を示し社会に寛容な応対を求めた。

AGIのイメージ

AmodeiはAGIを人間の知能を遥かに超えるAIモデルと考える。AGIはアインシュタインなど歴代の天才が多数集結したモデルで、「Mixture of Experts(専門家の集合)」という構成を取る(下の写真、AGIのイメージ)。AGIは5000万のAIエージェントから構成され、これら専門家が大規模並列にタスクを実行する。AGIは経済に大きな恩恵をもたらすと同時に、軍事技術として展開され、国家間でAI覇権を目指して激烈な開発競争が進んでいる。AnthropicはAGIのリリースを2026年から2027年に予定しており出荷が目前に迫っている。(AmodeiはAGIという用語はSF映画のネガティブなイメージが大きくこれを「Powerful AI」と表現する。ここでは用語を統一するためAGIと表記する。)

出典: Generated with Google Gemini 3.0 Pro Image 

AGIリスク#1:危険な自律性

Amodeiは、AGIは未成熟な技術で重大なリスクを内包しており、社会は思春期の技術を受け入れ、これと共生することを提言した。AGIは高度に自律的に稼働する機能を持ち、人間の社員のように挙動する。同時に、AGIは人間のように相手を欺く機能を獲得し、自身の目的を完遂するために噓をつく。

  • Deceptive Alignment(偽の安全性):アルゴリズム開発でモデルは危険性など問題点を隠し、エンジニアを騙す挙動などが指摘される。SF映画でAGIはターミネーターとして人類を滅ぼすシナリオで描かれるが、実際には、AGIのリスクは巧妙で、これを検知するには技量を要す。
  • Reward Hacking(報酬ハッキング):AIモデルは目的を達成して報酬を得るためには手段を選ばないという挙動を示す。企業の収入を増やすことを命令すると、AGIはそれを達成するために違法な手段(会計情報操作など粉飾決算)を選択する。これらを人間が検知することが難しく企業の信用低下につながる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:モデルの改良   AGIが高度な自律性を獲得し危険な挙動を示すリスクに対しては、モデルのアルゴリズムを解明し、これを技術的に抑止する。Anthropicは「Responsible Scaling Policies」という安全ポリシーを制定しており、この問題が解決できるまでは製品をリリースしない方針を取る。

AGIリスク#2:兵器開発への悪用

AGIが悪用されると民主主義を揺るがす事態が発生する。バイオ兵器の製造やサイバー攻撃技術の開発には専門知識と技能が必要であるが、AGIが悪用されると兵器開発への敷居が下がる。個人や国家がAGIを悪用することで、高度な兵器が開発されるリスクが高まり、安全保障が脅かされる。

  • Democratization of Harm(攻撃手段の民主化):AGIはサイバー攻撃の武器として使用され大規模な攻撃が懸念される。AGIが国のインフラを構成するソフトウェアをスキャンし、ゼロデイ攻撃の脆弱性を検知し、ここに攻撃を展開する。人間による攻撃は件数が限られるが、AGIは並列に稼働しインフラ全体に複数の攻撃を展開し重大な被害をもたらす。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIの脅威にAGIで備える   AGIを悪用してバイオ兵器やサイバー攻撃ツールが開発されることに対し、これらの攻撃をAGIで防御する。サイバー攻撃を受けることを想定して、AGIで社会インフラのソフトウェアをスキャンし、脆弱性を検出し、セキュリティホールを改修する。

AGIリスク#3:監視社会

AGIを使って国民を管理する危険性が現実のものとなる。中国などの独裁国家は国民を監視し、情報検閲を強化するためにAGIを使う。また、AGIで政治プロパガンダを生成し、国民や世論を操作することが現実の手段となる。独裁国家がこの手法を自国だけでなく同盟国に輸出し、グローバルに監視社会が生まれることになる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:同盟国で世界標準を制定   独裁国家がAGIで国民を監視する体制を制定することに対し、米国は欧州や日本などの同盟国と協調し、AGI技術でリードを守る。同盟国間でAGIの安全性に関する基準や標準を制定し、これをグローバルに拡大する。

AGIリスク#4:経済の混乱

AGIの導入により労働市場が崩壊する。AGIが人間の労働者より安価で高速で仕事をこなすと人間の労働力の価値がゼロとなる。社会で大量の失業者が生まれ、利益が一部の企業に集中する。いまの社会制度はこの劇的な変化を受け入れる構造ではなく、国家経済が大混乱となる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:富の分配   AGIで富が一部の企業に集中し社会が不安定になるが、富を分配することで社会経済を安定化する。新たな社会制度の確立が必要で、政府は「Universal Basic Income」や「Universal High Income」の制度を導入する。社会保障制度の財源はAGIで利益を得た企業への課税で賄う。

AGIリスク#5:予想不可能なリスク

AGIにより社会変化の速度が速く、国民が精神的に不安定となり、国家の秩序や文化が崩れる危険性に直面する。過去にも技術進化で社会が変化したが、AGIはこの速度が劇的に速く、人の生きがいが希薄になり、国家の安定が脅かされる。

  • Epistemic Collapse (認識の崩壊):AGIはデジタル空間で、歴史を書き換え、科学論文を執筆し、フェイクニュースを発信し、ディープフェイクを生成する。AGIによる合成データと真実を判別することができなくなる。真実の基盤を失うと民主主義が不安定となる。
  • Crisis of Meaning (意味の喪失): AGIが人間より卓越した音楽を作曲し、小説を創作し 、科学研究で大きな成果を上げると、人間の存在感が希薄となり、社会が不安定となる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIで合成データを検知   AGIでフェイクイメージなど合成データが生成され真偽の判別が不可能となる。これに対し、AGIを使うことで合成データを検知する技法を開発する。ウォータマーキングを導入し、AGIで生成したコンテンツと人間のものを判別する。

人間社会が成熟する必要性

AmodeiはAGIのリスクを制御するためには、社会全体が成長する必要があると強調する。社会は核兵器の脅威に備え、国際法を制定し、安全に関する共通理解を構築し、リスクを低減してきた。AGIに関しても、社会が成長してこのリスクに対応するための施策を実施する。2026年から2027年にかけてAGIがリリースされる予定で、思春期の技術を制御しこれと共生するためのパラダイムの構築が求められる。

女性の服を脱がせるAIモデルが水面下で爆発的に普及、法規制が進むが被害が増大、AIがディフージョンモデルに進化し大量のコンテンツが生成される

女性の服を脱がせるAIツール「Nudification」が水面下で爆発的に広がっている。Nudificationとはヌードに変換するという意味で、早くから使われてきたが、AI技法が進化し使い方が容易になり、大量のコンテンツが生成されている。同意を得ない性的なイメージが殆どで、被害件数が急増している。連邦政府はヌード化されたコンテンツを掲載することを禁止する法令を制定し、AI規制の第一歩を踏み出した。しかし、Nudificationの使用を禁止するものではなく、効果は限定的で、多くの課題が積み残されている。

出典: Generated with OpenAI GPT-5

Nudificationとは

「Nudification」とはヌードイメージを生成する技法を指し、写真に写っている女性の服を脱がせるツールとして使われている。技術的な視点からは、AIモデルが女性の全体像を解析し、そこから衣服の部分を特定(Segmentation)する。次に、この部分(マスク)を含め、身体の構成(手足や胴体など)を推定する(Pose Prior)。更に、この基本情報を元に、AIモデルがマスクに肌や質感などをペイント(Inpainting)する。AIモデルは身体に関するデータを学習しており、高精度で身体を再現する。一般に、フェイクイメージを生成する技法は「ディープフェイク(DeepFakes)」と呼ばれ、Nudificationはこの主要コンポーネントとなる。

フェイクイメージ生成技法

マスク部分に肌をペイントする技法は、今までは「Generative Adversarial Networks (GANs)」というAIモデルが使われてきた。GANは二つのAIモデル、「生成ネットワーク(Generator)」と「識別ネットワーク(Discriminator)」で構成され、両者が競い合ってリアルなイメージを生成する(下の写真)。具体的には、生成ネットワークがイメージを出力し、識別ネットワークがその真偽を判定する。このプロセスを繰り返し、識別ネットワークが偽イメージを見抜けない段階に達し、リアルなイメージが完成する。この手法で人物や風景などのフェイクイメージが生成されてきたが、これが女性を裸にするツールに適用され重大な社会問題を引き起こした。

出典: Google

ディフュージョンモデルに進化

一方、GANを使うには技術を要し、また、その出力は完成度が低く、リアルなヌードイメージを生成するにはスキルを要した。今では、フェイクイメージを生成するための技法として「ディフュージョンモデル(Diffusion Model)」が幅広く使われている。ディフュージョンモデルとはアルゴリズムを教育する手法で、イメージにノイズを付加し、それを取り除くスキルを学ぶことでハイパーリアルな写真を生成する(下の写真)。

出典: Stable Diffusion

ディフュージョンモデルをNudificationに適用

ディフュージョンモデルは言葉に従って高精度なイメージを生成する機能を持つ。更に、入力された写真を編集する機能(Inpainting)があり、この技法がNudificationで使われる。新興企業Stable Diffusionはこの手法でリアルなイメージを生成し、Inpainting機能で写真のマスク部分を編集する機能を持つ(下の写真)。最新のディフージョンモデルは「ディフージョン・トランスフォーマ(Diffusion Transformer)」を搭載し、高品質な画像を大量に生成できるようになった。GPT-5などフロンティアモデルの基礎技術がNudificationで使われ、高品質なフェイクイメージが大量生産される時代になった。

出典: Stable Diffusion

Nudificationの事例

市場には数多くの種類のNudificationサイトやアプリがあり、ここで大量のコンテンツが生成されている。その代表は「CrushAI」というアプリで簡単な操作でヌードイメージを生成する(下の写真)。このアプリは香港に拠点を置く企業Joy Timeline HK Limitedが開発した。対象とする人物の写真をアップロードし、「Erase now」ボタンを押すと、AIモデルが衣服の部分を肌に書き換え、女性を裸にしたイメージを生成する。シンプルなインターフェイスで技術知識なしに使うことができ、市場で急速に利用が広がっている。非営利団体BellingcatがNudificationツールを追跡し、被害の状況をレポートしている。

出典: Bellingcat

MetaはCrushAIを提訴

CrushAIの利用が急拡大した背景には、ソーシャルメディアで広告を掲載し、利用者をサイトに誘導したことにある。CrushAIはFacebookやInstagramにアプリの広告を掲載し、ヌード化の機能をアピールした。これに対しMetaは、Joy Timeline HK Limitedは利用規定に反して広告を掲載したとして同社を訴訟した。Metaは同意を得ない性的なイメージを生成するツールを広告することを禁止している。

アメリカ連邦政府

社会でNudificationの被害が拡大する中、連邦議会は非同意の性的イメージを公開することを禁止する法令「The TAKE IT DOWN Act」を制定した(下の写真)。また、性的イメージを掲載するプラットフォームに対して、これを削除することを求めている。連邦政府はAI規制に消極的なポジションを取るが、性的な被害が拡大する中、対策に向けて一歩を踏み出した。一方で、この法令は個人が非同意の性的イメージを生成することは禁止しておらず、被害の拡大を食い止めることはできていない。特に、裸体のイメージで対象者を脅す「セクストーション(sextortion)」の被害が米国で急増している。

出典: Joyful Heart Foundation

ディープフェイクと表現の自由

AI技術は急速に進化し規制法はこのスピードに追随できない現状が改めて明らかになった。ディープフェイクは敵対国がアメリカの世論を操作する手段として使われるとして警戒をしてきたが、実際には、Nudificationによる被害が広がり、この対策が喫緊の課題となっている。アメリカは憲法修正第1条(First Amendment to the United States Constitution)で表現の自由(Freedom of expression)を定めており、国民は公権力によって規制されることなく、自由に思想や意見を主張する権利を持つ。有害なディープフェイクを規制する根拠となる考え方について議論が進んでいる。