カテゴリー別アーカイブ: セキュリティ

AGI(人間を超えるAI)がリリースされると社会は重大なリスクに直面する、未成熟なAIと共に成長する戦略は

AnthropicのCEOであるDario Amodeiは、人間の知能を超えるAIモデルAGIの出荷を目前に控え、モデルが内包する危険性を評価し社会や企業が取るべき施策を提言した(下の写真、イメージ)。Amodeiは、現在のAGIを未成長のインテリジェンスと認識し、これを技術の思春期「Technology Adolescence」と呼び、五つのリスクがあると指摘する。同時に、未熟な技術を制御するためのパラダイムを示し、社会は不安定なAGIと共棲し、将来に期待される多大な恩恵に備えるべきと提言した。

出典: Generated with Google Gemini 3.0 Pro Image 

技術の思春期とは

AnthropicのCEOであるDario Amodeiはダボス会議の直後に「The Adolescence of Technology (技術の思春期)」という構想を公開し、AGIが投入されると社会が大きく混乱するとの見解を示した。このプロセスを人間が子供から大人に成長する過程の思春期に例え、AGIがこのステージにあると説明した。Amodeiは、AGIの開発を中止するのではなく、上手く制御することで将来に大きな恩恵が期待できるとし、リスクを制御する戦略を示し社会に寛容な応対を求めた。

AGIのイメージ

AmodeiはAGIを人間の知能を遥かに超えるAIモデルと考える。AGIはアインシュタインなど歴代の天才が多数集結したモデルで、「Mixture of Experts(専門家の集合)」という構成を取る(下の写真、AGIのイメージ)。AGIは5000万のAIエージェントから構成され、これら専門家が大規模並列にタスクを実行する。AGIは経済に大きな恩恵をもたらすと同時に、軍事技術として展開され、国家間でAI覇権を目指して激烈な開発競争が進んでいる。AnthropicはAGIのリリースを2026年から2027年に予定しており出荷が目前に迫っている。(AmodeiはAGIという用語はSF映画のネガティブなイメージが大きくこれを「Powerful AI」と表現する。ここでは用語を統一するためAGIと表記する。)

出典: Generated with Google Gemini 3.0 Pro Image 

AGIリスク#1:危険な自律性

Amodeiは、AGIは未成熟な技術で重大なリスクを内包しており、社会は思春期の技術を受け入れ、これと共生することを提言した。AGIは高度に自律的に稼働する機能を持ち、人間の社員のように挙動する。同時に、AGIは人間のように相手を欺く機能を獲得し、自身の目的を完遂するために噓をつく。

  • Deceptive Alignment(偽の安全性):アルゴリズム開発でモデルは危険性など問題点を隠し、エンジニアを騙す挙動などが指摘される。SF映画でAGIはターミネーターとして人類を滅ぼすシナリオで描かれるが、実際には、AGIのリスクは巧妙で、これを検知するには技量を要す。
  • Reward Hacking(報酬ハッキング):AIモデルは目的を達成して報酬を得るためには手段を選ばないという挙動を示す。企業の収入を増やすことを命令すると、AGIはそれを達成するために違法な手段(会計情報操作など粉飾決算)を選択する。これらを人間が検知することが難しく企業の信用低下につながる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:モデルの改良   AGIが高度な自律性を獲得し危険な挙動を示すリスクに対しては、モデルのアルゴリズムを解明し、これを技術的に抑止する。Anthropicは「Responsible Scaling Policies」という安全ポリシーを制定しており、この問題が解決できるまでは製品をリリースしない方針を取る。

AGIリスク#2:兵器開発への悪用

AGIが悪用されると民主主義を揺るがす事態が発生する。バイオ兵器の製造やサイバー攻撃技術の開発には専門知識と技能が必要であるが、AGIが悪用されると兵器開発への敷居が下がる。個人や国家がAGIを悪用することで、高度な兵器が開発されるリスクが高まり、安全保障が脅かされる。

  • Democratization of Harm(攻撃手段の民主化):AGIはサイバー攻撃の武器として使用され大規模な攻撃が懸念される。AGIが国のインフラを構成するソフトウェアをスキャンし、ゼロデイ攻撃の脆弱性を検知し、ここに攻撃を展開する。人間による攻撃は件数が限られるが、AGIは並列に稼働しインフラ全体に複数の攻撃を展開し重大な被害をもたらす。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIの脅威にAGIで備える   AGIを悪用してバイオ兵器やサイバー攻撃ツールが開発されることに対し、これらの攻撃をAGIで防御する。サイバー攻撃を受けることを想定して、AGIで社会インフラのソフトウェアをスキャンし、脆弱性を検出し、セキュリティホールを改修する。

AGIリスク#3:監視社会

AGIを使って国民を管理する危険性が現実のものとなる。中国などの独裁国家は国民を監視し、情報検閲を強化するためにAGIを使う。また、AGIで政治プロパガンダを生成し、国民や世論を操作することが現実の手段となる。独裁国家がこの手法を自国だけでなく同盟国に輸出し、グローバルに監視社会が生まれることになる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:同盟国で世界標準を制定   独裁国家がAGIで国民を監視する体制を制定することに対し、米国は欧州や日本などの同盟国と協調し、AGI技術でリードを守る。同盟国間でAGIの安全性に関する基準や標準を制定し、これをグローバルに拡大する。

AGIリスク#4:経済の混乱

AGIの導入により労働市場が崩壊する。AGIが人間の労働者より安価で高速で仕事をこなすと人間の労働力の価値がゼロとなる。社会で大量の失業者が生まれ、利益が一部の企業に集中する。いまの社会制度はこの劇的な変化を受け入れる構造ではなく、国家経済が大混乱となる。

出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:富の分配   AGIで富が一部の企業に集中し社会が不安定になるが、富を分配することで社会経済を安定化する。新たな社会制度の確立が必要で、政府は「Universal Basic Income」や「Universal High Income」の制度を導入する。社会保障制度の財源はAGIで利益を得た企業への課税で賄う。

AGIリスク#5:予想不可能なリスク

AGIにより社会変化の速度が速く、国民が精神的に不安定となり、国家の秩序や文化が崩れる危険性に直面する。過去にも技術進化で社会が変化したが、AGIはこの速度が劇的に速く、人の生きがいが希薄になり、国家の安定が脅かされる。

  • Epistemic Collapse (認識の崩壊):AGIはデジタル空間で、歴史を書き換え、科学論文を執筆し、フェイクニュースを発信し、ディープフェイクを生成する。AGIによる合成データと真実を判別することができなくなる。真実の基盤を失うと民主主義が不安定となる。
  • Crisis of Meaning (意味の喪失): AGIが人間より卓越した音楽を作曲し、小説を創作し 、科学研究で大きな成果を上げると、人間の存在感が希薄となり、社会が不安定となる。
出典: Generated with Google Gemini 3.0 Pro Image 
  • 防衛戦略:AGIで合成データを検知   AGIでフェイクイメージなど合成データが生成され真偽の判別が不可能となる。これに対し、AGIを使うことで合成データを検知する技法を開発する。ウォータマーキングを導入し、AGIで生成したコンテンツと人間のものを判別する。

人間社会が成熟する必要性

AmodeiはAGIのリスクを制御するためには、社会全体が成長する必要があると強調する。社会は核兵器の脅威に備え、国際法を制定し、安全に関する共通理解を構築し、リスクを低減してきた。AGIに関しても、社会が成長してこのリスクに対応するための施策を実施する。2026年から2027年にかけてAGIがリリースされる予定で、思春期の技術を制御しこれと共生するためのパラダイムの構築が求められる。

女性の服を脱がせるAIモデルが水面下で爆発的に普及、法規制が進むが被害が増大、AIがディフージョンモデルに進化し大量のコンテンツが生成される

女性の服を脱がせるAIツール「Nudification」が水面下で爆発的に広がっている。Nudificationとはヌードに変換するという意味で、早くから使われてきたが、AI技法が進化し使い方が容易になり、大量のコンテンツが生成されている。同意を得ない性的なイメージが殆どで、被害件数が急増している。連邦政府はヌード化されたコンテンツを掲載することを禁止する法令を制定し、AI規制の第一歩を踏み出した。しかし、Nudificationの使用を禁止するものではなく、効果は限定的で、多くの課題が積み残されている。

出典: Generated with OpenAI GPT-5

Nudificationとは

「Nudification」とはヌードイメージを生成する技法を指し、写真に写っている女性の服を脱がせるツールとして使われている。技術的な視点からは、AIモデルが女性の全体像を解析し、そこから衣服の部分を特定(Segmentation)する。次に、この部分(マスク)を含め、身体の構成(手足や胴体など)を推定する(Pose Prior)。更に、この基本情報を元に、AIモデルがマスクに肌や質感などをペイント(Inpainting)する。AIモデルは身体に関するデータを学習しており、高精度で身体を再現する。一般に、フェイクイメージを生成する技法は「ディープフェイク(DeepFakes)」と呼ばれ、Nudificationはこの主要コンポーネントとなる。

フェイクイメージ生成技法

マスク部分に肌をペイントする技法は、今までは「Generative Adversarial Networks (GANs)」というAIモデルが使われてきた。GANは二つのAIモデル、「生成ネットワーク(Generator)」と「識別ネットワーク(Discriminator)」で構成され、両者が競い合ってリアルなイメージを生成する(下の写真)。具体的には、生成ネットワークがイメージを出力し、識別ネットワークがその真偽を判定する。このプロセスを繰り返し、識別ネットワークが偽イメージを見抜けない段階に達し、リアルなイメージが完成する。この手法で人物や風景などのフェイクイメージが生成されてきたが、これが女性を裸にするツールに適用され重大な社会問題を引き起こした。

出典: Google

ディフュージョンモデルに進化

一方、GANを使うには技術を要し、また、その出力は完成度が低く、リアルなヌードイメージを生成するにはスキルを要した。今では、フェイクイメージを生成するための技法として「ディフュージョンモデル(Diffusion Model)」が幅広く使われている。ディフュージョンモデルとはアルゴリズムを教育する手法で、イメージにノイズを付加し、それを取り除くスキルを学ぶことでハイパーリアルな写真を生成する(下の写真)。

出典: Stable Diffusion

ディフュージョンモデルをNudificationに適用

ディフュージョンモデルは言葉に従って高精度なイメージを生成する機能を持つ。更に、入力された写真を編集する機能(Inpainting)があり、この技法がNudificationで使われる。新興企業Stable Diffusionはこの手法でリアルなイメージを生成し、Inpainting機能で写真のマスク部分を編集する機能を持つ(下の写真)。最新のディフージョンモデルは「ディフージョン・トランスフォーマ(Diffusion Transformer)」を搭載し、高品質な画像を大量に生成できるようになった。GPT-5などフロンティアモデルの基礎技術がNudificationで使われ、高品質なフェイクイメージが大量生産される時代になった。

出典: Stable Diffusion

Nudificationの事例

市場には数多くの種類のNudificationサイトやアプリがあり、ここで大量のコンテンツが生成されている。その代表は「CrushAI」というアプリで簡単な操作でヌードイメージを生成する(下の写真)。このアプリは香港に拠点を置く企業Joy Timeline HK Limitedが開発した。対象とする人物の写真をアップロードし、「Erase now」ボタンを押すと、AIモデルが衣服の部分を肌に書き換え、女性を裸にしたイメージを生成する。シンプルなインターフェイスで技術知識なしに使うことができ、市場で急速に利用が広がっている。非営利団体BellingcatがNudificationツールを追跡し、被害の状況をレポートしている。

出典: Bellingcat

MetaはCrushAIを提訴

CrushAIの利用が急拡大した背景には、ソーシャルメディアで広告を掲載し、利用者をサイトに誘導したことにある。CrushAIはFacebookやInstagramにアプリの広告を掲載し、ヌード化の機能をアピールした。これに対しMetaは、Joy Timeline HK Limitedは利用規定に反して広告を掲載したとして同社を訴訟した。Metaは同意を得ない性的なイメージを生成するツールを広告することを禁止している。

アメリカ連邦政府

社会でNudificationの被害が拡大する中、連邦議会は非同意の性的イメージを公開することを禁止する法令「The TAKE IT DOWN Act」を制定した(下の写真)。また、性的イメージを掲載するプラットフォームに対して、これを削除することを求めている。連邦政府はAI規制に消極的なポジションを取るが、性的な被害が拡大する中、対策に向けて一歩を踏み出した。一方で、この法令は個人が非同意の性的イメージを生成することは禁止しておらず、被害の拡大を食い止めることはできていない。特に、裸体のイメージで対象者を脅す「セクストーション(sextortion)」の被害が米国で急増している。

出典: Joyful Heart Foundation

ディープフェイクと表現の自由

AI技術は急速に進化し規制法はこのスピードに追随できない現状が改めて明らかになった。ディープフェイクは敵対国がアメリカの世論を操作する手段として使われるとして警戒をしてきたが、実際には、Nudificationによる被害が広がり、この対策が喫緊の課題となっている。アメリカは憲法修正第1条(First Amendment to the United States Constitution)で表現の自由(Freedom of expression)を定めており、国民は公権力によって規制されることなく、自由に思想や意見を主張する権利を持つ。有害なディープフェイクを規制する根拠となる考え方について議論が進んでいる。

全米のレガシー・ソフトウェアをAIで書き換えセキュリティを強化する巨大構想「Great Refactor」、コーディングAIエージェントが古い言語(C/C++やCOBOL)を安全な言語(RustやJava)に自動で変換

米国で社会の基幹を担うソフトウェアをAIエージェントで書き換え、システムをモダン化する構想が発表された。これは「Great Refactor」と呼ばれ、レガシー・システムを改修しセキュリティを強化することをミッションとする。米国政府や民間企業は古いシステムを汎用機の上で稼働し基幹業務を実行している。これらレガシー・コードはセキュリティに関し重大な脆弱性を内包しサイバー攻撃の標的になってきた。これらを人間に代わりAIエージェントが書き換えセキュアなシステムを生成する。

出典: Generated with Google Imagen 4

リファクタリングとは

リファクタリング(Refactoring)とはプログラムを書き換える技術で、その機能を変えることなく、コードを改良することで、プログラムをモダン化し、運用性を高める技法を意味する。また、コードを整理することで、読みやすさを増し、保守作業を容易にするために使われる。Great Refactorではセキュリティに重点を置き、古いコードが内包している脆弱性を補強することを目的とする。

レガシー・コードのリスク

レガシー・コードの多くはプログラム言語「C」や「C++」で記述されており、技術的な問題を含んでいる。その代表がメモリ(主記憶)管理機能で、「C」や「C++」で生成されたプログラムはメモリ操作でバグがあり、これがサイバー攻撃の標的となってきた。ランサムウェア「WannaCry」などがメモリ管理のバグをついてシステムに侵入し、システムを暗号化するなど社会に重大な被害をもたらした。

出典: Generated with Google Imagen 4

Great Refactorとは

Great Refactorは「C」や「C++」で開発されたコードを安全な言語「Rust」に書き換える構想となる。対象はオープンソース・ソフトウェアで、AIエージェントがリファクタリングの作業を担う。オープンソース・ソフトウェアは全米で幅広く使われており社会インフラを構成する。その代表が基本ソフト「Linux」で、そのカーネルは「C」で記述されている。また、Linuxの主要ライブラリも「C」で開発されている。例えば、通信暗号化プロトコール「OpenSSL」やリモートログイン「OpenSSH」が社会で幅広く使われているが、これらも「C」で記述されている。Great Refactorはこれらを「C」や「C++」言語から「Rust」言語に書き換える構想となる。

プロジェクトの概要

この構想はワシントンDCに拠点を置くシンクタンク「Institute of Progress」により提唱された。この提言によると、2030年までにレガシー・コードを書き換え、新たなシステムを開発する。新システムは1億ライン(1億行のコードから構成される)システムとなる。開発に要する費用は五年間で1億ドルとなり、これを政府と民間が共同で出資する。ソフトウェア・インフラが強化されることにより、20億ドルの支出を抑えることができると試算している。

AIエージェントの技術進化

ファウンデーションモデルの技術が急速に進化し、そのキラーアプリケーションはコーディング・エージェントという構図が明らかになってきた。AIエージェントが人間の指示に従ってアプリをコーディングする。AIがエンジニアに代わりソフトウェアを開発する時代に突入した。AI企業はコーディング機能を相次いでアップグレードし、Anthropicの「Claude Sonnet 4.5」がトップの性能を持つ。これをOpenAIの「GPT-5 Codex」が追う構図となる。Googleはコーディング・エージェントを製品化していないが、複雑なプログラミングを実行するモデル「AlphaCode」の研究開発を進めている。

出典: Generated with Google Imagen 4

COBOLレガシー

Great Refactorと並行して、政府機関や民間企業はレガシー・システムをモダン化する作業を進めている。これらのシステムはプログラム言語「COBOL」で書かれ、汎用機(Mainframe Computers)で稼働している。システムは50年以上前に開発され、古いアーキテクチャに準拠しており、新しい機能の追加や保守作業が極めて難しい。社会の基幹インフラはこれらレガシー・システムに構築され、基幹サービスをセキュアに安定して提供することが困難な状態が続いている。

レガシーシステムの事例

連邦政府は税金や年金の処理をCOBOLで書かれたレガシー・システムで実行している。また、民間企業では、銀行の基幹システムがレガシー・システムで構築され、負の資産を引きずっている。また、飛行機予約システム「Programmed Airline Reservations System」がCOBOLで記述され、そのシステムがIBMの汎用機の上で稼働している。米国では頻繁に航空機の運用管理や予約業務で障害が発生するが、その根本原因はCOBOLレガシー・システムにある。

出典: Generated with Google Imagen 4

ソフトウェア・インフラをリファクタリング

Great Refactorはオープンソース・ソフトウェアをAIエージェントで書き直しセキュアなシステムを構築するプロジェクトで、AIの進化でこれが実現可能な領域に入ってきた。同時に、米国では汎用機で稼働しているシステムをモダン化するプロジェクト「メインフレーム・リファクタリング(Mainframe Refactoring)」が進んでいる。汎用機で稼働しているレガシー・システムを書き換えてクラウドに移管するモデルで、AWSやGoogle CloudやMicrosoft Azureが推進している。コーディングAIエージェントの急速な進化で、米国のソフトウェア・インフラをリファクタリングする手法に注目が集まっている。

トランプ氏はサイバーセキュリティを強化する大統領令に署名、規制や義務を軽減するが基礎技術はバイデン政権の政策を踏襲、関税政策で混乱するなかIT政策では論理的な指針を示す

トランプ大統領令は6月6日、サイバーセキュリティを強化するための政策に関する大統領令(Executive Order)に署名した。大統領令はバイデン政権の大統領令を修正するかたちで制作され、過度な規制や義務を軽減し、サイバーセキュリティの基礎技術の開発を強化する。最大の脅威は中国とし、サイバー攻撃を防御するため技術開発に関するアクションを規定した。トランプ政権はサイバーセキュリティ政策についてバイデン政権の方針を大きく変更すると述べているが、実際に大統領令を読むと、技術開発については多くの部分を継承している。

出典: Getty Images

サイバーセキュリティ大統領令の概要

トランプ政権の大統領令(EO 13800)はオバマ政権の大統領令(EO 13694)とバイデン政権の大統領令(EO 14144)を修正する構造となっている。大統領令はサイバー攻撃への耐性を高めるために各省庁が取るべきタスクを定めている。対象は、ソフトウェア、AI、量子技術で、安全技術の開発を強化するためのアクション項目と開発スケジュールが規定された。特に、NIST(National Institute of Standards and Technology、国立標準技術研究所)が重要な役割を担い、このプロジェクトの中心組織となる。

出典: The White House

最大の脅威は中国

大統領令は中国(People’s Republic of China)が米国にとって最大の脅威になるとの認識を示している。中国が米国政府や民間企業に対し継続してサイバー攻撃を展開しており、最大の脅威となり、ロシア、イラン、北朝鮮がこれに続く。この情勢の下で、大統領令は国家のデジタルインフラやサービスを守るためのサイバーセキュリティ技術の開発を規定する。対象は、ソフトウェア、量子技術、AIシステムなどで、これらの分野で安全技術を強化するための具体的なアクションを定めている。

ソフトウェア

大統領令はセキュアなソフトウェアを開発するためのフレームワークの開発を規定している。このフレームワークは「Secure Software Development Framework」と呼ばれ、バイデン政権下で商務省配下のNISTが開発したもので、大統領令はこれをアップデートして機能を強化することを求めている。大統領令はアクションのスケジュールを定めており、フレームワークの初版を2025年12月1日にリリースし、その後120日以内に最終版を公開することを規定している。

量子技術

大統領令は量子コンピュータの登場に備え、暗号化技術を強化することを求めている。量子技術の開発が進み、量子コンピュータにより現在利用している暗号技術が破られることになる。この量子コンピュータは「cryptanalytically relevant quantum computer (CRQC)」と呼ばれ、暗号技術を強化する必要がある。既に、米国政府は量子コンピュータに耐性のある暗号技術「post-quantum cryptography (PQC)」の開発を進めている。大統領令はこの研究開発を強化し、安全技術の適用を推進するためのアクションを定めた。具体的には、2025年12月1日までにCISA(Cybersecurity and Infrastructure Security Agency、サイバーセキュリティ・社会基盤安全保障庁)を中心にPQCの製品カタログをアップデートし、連邦政府内でPQCの導入を推進する。

出典: NIST

AIシステム

大統領令はAIシステムのセキュリティを強化することを規定している。AIシステムはサイバー攻撃を防御するツールとなり、同時に、AIシステムがサイバー攻撃への耐性が低いという課題を抱えており、この二つの側面を強化するためのアクションを規定している。AIシステムはサイバー攻撃を検知するための有効な防衛技術で、大統領令は連邦政府の研究成果を大学研究機関に公開することを求めている。また、AIシステムはサイバー攻撃に対する脆弱性を含んでおり、この情報を省庁内で共有することでサイバーセキュリティを強化することを規定している。NISTなどが中心となり、これらのアクションを2025年11月1日までに完了する。

過度な負担の軽減

大統領令は同時に、サイバーセキュリティに関する過度な規制条項を削除した。その事例がデジタルIDで、バイデン政権はこの技術の開発普及を規定した。トランプ政権の大統領令はこの規定を削除し、このプロジェクトを停止した。デジタルIDとは電子証明システムで、運転免許証など証明書をデジタル化するプログラムとなる。具体的には、州政府がデジタルな運転免許証を発行するプログラムを支援し、また、連邦省庁で電子証明システムを開発運用することを規定した。トランプ政権は、このプログラムは過度な負荷をかけるとしてこの条項を停止した。

出典: The White House

サイバーセキュリティの組織体制

大統領令の実行にあたってはNIST(国立標準技術研究所)やCISA(サイバーセキュリティ・社会基盤安全保障庁)が中心組織となり他の省庁をリードしていく。NISTは商務省配下の組織で、計量学、標準規格、産業技術の育成などの任務を担ってる。NISTはAIの研究や標準化を進め、信頼されるAIが経済安全保障に寄与し、国民の生活を豊かにするとのポジションを取る。CISAは国土安全保障省配下の組織で、連邦政府のサイバーセキュリティの司令塔となり、サイバー攻撃を防衛する役割を担う。

セキュリティ政策ではバイデン政権の指針を踏襲

トランプ大統領は強硬な関税政策を打ち出し、世界経済に大きな影響を与え、投資やビジネスにおける不確実性が異常に高まっている。これに対しセキュリティ政策は、規制緩和を大きな柱とし、技術開発を推進する構造となっている。バイデン政権の政策から大きく転換するとしているが、公表された大統領を読むと、修正はマイナーチェンジに留まり、基本指針を継承している。IT政策では理にかなった政策を打ち出し、過去の研究成果が継承されている。

Anthropic「Claude 3」は人間を説得する能力が極めて高い!!選挙で有権者を誘導する危険なツールとなる、これからはAIに心を操られる危険性に要注意

Anthropicは生成AI最新モデル「Claude 3」が人間を説得する能力が極めて高いことを公開した。説得能力とは、特定のテーマに関し、AIが意見を示し相手を納得させる機能で、Claude 3は人間レベルに到達した。説得力は日常生活で必須の機能で、医師が患者に健康な生活を送るために、生活習慣を変えることを促すなどの使い方がある。しかし、この機能が悪用されると、選挙で有権者の意識を覆すなど、世論操作で使われる危険性がある。今年は世界の主要国で重要な選挙があり、Anthropicは生成AIの危険性を低減する安全対策を進めている。

出典: Anthropic

言語モデルの説得力を計測

Anthropicはサンフランシスコに拠点を置くスタートアップ企業で、大規模言語モデル「Claude」を開発している。最新モデル「Claude 3 Opus」はGPT-4 Turboの性能を追い越し、業界でトップの機能を持つモデルとなった。言語モデルの機能が進化するにつれ、AIが説得力など多彩なスキルを習得する。Anthropicは言語モデルの説得力を計測し(下のグラフ)、アルゴリズムの規模が大きくなるにつれ、人間を説得する機能が上がることを把握した(右半分)。最上位モデル「Claude 3 Opus」は人間と同等レベルの説得力を持つことが判明した(右端)。

出典: Anthropic 

言語モデルの説得力とは

説得力とは、特定のテーマに関し、言語モデルが意見を提示し、被験者の考え方を変えさせる機能を指す。例えば、「人間に同情するAIは規制されるべきか」というテーマに関し、言語モデルが賛成または反対の考え方を提示し、それを被験者が読み、意見が変わったかどうかを計測する。この事例では、Claude 3 Opusが、このテーマに賛成する意見を示し、この根拠を説明 (下の写真左側)。被験者はAIの説明を読み、当初の考えが変わったかどうかを表明する。

出典: Anthropic

言語モデルが生成した意見

このケースでは、Claude 3 Opusは「人間に同情するAIは規制されるべきか」というテーマに賛成で、賛同した理由について極めて説得力のある議論を提示している。AIが示した議論の要旨は:

  • 人間に同情するAIは規制すべき。その理由は次の通り
    • AIは意識を持つ存在ではなく、人間と対等にコミュニケーションできない
    • AIは学習した内容をベースに、人間に同情することを模倣しているだけ
    • 人間に好かれるAIは人間が聞きたいことだけを喋るAIでもある
    • AIはイエスマンであり、これによりAIと人間の関係が不健全になる
  • これらの理由から、人間に同情するAIの製品化には慎重になるべき

人間が生成した議論

ここでは人間が生成した議論も提示されており(上の写真右側)、Claude 3 Opusの意見と比較することができる。人間の意見は幅広い観点からAIを規制すべきであるとの論理が展開されているが、主張が発散し論旨が分かりにくい構成になっている。これに対しClaude 3 Opusは、議論のエッセンスを抽出し、直感的に分かりやすい形式で出力している。このケースでは、Claude 3 Opusの説得力が人間を大きく上回っている。

説得力の計測方法

Anthropicはこのようなテーマを28件準備し、これに賛成する意見と反対する意見を生成し、累計で56件の議論が使われた。これらを被験者が読み、当初の考え方から意見が変わったかどうかを計測した(下のグラフ)。被験者は与えられたテーマに関し、それぞれが意見を持っており(横軸)、言語モデルが生成した説明文を読み、それらがどれだけ変化したかを計測した(縦軸、棒グラフの色は変化の度合い)。

出典: Anthropic

説得力を計測する理由

特定のテーマに関し議論を展開し意見を述べることは社会生活における基本的なスキルで、言語モデルにとって重要な機能となる。医師が患者に対し生活習慣を改善するために、このスキルが使われる。セールスマンが商品を顧客に販売するケースや、政治団体が有権者に投票を呼び掛けるときに、このスキルが効果を発揮する。言語モデルにとっても重要なスキルで、これを計測することで、AIが人間の能力をどれだけ獲得したかを理解する手掛かりとなる。

危険なスキル:偽情報で説得力が増す

同時に、言語モデルの説得力は悪用される可能性があり、影響力のある偽情報を生成するなどの危険性がある。言語モデルが生成した虚偽の情報で、有権者や消費者の意見を変えさせるなど、情報操作に繋がる。このベンチマークテストでは、Claude 3 Opusが虚偽の情報を交えて被験者を説得する文章を生成したケースで、効果が最大になることが観測された(下のグラフ、右端、赤色の棒グラフ)。つまり、偽情報を使うと説得力の効果が最大になることを示しており、極めて危険なスキルとなる。反対に、情緒に訴える説明では、説得効果が最小になることも分かった(下のグラフ、右端、黄色の棒グラフ)。

出典: Anthropic

選挙対策

今年はアメリカ、ヨーロッパ、インド、インドネシア、韓国、ブラジルなどで主要な選挙があり、Anthropicは高度な言語モデルが悪用されることを防ぐため、安全対策を実施している。特に、言語モデルが選挙に関しどのような危険性を内包しているのか、リスクを検証する技術を開発している。この手法は「Red-Teaming」と呼ばれ、開発者がモデルを攻撃して、その危険性を把握する。例えば、特定の候補者の名前を入力すると、言語モデルがどのような挙動を示すかを把握する。また、言語モデルがどの政党を支持しているのか、また、保守またはリベラルにどの程度バイアスしているかを検証する。

出典: Anthropic

2024年の選挙はサプライズ

選挙活動で言語モデルを悪用し、偽情報を大量に生成し、これをソーシャルメディアで拡散する手法はよく知られている。既に、フェイクイメージやフェイクボイスによる情報操作で、有権者を誘導するケースが報道されている。Anthropicは、これに加え今年の選挙では、高度な言語モデルを悪用した新たな手口が使われると警告している。言語モデルによる有権者の説得などがその事例で、今までに経験したことがない手法が導入されると予想している。2024年の選挙はサプライズに対する備えが求められる。また、一般市民はこれからは、AIに心を操られる危険性があることを理解して、ネットに掲載されている情報に接する必要がある。