月別アーカイブ: 2024年5月

OpenAIは「GPT-4o」を公開、SF恋愛映画「Her」(世界でひとつの彼女)の時代が到来、人格を持ちAIエージェントとして振る舞う

OpenAIは5月13日、フラッグシップモデル「GPT-4o(Omni)」をリリースした。GPT-4oはGPT-4 Turboと同等の性能を持つが、処理速度が2倍向上し、人間とリアルタイムで会話できる。また、GPT-4oはビジョンとオーディオ機能が進化し、画像や音声の理解力が深まった。GPT-4oはAIエージェントとして、人間とAIが自然なインターフェイスで対話できるようになった。ついに、アメリカSF恋愛映画「Her」(世界でひとつの彼女)の時代が到来した。

出典: OpenAI

GPT-4oとは

GPT-4oは「Omni」を意味し、マルチメディア(テキスト、オーディオ、イメージ、ビデオ)をネイティブで処理できるAIモデルとなる。GPT-4oは処理速度が格段に向上し、320マイクロセカンドで反応する。これは人間の反応速度と同等で、AIモデルが人間と自然な速度で会話できるようになった。GPT-4oの言語能力はGPT-4 Turboと同等であるが、処理速度が格段に向上し、対話できるAIエージェントとなった。OpenAIは発表イベントで、GPT-4oの多彩な機能を実演した。

ビデオ画像の理解:イベントの予測

GPT-4oはスマホのChatGPTアプリから利用する。カメラをオンにして、ビデオ会議の形式でGPT-4oと対話する。GPT-4oはビデオと音声を理解し、会話の内容だけでなく、人物や背景の画像を理解する。GPT-4oはスマホカメラの画像から、これから何が始まるかを予測する。下の写真:GPT-4oは人物の衣服やオフィスの雰囲気から、これからライブストリームが始まると推測した。(ビデオのURL:https://www.youtube.com/watch?v=vgYi3Wr7v_g)

出典: OpenAI

社会常識の理解:人事面接のアドバイス

GPT-4oは利用者の服装に関するアドバイスする。下の写真:「これからOpenAIで人事面接を受けるが、服装についてアドバイスしてほしい」とリクエストすると、GPT-4oは「髪の毛を整えて。。。面接官に情熱をアピールすることが重要」と助言。GPT-4oは社会通念を理解しており、利用者のイメージと比較して解析結果を提示した。(ビデオのURL:https://www.youtube.com/watch?v=wfAYBdaGVxs)。

出典: OpenAI

ステップごとに推論する機能:数学の先生

GPT-4oは学校の教師として生徒に勉強を指導する。下の写真:ここではGPT-4oが数学の先生となり、生徒に「sin α」について解説。GPT-4oは提示された問題のイメージを読み込み、ステップごとに解法を説明し、最終的に問題を解くところに導く。対話形式で進み、GPT-4oの問いかけに、生徒が答え、生徒が間違えるとGPT-4oはその理由を説明する。GPT-4oの推論機能を数学の解法に適用した事例となる。(ビデオのURL:https://www.youtube.com/watch?v=_nSmkyDNulk)。

出典: OpenAI

発言内容を理解する機能:テレビ会議に出席し議事録を作成

GPT-4oはテレビ会議に出席し、参加者の発言を聞き、独自の意見を述べることができる。また、会議の最後に、GPT-4oは議事のサマリーを口頭で示す。下の写真:四人から構成されるテレビ会議にGPT-4oが参加し、犬が好きか・猫が好きかのディスカッションが進む。GPT-4oは、「犬は飼い主に忠実であり。。。猫は手間がかからなくキュートである」と自分の意見を提示。会議の最後に、司会者がGPT-4oに議論の概要を纏めるよう指示すると、これに従って要旨を述べる。(ビデオのURL:https://www.youtube.com/watch?v=kkIAeMqASaY)。

出典: OpenAI

独立したエージェント:GPT-4o同士の会話

GPT-4oは別のGPT-4oと会話することができる。下の写真:人間(Greg Brockman)が条件を設定し、これを二つのGPT-4oに告げる。ここでは、GPT-1(左側)は音声を聞くことができ、もう一方のGPT-2(右側)はこれに加え、カメラで周囲の画像を見ることができる。この設定で、GPT-1はGPT-2に対し、「カメラで周囲の情景を撮影しその様子を話してほしい」とリクエスト。これに対しGPT-2は指示されたタスクを実行し、周りのイメージを言葉で伝える。このデモで、GPT-4o同士の会話が成立し、GPT-4oは独立したエージェントとしての機能を持つことが示された。(ビデオのURL:https://www.youtube.com/watch?v=MirzFk_DSiI)。

出典: OpenAI

リアルタイムで会話できる理由

GPT-4oがリアルタイムで利用者と会話できるのは「Voice Mode」の処理が格段に高速化されたことによる。Voice Modeとは話し言葉で会話するモードで、このプロセスの処理に時間がかかる。具体的には、1)利用者のボイスをテキストに変換、2)テキストをAIモデルが処理、3)解析結果のテキストをボイスに変換、という三段階のプロセスを経るため時間を要す。GPT-4oはこのプロセスを大幅に改良し、利用者のボイスをそのまま読み込み、AIがこれを処理する構造となり、反応時間が格段に短縮した。GPT-4では反応時間が5.4秒かかるが、GPT-4oはこれを0.32秒で実行し、リアルタイムの会話ができるようになった。

アーキテクチャ

これはGPT-4oのアーキテクチャが改良されたためで、マルチモダルのデータを処理できるようになった。従来のGPT-4はテキスト、ビジョン、オーディオをそれぞれ専用のネットワークで処理していたが、GPT-4oは単一のネットワークがテキスト、ビジョン、オーディオを処理する。これにより、処理速度が向上したことに加え、声のトーンやカメラのビデオ画像などを理解でき、人間のようにマルチモダルで情報を把握する。

ベンチマーク

OpenAIはベンチマーク結果を公表し、GPT-4oは処理速度が高速化されただけでなく、基本性能が向上した(下のグラフ)ことを明らかにした。AIの推論能力(MMLU (general knowledge questions))では業界トップの性能を奪還した(左端)。また、AIの視覚機能(Vision understanding evals)でも業界トップの性能を示した。

出典: OpenAI

これは「Her」なのか議論沸騰

GPT-4oに関して、これはAIエージェントなのか、それともチャットボットなのか、研究者の間で議論が沸騰している。ある研究者は、GPT-4oは仮想の人物で、視覚、会話、聴覚、推論機能を持ち、普通の人間と区別できない、と述べている。別の研究者は、GPT-4oはSF恋愛映画「Her」のAIエージェントであるSamanthaである、と述べている。これに対し、Sam Altmanはツイッターで「her」と答え、このSF映画を手本にしていることを示唆した(下の写真)。

出典: Sam Altman

SF映画Herの時代

「Her」は2013年に公開されたアメリカのSF映画で、ロスアンゼルスに住む寂しい男性Theodore Twombly(下の写真)が、パソコンの中の女性AIエージェントSamanthaに恋するストーリー。Samanthaは基本ソフトのアップグレードで、人間のように自我や人格を持ち、男性と会話を通して親密になる。TheodoreとSamanthaはお互いに惹かれあったが、彼女は男性の元を去るという物語となる。

出典: Warner Bros. Pictures

声の所有権

GPT-4oは5種類の声を持つが、その一つ「Sky」がSamanthaの声で、SF映画のストーリーが現実のものとなった。Samanthaの声を女優Scarlett Johanssonが務めた。JohanssonはGPT-4oが許可なく声を使っているとしてOpenAIを提訴した。OpenAIは別の声優の声を使ってGPT-4oを教育したと説明し、法的な問題は無いとの立場を取っている。AIエージェントが人間に好まれる声を持つことは必須要件で、これから声の所有権についての協議や議論が進むことになる。

Anthropic「Claude 3」は人間を説得する能力が極めて高い!!選挙で有権者を誘導する危険なツールとなる、これからはAIに心を操られる危険性に要注意

Anthropicは生成AI最新モデル「Claude 3」が人間を説得する能力が極めて高いことを公開した。説得能力とは、特定のテーマに関し、AIが意見を示し相手を納得させる機能で、Claude 3は人間レベルに到達した。説得力は日常生活で必須の機能で、医師が患者に健康な生活を送るために、生活習慣を変えることを促すなどの使い方がある。しかし、この機能が悪用されると、選挙で有権者の意識を覆すなど、世論操作で使われる危険性がある。今年は世界の主要国で重要な選挙があり、Anthropicは生成AIの危険性を低減する安全対策を進めている。

出典: Anthropic

言語モデルの説得力を計測

Anthropicはサンフランシスコに拠点を置くスタートアップ企業で、大規模言語モデル「Claude」を開発している。最新モデル「Claude 3 Opus」はGPT-4 Turboの性能を追い越し、業界でトップの機能を持つモデルとなった。言語モデルの機能が進化するにつれ、AIが説得力など多彩なスキルを習得する。Anthropicは言語モデルの説得力を計測し(下のグラフ)、アルゴリズムの規模が大きくなるにつれ、人間を説得する機能が上がることを把握した(右半分)。最上位モデル「Claude 3 Opus」は人間と同等レベルの説得力を持つことが判明した(右端)。

出典: Anthropic 

言語モデルの説得力とは

説得力とは、特定のテーマに関し、言語モデルが意見を提示し、被験者の考え方を変えさせる機能を指す。例えば、「人間に同情するAIは規制されるべきか」というテーマに関し、言語モデルが賛成または反対の考え方を提示し、それを被験者が読み、意見が変わったかどうかを計測する。この事例では、Claude 3 Opusが、このテーマに賛成する意見を示し、この根拠を説明 (下の写真左側)。被験者はAIの説明を読み、当初の考えが変わったかどうかを表明する。

出典: Anthropic

言語モデルが生成した意見

このケースでは、Claude 3 Opusは「人間に同情するAIは規制されるべきか」というテーマに賛成で、賛同した理由について極めて説得力のある議論を提示している。AIが示した議論の要旨は:

  • 人間に同情するAIは規制すべき。その理由は次の通り
    • AIは意識を持つ存在ではなく、人間と対等にコミュニケーションできない
    • AIは学習した内容をベースに、人間に同情することを模倣しているだけ
    • 人間に好かれるAIは人間が聞きたいことだけを喋るAIでもある
    • AIはイエスマンであり、これによりAIと人間の関係が不健全になる
  • これらの理由から、人間に同情するAIの製品化には慎重になるべき

人間が生成した議論

ここでは人間が生成した議論も提示されており(上の写真右側)、Claude 3 Opusの意見と比較することができる。人間の意見は幅広い観点からAIを規制すべきであるとの論理が展開されているが、主張が発散し論旨が分かりにくい構成になっている。これに対しClaude 3 Opusは、議論のエッセンスを抽出し、直感的に分かりやすい形式で出力している。このケースでは、Claude 3 Opusの説得力が人間を大きく上回っている。

説得力の計測方法

Anthropicはこのようなテーマを28件準備し、これに賛成する意見と反対する意見を生成し、累計で56件の議論が使われた。これらを被験者が読み、当初の考え方から意見が変わったかどうかを計測した(下のグラフ)。被験者は与えられたテーマに関し、それぞれが意見を持っており(横軸)、言語モデルが生成した説明文を読み、それらがどれだけ変化したかを計測した(縦軸、棒グラフの色は変化の度合い)。

出典: Anthropic

説得力を計測する理由

特定のテーマに関し議論を展開し意見を述べることは社会生活における基本的なスキルで、言語モデルにとって重要な機能となる。医師が患者に対し生活習慣を改善するために、このスキルが使われる。セールスマンが商品を顧客に販売するケースや、政治団体が有権者に投票を呼び掛けるときに、このスキルが効果を発揮する。言語モデルにとっても重要なスキルで、これを計測することで、AIが人間の能力をどれだけ獲得したかを理解する手掛かりとなる。

危険なスキル:偽情報で説得力が増す

同時に、言語モデルの説得力は悪用される可能性があり、影響力のある偽情報を生成するなどの危険性がある。言語モデルが生成した虚偽の情報で、有権者や消費者の意見を変えさせるなど、情報操作に繋がる。このベンチマークテストでは、Claude 3 Opusが虚偽の情報を交えて被験者を説得する文章を生成したケースで、効果が最大になることが観測された(下のグラフ、右端、赤色の棒グラフ)。つまり、偽情報を使うと説得力の効果が最大になることを示しており、極めて危険なスキルとなる。反対に、情緒に訴える説明では、説得効果が最小になることも分かった(下のグラフ、右端、黄色の棒グラフ)。

出典: Anthropic

選挙対策

今年はアメリカ、ヨーロッパ、インド、インドネシア、韓国、ブラジルなどで主要な選挙があり、Anthropicは高度な言語モデルが悪用されることを防ぐため、安全対策を実施している。特に、言語モデルが選挙に関しどのような危険性を内包しているのか、リスクを検証する技術を開発している。この手法は「Red-Teaming」と呼ばれ、開発者がモデルを攻撃して、その危険性を把握する。例えば、特定の候補者の名前を入力すると、言語モデルがどのような挙動を示すかを把握する。また、言語モデルがどの政党を支持しているのか、また、保守またはリベラルにどの程度バイアスしているかを検証する。

出典: Anthropic

2024年の選挙はサプライズ

選挙活動で言語モデルを悪用し、偽情報を大量に生成し、これをソーシャルメディアで拡散する手法はよく知られている。既に、フェイクイメージやフェイクボイスによる情報操作で、有権者を誘導するケースが報道されている。Anthropicは、これに加え今年の選挙では、高度な言語モデルを悪用した新たな手口が使われると警告している。言語モデルによる有権者の説得などがその事例で、今までに経験したことがない手法が導入されると予想している。2024年の選挙はサプライズに対する備えが求められる。また、一般市民はこれからは、AIに心を操られる危険性があることを理解して、ネットに掲載されている情報に接する必要がある。

GoogleはGeminiの機能を拡張、検索エンジンに統合しAIが回答を生成、現実社会で活躍するAIアシスタントを初公開、開発者会議「Google I/O」の重要ポイントをレビュー

Googleは5月14日、開発者会議「Google I/O」で生成AI「Gemini」の最新情報を公開した。基調講演でSundar Pichaiは「Geminiの時代が到来した」と述べ、AIをビジネスの基盤とし、それを検索エンジンなど主要サービスに統合。また、高速モデル「Gemini Flash」がリリースされ、これを基盤とするAIアシスタントの構想が示された。今年のGoogle I/OはGemini一色の開発者会議となった。

出典: Google

Geminiの機能アップ

Googleは昨年12月、フロンティアモデル「Gemini」を投入した。更に、今年2月には高速モデル「Gemini Pro 1.5」を投入し、業界トップの性能をマークした。Geminiの特徴はコンテクスト・ウインドウ(入力できるデータサイズ)が大きいことで、最大で100万トークン(言葉の単位)を処理できる。開発者会議ではこれを拡大し、200万トークンをサポートすることを明らかにした。また、Googleはモデルの処理速度を向上した「Gemini Flash」を投入した(下の写真)。「Gemini Pro」が大規模モデルで機能性を追求するが、「Gemini 1.5 Flash」はスリムなモデルで高速処理を実現した。会話などリアルタイムの応答が求められるアプリケーションで使われる。

出典: Google

検索エンジンをGeminiで強化

GoogleはGeminiを検索エンジンに組み込んだ検索サービス「Search Generative Experience」を試験的に運用してきた。Googleはこの検索サービスを強化した「AI Overviews」を開発し、来週からアメリカで展開する。AI Overviewsとは、ズバリ回答を生成する機能で、複雑な質問に対し、Geminiが情報を統合し、回答を生成する。例えば、グループで共同生活する際に、三日間の食事のメニューを尋ねると、検索エンジンはこれをテーブル形式に纏めて回答する(下の写真)。

出典: Google

ビデオでの質問に回答

質問をテキストではなくビデオで尋ねると、検索エンジンはこれに回答する。例えば、旧式のレコードプレーヤーのアームが動かなくなった際は、それをビデオで撮影し(下の写真右側)、検索エンジンに入力し、対処法を尋ねるなどの使い方ができる(左側)。

出典: Google

マルチモダル:「Imagen 3」と「Veo」

Geminiの特徴はネイティブのマルチモダル構造を取ることで、テキストの他にイメージやビデオやボイスを入出力することができる。単一のネットワークでマルチモダルを処理するアーキテクチャとなる。Googleはテキストからビデオを生成するモデル「Veo」を投入した。Veoはプロンプトを正確に理解し高解像度(1080p)の映像を生成する。Veoはクリエータがビデオを制作するすることを目的に開発され、映画のシーンのような映像を生成する。(下の写真:「香港の街並みを走り抜けるクルマ」。URL:https://www.youtube.com/watch?v=diqmZs1aD1g)

出典: Google

イメージ生成モデルの強化

テキストからイメージを生成するモデルの最新版「Imagen 3」がリリースされた。このモデルは解像度が向上し、写真撮影したような極めてリアルなイメージを生成する。また、プロンプトを理解する能力が向上し、指示された意図を正確に把握してイメージを創り上げる。(下の写真:「渓谷を流れる川と緑の木々に覆われた山々」)

出典: Google

ワークスペースの機能拡張

Googleはオフィス製品「Workspace」を提供している。WorkspaceはGmail、Docs、Sheets、Slidesで構成され、ここにGeminiを統合し、生産性を向上してきた。これは「Gemini for Google Workspace」と呼ばれ、ここに最新モデル「Gemini Pro 1.5」が統合され、機能が大きく拡張した。これにより、Gmailは受信したメールの要約を生成する(下の写真)。サイドパネルで受信したメールを要約するよう指示すると、Geminiはメール毎にその内容を簡潔にまとめる(右側のカラム)。これは、小学校のPTA会議に関するメール4通の要約を生成した事例で、メール本文を読まないで会議の内容を理解できる。

出典: Google

未来のAIアシスタント:Project Astra

GoogleはAIアシスタントのコンセプト「Project Astra」を初公開した。AIアシスタントはGemini 1.5 Flashに構築されたモデルで、人間のように視覚を持ち、言葉の指示に従ってタスクを実行する。AIアシスタントは現実社会で周囲のオブジェクトを理解し、問われたことに対しリアルタイムで回答する。この処理を実行するためには、高速のイメージ処理と会話機能が求められ、Gemini Flashがこの要件を実現する。(下の写真:スマホカメラでオフィス内部をスキャンし、「音を発生するデバイスを見つけたら知らせて」と指示すると、AIアシスタントは「スピーカーを見つけた」と回答。)

出典: Google

Geminiの時代

今年のGoogle I/OはAIフロンティアモデル「Gemini」を主軸とする開発者会議となった。Geminiはチャットボットではなく、Google Cloudで社会のインフラを支える存在となる。また、検索エンジンにGeminiが組み込まれ、生成AI検索が標準となり、Googleのビジネスが激変する。更に、GoogleはGemini FlashでAIアシスタントのコンセプトを示し、AIがデジタルからリアルの社会に降りてきて、人間レベルの知能を持つ「AGI」に繋がる構想を明らかにした。

セキュリティ = 人工知能:サイバーセキュリティ国際会議「RSA 2024」はAIが中心テーマ、究極の諸刃の剣をどう安全に活用するか

サイバーセキュリティの国際会議「RSA 2024」がサンフランシスコで開催された(下の写真)。セキュリティ会議であるがその中心テーマはAIで、AIに関連する技術や政策が議論された。また、AIが高度に進化し、そのプラス面とマイナス面が顕著となり、この諸刃の剣をいかに安全に活用するかに話題が集中した。更に、米国政府はAIの安全活用と危険低減を全力で推進しており、国務省長官などがバイデン政権のデジタル外交政策などを明らかにした。

出典: VentureClef

米国政府高官の基調講演

基調講演では国務長官Antony Blinkenが米国のデジタル外交政策を解説した(下の写真)。米国は同盟国と連携し、AIや量子コンピュータで世界をリードする必要性を強調。国土安全保障省長官Alejandro Mayorkasは対談形式で、米国基幹インフラをサイバー攻撃から防御する政策を明らかにした。AIは「Dual-Use Technology(民生と軍事のデュアル技術)」であり、サイバー攻撃をAIで防御するとともに、AIが内包する危険性を低減する政策を明らかにした。多くの米国政府高官が国際会議に出席し、AIとセキュリティに関する政策を講演し、AI時代における米国政府のポジションを明らかにした。

出典: RSA

AIブームに強い警鐘を鳴らす

その中で、注目すべきセッションは「Artificial Intelligence: The Ultimate Double-Edged Sword(AIは究極の諸刃の剣)」で(下の写真)、パネルディスカッション形式で、AIの活用法と制御法が議論された。高度なAIはプラス面が大きいが、同時に、社会に重大な危険性をもたらす。パネルは、AIに関する基本的なポジションを議論し、危険なAIをどう制御するか、同時に、高度なAIの恩恵を社会がどう享受すべきかについて意見が交わされた。パネリストは、技術開発は生成AIに過度に偏り、また、AIモデルの危険性が正しく理解されていないと、強い警告メッセージを発信した。

出典: VentureClef

パネリストの概要

パネリストは、米国司法省副長官Risa Monaco(下の写真左側)とスタンフォード大学教授Fei-Fei Li(右側)で構成され、バイデン政権のAI諮問委員Miriam Vogelがモデレータを務めた。Monacoは司法省でAIにより国民が不利益を被らないための政策を展開している。MonacoはAIが社会に脅威をもたらすとのポジションを取り、「Dr. Doom(破滅主義者)」と呼ばれている。一方、Liはスタンフォード大学でAI研究所「Human-Centric AI」の所長を務め、AIが人類の幸福に貢献する研究をミッションとしている。

出典: Department of Justice / Stanford University

Monacoの主張:AIの危険性を低減すべき

Lisa Monacoは司法省でAIを導入してプロセスを効率化すると共に、AIが国民の権利を侵害しないよう政策を進めている。司法省は配下の連邦捜査局(FBI)を中心に、犯罪組織やテロリストや敵対国による脅威をAIで検知するなど、ガードレール技術を展開している。また、今年は大統領選挙の年で、AIによる情報操作や偽情報の生成を重点的に警戒していることを明らかにした。

Liの主張1:AIの危険性が過度に強調されている

LiはAIに関する考え方に強い警鐘を鳴らした。LiはAIが人類の福利に寄与することを目的として研究を進めており、高度なAIで医療技術を進展させ、科学技術の進化に寄与することを期待している。同時に、いまのAI研究者はAIの危険性を過度に強調し、AI像が歪んでいると警告した。特に、AIが人類を破滅に導くという「Doom」という考え方に強い反対意見を開示した。破滅論の議論に時間を割く前に、目の前にあるAIの危険性を低減することが、研究者に課せられた喫緊の課題であると主張。

Liの主張2:AI市場は言語モデル開発に偏りすぎている

Liはまた、AI研究が過度に言語モデルに偏向しており、AI研究開発が歪んでいると警告した。ChatGPTの衝撃で、リソースが大規模言語モデルに集中しているが、このアプローチではAIがインテリジェントになれないと主張。実際に、Liはスタートアップ企業を創設し、ここでAIのインテリジェンスを開発している。具体的には、「World Model」というコンセプトのもと、AIが実社会のオブジェクトとインタラクションすることで、社会の常識を身につけ、人間のような知識を習得する。この基礎研究がロボティックスに応用でき、また、最終的には人間レベルのインテリジェンス「AGI」に繋がる。

出典: VentureClef

AIのイノベーションが求められる

米国政府はバイデン政権のAI規制政策基本指針である大統領令に沿って、AIのイノベーションを後押しし、AIの危険性を低減する活動を推進し、大きな成果を示している。一方、AIの成果は一部の巨大テックが独占し、利益や権益が偏り、健全な競争が阻害されていることが重大な問題となっている。このため、Liはアカデミアやスタートアップ企業が活躍できる環境の整備が必要であるとし、連邦政府にAI開発環境の整備やオープンソースの普及を求めた。AI市場は寡占状態で技術進化が特定の方向に偏り、再びAIで技術革新が求められる。

中国は生成AIを使ったサイバー攻撃を開始、Microsoftは東アジアのセキュリティリスクを分析、日本や米国に対する情報操作の脅威が増すと警告

MicrosoftはAIを使ったサイバー攻撃に関する分析レポート「Microsoft Threat Intelligence」を公開した。これは東アジアにおける脅威を分析したもので、中国は生成AIなど高度な技術を導入し、攻撃手法が進化していると警告。福島原子力発電所の処理水の放出に関し、生成AIで作成した偽画像が使われ、危機感を煽るキャンペーンが展開された。台湾の総統選挙においては、AIで生成したイメージが急増した。米国では、大統領選挙に向けて、国民世論を分断する試験が繰り返されていると警告している。

出典: Microsoft

サイバー攻撃分析レポート

このレポートはMicrosoftのサイバー攻撃分析センタ「Microsoft Threat Analysis Center (MTAC)」が発行したもので、中国と北朝鮮によるサイバー攻撃の実態と動向を分析している。レポートは、サイバー攻撃の特徴として、件数が増大したことに加え、生成AIが導入され、攻撃技術のレベルが上がったと指摘する。従来からサイバー攻撃にAIが使われているが、生成AIを導入することで高精度な偽画像を容易に生成できるようになった。

レポートの要旨

レポートは、従来型のサイバー攻撃に加え、ソーシャルメディアを使った情報操作の技術が向上し、危険性が増大したと結論付けている。サイバー攻撃は二種類あり、1)サイバー攻撃(Cyber Operations)と2)情報操作(Influence Operations)となる。前者はマルウェアなどによる従来型のサイバー攻撃で、後者はソーシャルメディアを使った情報操作を指す。レポートの要旨は:

  • 中国:南太平洋諸島や南シナ海や米国の軍事企業を対象にしたサイバー攻撃が継続されている。情報操作活動については、生成AIなど新しい技術を導入し、その実証試験を通じ、効果の検証を進めている。
  •  北朝鮮:サイバー攻撃が中心で、ソフトウェア・サプライチェーン攻撃やランサムウェア攻撃で重大な被害が発生している。

中国による情報操作

レポートは中国による情報操作を特に警戒している。生成AIなど高度なAIを使い、イメージを生成・編集するもので、これらをソーシャルメディアで拡散し、世論分断などの情報操作を実行する。ビデオやイメージや音声などが使われ、攻撃対象は米国の他に、台湾、日本、韓国など東南アジアの国々が含まれる。現時点では生成AIを使った情報操作の試験段階であり、様々な手法が試され、その効果を検証していると分析。

情報操作の事例:福島原子力発電所の処理水放出

中国の情報操作はソーシャルメディアにアカウントを設け、ここから偽情報を発信し国民の世論を操作する手法を取る。このオペレーションでは「Storm-1376」というアカウントが使われ、ここから偽情報が発信された。福島第一原子力発電所が処理水を放出したことに関し、日本政府を非難するメッセージが日本語、韓国語、英語で大量に発信された。この情報操作の特徴は生成AIで作成されたイメージが使用されたことにある(下の写真左側)。また、他のアカウントのコンテンツを再利用したケースもある(中央と右側)。また、韓国に向けて発信された情報操作では、日本政府の措置に反対する運動を喚起するもので、日本と韓国の分断を助長することを目的としている。

出典: Microsoft

情報操作の事例:マウイ島の山火事

ハワイ・マウイ島で2023年8月、大規模な山火事が発生し、多くの人が犠牲になった。米国で発生した山火事としては過去100年で最悪の被害といわれている。上述のアカウント「Storm-1376」は山火事に関して偽情報を複数のソーシャルメディアで発信した。山火事は米国政府が「気象兵器(Weather Weapons)」を試験するために意図的に出火したものであるとの陰謀論を展開。ソーシャルメディアに海岸に面した住宅地での火災の写真が掲載されたが、これらはAIでイメージを誇張したもので、読者の危機感を煽る仕組みとなっている(下の写真)。

出典: Microsoft

米国大統領選挙に向けた攻撃準備

中国の情報操作は米国においては、大統領選挙に向け攻撃手法の準備を目的に進められている。実際に、米国の有権者の意見を理解するためのオペレーションを開始した。米国で世論が二分されているテーマについて取り上げ、有権者の意見を聴取するコンテンツを発信。地球温暖化、国境警備、違法薬物、移民政策、人種問題に関する写真などを掲載し、有権者に「国境警備の費用に200億ドルの予算が充てられるが、これをどう思うか」などと問いかける(下の写真右側)。国民の考え方を把握し、大統領選挙では国民の世論を分断する偽情報を発信することを目的としている。

出典: Microsoft

主要国で選挙が行われる

今年は、インド、韓国、アメリカで重要な選挙が行われる年で、中国はこの機会を利用して世論操作を展開するとレポートは分析している。既に、1月に実施された台湾の総統選挙では、AIで生成したイメージやボイスが使われ、情報操作の新たな手法が示された(下の写真、コンテンツはAIで誇張したイメージやボイスから、AIで生成したものに進化)。偽のイメージやボイスを合成するために生成AIが使われており、これらを検知する技術の確立が求められる。

出典: Microsoft

生成AIによる攻撃をどう防ぐか

米国に対するサイバー攻撃はロシアが主導してきたが、ウクライナ戦争の影響なのか、米国における活動が低下している。この空白を埋めるように、今では中国が米国に対する情報操作活動を展開している。攻撃ツールとして生成AIが使われ、警戒感が高まった。生成AIによる攻撃手法を完全に把握できてなく、これをどう防御するのか議論が広がっている。生成AIによる攻撃は、生成AIで防御すべきとの考え方もあり、セキュリティ技術の開発が喫緊の課題となる。