月別アーカイブ: 2025年4月

Googleは人間の知能を超えるAIモデル・AGIの開発を加速、AGIは重大な危険性を内包し安全技術の開発を今から開始すべきと提唱

GoogleのAI研究所「Google DeepMind」は人間の知能を超えるAIモデル「Artificial General Intelligence (AGI)」の研究開発を加速している。AGIの登場が目前に迫るとの認識を示し、Googleはその危険性を特定し、リスクを低減するための枠組みを発表した。AGIの定義や出荷時期で多様な解釈が混在するなか、GoogleはAGIを安全に開発運用するための準備を開始すべきとのポジションを取る。

出典: Generated with Google Imagen 3

GoogleのAGI開発

GoogleはAGIについて公式な見解は発表していないが、開発を加速させ業界の先頭を走っている。Googleはモデルの開発と共に安全性の研究を進め、責任あるAGI開発を実行している。GoogleはAGIのリスクを査定し、これを低減するための研究成果を公開した。AGIについて共通の理解は確定していないが、GoogleはAGIを知的なタスクを実行する際に、人間レベルの知能を持つAIシステムと定義する。また、開発時期についても様々な予測があるが、GoogleはAGIは数年以内に登場すると考える。

AGIの潜在能力

AGIは人間レベルの知的タスクを実行するスキルを持ち、AIエージェントのように稼働する。AGIは知的機能として、理解能力、推論機能、計画機能、自律的に稼働する機能を備える。応用技術の観点からは、AGIは新薬開発、地球温暖化対策、医療、教育などの分野で活躍が期待される。特に、医療分野では病気の診断で、また、教育分野では個人向けチューターとして応用される。

AGIの危険性

GoogleはAGIを安全に開発運用するために、その危険性を特定し、このリスクを低減するための技術を開発するアプローチを取る。実際に、GoogleはAGIの危険性を分析し、そのリスクを四つのタイプに纏めた(下の写真)。これらは:

  • Misuse:AGIが悪用されるリスク、AIシステムで危害を与える情報を生成するなど
  • Misalignment:AGIが設計仕様通り稼働しないリスク、AIシステムが設計者を欺くなどの危険性
  • Mistakes:AGIが危害を与えていることを認識できないリスク
  • Structural RisksマルチAGIにより危害が発生するリスク

これら四つのリスクの中で「Misuse」と「Misalignment」が重大な被害をもたらすとしている。

出典: Google

Misuse:AGIが悪用されるリスク

「Misuse」はAGIが悪用されるリスクで、悪意ある団体がAGIを使って社会に危害をもたらす情報を生成する危険性を示す。AGIで有害なコンテンツを生成し、また、AGIをサイバー攻撃に適用するなどのリスクがある。特に、ハッカー集団や敵対国がAGIを悪用し、社会インフラをサイバー攻撃し、危害をもたらすケースが警戒されている。

Misalignment:AGIが設計仕様通り稼働しないリスク

「Misalignment」は、AIシステムが意図的に開発者の設計目的に反し、危害をもたらすケースとなる。これはAIシステムが開発者を欺くケースで、AGIは間違った情報を意図的に生成するなどの危険性がある。具体的には、AGIは開発者を騙し、人間の管理を逸脱し、AIシステムが独自の判断で処理を実行するリスクを抱えている。

Mistakes:AGIが危害を与えていることを認識できないリスク

「Mistakes」は、AIシステムは断片的に間違った情報を出力するが、AIシステムはこれが危害を及ぼすとは認識していないケースを指す。例えば、AIエージェントが電力配信網を管理する際に、電線の保守作業が必要なことを理解していないため、電力網に過大な負荷がかかり、停電になるケースなど。

Structural Risks:マルチAGIにより危害が発生するリスク

「Structural Risks」とは、複数のエージェント・マルチAGIを運用するシステムに関するリスクで、個々のAIシステムは正しく稼働するが、システム全体で問題が発生するリスクを指す。複数の関係者や組織やAIシステムが関与し、単一のAIシステムを修正しても問題が解決しない危険性を含む。

AGIが悪用されるリスクを低減する手法

AIシステムが敵対国などで悪用されるリスクを低減するためには、モデルの教育やモデルの運用で包括的な対策が必要となる(下の写真)。AIモデルの教育では、セキュリティ機能を強化し、有害な情報を出力する機能を抑制する。また、AIモデルの運用では、プロンプトに対するレスポンスを監視し、モデルの悪用を検知する。更に、「Red Teaming」の手法でモデルの危険性を探索し、問題点を修正する。

出典: Google

AGIが設計仕様通り稼働しないリスクを低減する手法

AIシステムが開発者を欺いて危険な挙動をすることを抑止するためには、教育プロセスを強化する必要がある(下の写真)。モデルが規定通り稼働するよう、実行時の挙動の監視を強化し、それをアルゴリズムに反映する。更に、モデル運用のプロセスで、プロンプトに対するレスポンスを監視し、規定に反する挙動を把握し、モデルを修正する。教育が終了した後も、運用のプロセスでモデルの挙動のモニターを継続する。

出典: Google

責任あるAGI開発

研究成果はAGIの安全性に関する技術的な評価で、AIガバナンスなど組織や体制に関する考察は含んでいない。また、見通せない未来のリスクなどについても言及していない。特に、人間の知能を遥かに超えるAIシステム「Artificial Super Intelligence (ASI)」に関する評価はスコープの範囲外としている。AGIはシステム構成や機能などに関し共通の理解は確立されておらず不確定な要素が多いが、GoogleはAGIの安全技術に関する研究開発を今から起動し、将来に備えるべきと主張する。

人間の知能に匹敵するAGIの登場!?OpenAIは推論モデル「o3」と「o4-mini」を公開、o3は天才レベルのIQに到達、マルチモダル機能を備えイメージ解析能力が劇的に向上

OpenAIは最新の推論モデル「o3」と「o4-mini」をリリースした。OpenAIは言語モデル「GPTシリーズ」と推論モデル「oシリーズ」を運用しているが、「o3」と「o4-mini」は後者の最新製品となる。最新モデルは推論機能が大幅に強化され複雑なタスクを実行する。推論機能では思考の鎖「Chain of Thought」という方式で教育され、複雑な問題をステップごとに思考し最終解を導き出す。最新モデルは、思考の過程にテキストだけでなくイメージを組み込むことができ、インテリジェンスが格段に向上した。

出典: Generated with OpenAI o3

推論モデル製品ライン

OpenAIは推論モデル「o3」と「o4-mini」をリリースした。o3はフルサイズのモデルで推論機能が極めて高く、難解な問題を解決するために使われる。o4-miniは小型の推論モデルで、実行時間が短く、プログラミングなどで実力を発揮する。両者は性能が拮抗しているが、難解な問題を解く技能についてはo3が高い能力を発揮する。(下のグラフ右側、業界で最難関のベンチマーク試験でo3は高度な能力を発揮)

出典: OpenAI 

マルチモダルな推論機能

OpenAIが公開したモデル情報を読むと推論機能が強化されたことが分かるが、実際に、モデルを使ってみるとそのインテリジェンスの高さに驚愕する。特に、推論機能をイメージに適用したケースでは、想像以上の機能を発揮し、マルチモダルの推論機能の高さを実感する。推論モデルが視覚を持ち、人間のインテリジェンスに最接近した。

o3を使ってみる:次の停車駅は

o3はChatGPTのインターフェイスでブラウザーから利用できる。o3はマルチモダルの機能と外部ツールを使用する機能が搭載され、回答できる範囲が広がった。イメージに関する解析機能が格段に向上し、入力した写真について難しい問いに回答することができる。o3にサンフランシスコ市内で撮影した路面電車の写真をアップロードし、「次の停車駅はどこか」と質問すると、これに正確に答えることができた(下の写真)。

出典: OpenAI

イメージ解析の手法

o3は思考の過程を「Chain of Thought」として出力し、解析の手法を理解することができる(下の写真)。これによると、o3は写真の中で路面電車の背後に写っているホテル(Hotel Zelos)から、ここはサンフランシスコのマーケットストリートであると判断。マーケットストリートを走る路面電車の路線は「Route F」で、南向きに走行しており、次の停車駅は「Market & 5th (Powell)」と判定した。o3は推論の過程で、インターネット上の20のサイトにアクセスし、必要な情報を取集した。その中で、サンフランシスコ運輸局(San Francisco Municipal Transportation Agency)のサイト(右カラム)で路線に関する情報を収集し停車駅を特定した。

出典: OpenAI

o3を使ってみる:このレストランは

o3にレストランで撮影した料理の写真を入力し、この場所を質問すると、o3はこれも正しく回答した(下の写真)。レストランの料理の写真から、想定されるレストランを特定し、それを絞り込んで最も確からしい候補を回答した。このケースでも、o3の思考の鎖(Chain of Thought、右側のカラム)を読むと、問題解決の手順を理解することができる。

出典: OpenAI

レストランを特定する

o3はテーブルに並べられた料理の写真から、これは「地中海・中近東料理」であることを特定した。また、料理のスタイルから、中近東のグリル形式の料理に絞り込んだ。更に、o3は旅行ガイドサイト「Tripadvisor」などにアクセスして、候補のレストランを複数提示した。そのトップが正解の「Café Baklava」でo3は正しく回答にたどり着いた。

出典: OpenAI

o3を使ってみる:フェイクイメージの検知

o3はフェイクイメージを検知するスキルを持っていることが分かった。o3にxAI Grok 3で生成したフェイクイメージを入力し、その真偽を判定するよう指示すると、正しく回答することができた。トランプ大統領と大谷選手が談話している合成写真に関し、o3はこれはフェイクイメージであると結論付けた(下の写真)。従来のイメージ判定AIは、ビジュアルな側面からイメージが改造された手掛かりを見つけるが、o3は多角的なアプローチを取り、FBIの捜査官ののように、ビジュアルな観点と論理的な考察を重ね総合的に判定する。

出典: OpenAI

フェイクを見分ける技法

このケースでは、イメージ解析の側面からは、トランプ大統領がビール瓶を握っている指の形が不自然で、o3はAIで生成する際の特性であると判定した。また、トランプ大統領のライフスタイルを解析し、大統領はアルコールを飲まないことを公表しており、このイメージはこのシナリオに反していると判断。また、ホワイトハウスのビジネス慣習の観点からは、重要なイベントはプレスリリースとして公開され、複数の写真が添付されるが、写真が単独で公開されている点や、主要メディアがこれを報道していないなど、不自然な点が多いとし、総合的な見地からフェイクイメージと断定した(下の写真)。

出典:OpenAI

IQテスト

o3はリリースされているAIモデルの中で最も高いIQ(Intelligence Quotient、知能指数)をマークした。AIの技術動向をモニターする団体「Maximum Truth」はAIモデルのIQ試験を実施し、その結果を公表している(下のグラフ)。それによると、o3のIQは136で業界トップの成績を達成した。二位はGoogle Gemini 2.5 Proで128をマークした。同時に発表されたo4-miniは118で五位の成績となる。このIQテストは「Mensa Norway」という方式で、人間の平均的なIQは85から114のレンジとなる。o3のIQが136とは、人間の上位1%の知能を持つことを意味し、天才(Moderately Gifted)であると定義される。AGIの定義は確定していないが、o3はこのレンジに入っているとの解釈もある。

出典:OpenAI

インファレンス・コンピューティング

o3は言語モデルとは異なり、推論機能を実行するためには、計算時間が長くなる。上述の路面電車の停車駅を判定するケースでは、計算時間は9分20秒を要した。言語モデルはほぼリアルタイムで回答を生成するが、推論モデルでは計算時間が20倍から100倍長くなる。これはインファレンス・コンピューティングと呼ばれ、実行時のプロセスで計算資源が必要となる。

スケーリング

OpenAIなど開発企業の観点からは、インファレンス・コンピューティングで大規模な計算環境が必要となり、運用コストが増大する。利用者の観点からは、AIモデルの使用料が上がり、出費が増大することになる。o3は「ChatGPT Plus(月額20ドル)」のサブスクリプションが必要で、かつ、利用件数は50件/週に限定される。制限なしに利用するためには「ChatGPT Pro(月額200ドル)」のサブスクリプションを購入する必要がある。利用者としては負担が増えるが、AIビジネスの観点からは、推論モデルの性能がスケーリングし、事業拡大が見込まれる。市場が再び大きく拡大するチャンスとなる。

Metaは巨大言語モデル「Llama 4」を公開、オープンソースが業界トップの性能を達成、中国モデルの躍進を受け性能とコストを大幅に改良

Metaは最新のオープンソース言語モデル「Llama 4」を公開した。Llama 4はOpenAI GPT-4.5など業界のトップモデルの性能に並び、オープンソースがクローズドソースのレンジに入った。Llama 4はマルチモダルな構造で、イメージやビデオをそのまま処理することができる。Llama 4は「Mixture of Expert (MoE)」というアーキテクチャを採用し、複数の専用モジュールがモデルを構成する。これにより、教育や実行のプロセスで計算量を低減し、運用コストを大幅に抑えた。

出典: Generated with Meta Llama 4

Llama 4のモデル構成

Llama 4はMetaの最新言語モデルで三つのラインから構成される。規模の順に「Behemoth」、「Maverick」、「Scout」となる。Behemothはまだ開発中で、MaverickとScoutがリリースされた。Llama 4はマルチモダルで「Mixture of Expert(MoE)」というアーキテクチャとなる。モデルの特徴は:

  • Llama 4 Behemoth:ハイエンドモデル、最もインテリジェントなモデル、教師モデルとして他のモデルをKnowledge Distillation(知識抽出)の手法で開発、パラメータ数は2T
  • Llama 4 Maverick:ミッドレンジモデル、マルチモダル処理に特徴、パラメータ数は400B
  • Llama 4 Scout:ローエンドモデル、コンテクストサイズ(入力できるデータの量)は10Mと巨大、パラメータ数は109B
出典: Meta

Llamaの利用方法

MetaはLlamaを「Meta AI」に公開しており、このサイトで利用することができる。Meta AIはLlamaのインファレンスサイトで、ブラウザーのインターフェイスで、モデルを使うことができる(下の写真、Llama 4 Scoutがイメージを生成)。対話形式のAIモデルで、プロンプトに対し、Llamaが回答を生成する。特に、Metaはイメージ生成技術にフォーカスしており、Llamaは指示された内容に沿って綺麗なイメージを生成する。

出典: Meta AI

Llama 4をダウンロード

Llama 4をHugging Faceからダウンロードして利用することができる。Hugging FaceはオープンソースAIのハブで、ここにLlama 4が公開されている。ここは開発者向けのサイトで、社内のサーバやデスクトップにダウンロードして利用する。但し、Llama 4はモデルのサイズが大きく、PCでは容量が足りず、最低限でもNvidia GPU H100が1ユニット必要となる。また、Hugging Faceはインファレンスサービスを提供しており、ここでLlama 4をトライアルで実行しその機能や性能を検証することができる(下の写真、Maverickで入力した写真を解析)。

出典: Hugging Face

クラウドサービス

主要クラウドはLlama 4のホスティングを開始し、ここでモデルを利用することができる。Googleはクラウド「Vertex AI」でLlama 4のホスティングを始め、この環境でモデルを実行することができる(下の写真)。また、独自のデータでLlama 4をファインチューニングし、専用モデルを開発することができる。GoogleはLlamaの他に、DeepSeekなど主要オープンソースをホスティングをしており、ここで様々なモデルを利用できる。

出典: Google

Llama 4 Maverickの性能

Llama 4 Maverickはシリーズの中核モデルで、他社の主要モデルに対抗する位置づけとなる。MaverickはMoEアーキテクチャを採用し、128のエキスパートで構成される。モデル全体ではパラメータ数は400Bであるが、インファレンス時に活性化されるパラメータ数は17Bで、効率的に稼働させることができる。ベンチマークサイト「LMArena」はモデルの性能を公開しており、これによると、MaverickはGPT-4.5やGrok 3などを追い越し、二位の位置を占めている(下のグラフ)。

出典: AI Arena benchmark scores

Mixture of Expertsの採用

アーキテクチャの観点からは、MetaはLlama 4で「Mixture of Experts (MoE)」という方式を採用した。Llama 3までは「Dense Model」と呼ばれる単一構成のモデルで、Llama 4からMoEに移った。MoEとは入力されたプロンプトに対し、最適なエキスパート(専門モジュール)がアサインされ、タスクを実行する仕組みとなる(下のダイアグラム)。

出典: Meta

Mixture of Expertsの仕組み

具体的には、ルーター「Router」がプロンプトを解析し、最適なエキスパートにデータを転送、この専門モジュールで処理が進むまた、共有エキスパート「Shared Expert」はプロンプトの内容に関わらず、常に使われるモジュールとなる。MoEにより活性化されるネットワークが限定され、トレーニングやインファレンスを効率的に実行できる。Llama 4 Maverickのケースでは、モデル全体でパラメータの数は400Bであるが、実行時には17Bのパラメータが活性化され、システムの4%の部分だけが稼働し、計算処理を大きく低減する。

DeepSeekとの競合

MetaはDeepSeekの衝撃を受けてLlama 4の開発を急ピッチで進めた。DeepSeekが高度な言語モデル「DeepSeek-V3」をリリースし、MetaのAI開発チームはこの技術を詳細に解析し、これがLlama 4に反映されている。Llama 4 MaverickはDeepSeek-V3を意識した設計となっており、DeepSeek-V3と同等の推論機能を半分の規模(パラメータの数が1/2)で実現した。DeepSeekとの競合でMetaの技術開発が大きく前進したかたちとなった。

トランプ大統領は相互関税を発表、日本は24%、関税率算出の根拠をAIモデルで評価すると、「単純すぎる手法で間違っている」と判定!!

トランプ大統領はホワイトハウス・ローズガーデンで、米国の関税を引き上げることを発表した。大統領は貿易相手国に「相互関税(Reciprocal Tariff)」を課すことで米国が再び豊かになる(Make America Wealthy Again)との見通しを示した。また、貿易相手国の関税率や非関税障壁を基礎データとし、自国の関税を引き上げたと説明した。日本には24%の関税が課されることになる。しかし、米国社会ではどのように関税率を算定したのか、その根拠について議論が広がっている。また、米国の市民生活では、物価が上昇し、iPhoneの価格が2,300ドル(345,000円)の時代になると不安感が増幅している。

出典: White House

関税率算定の根拠に関する議論

ソーシャルメディアでトランプ政権が関税率を算定した根拠についての議論が広がっている。米国主要メディアは、関税率をリバースエンジニアリングして、「関税率=貿易赤字÷輸入額」としたと報じている(下のテーブル)。日本のケースでは、貿易赤字($68.5B)÷輸入額($148.2B) = 46%となる。一方、トランプ大統領はホワイトハウスでの発表会見で、貿易相手国に“優しい”政策を取り、関税率を半減すると説明した。そのため、日本への関税率は「46%÷2 = 約24%」となる。

出典: Politico

ホワイトハウスの見解

ホワイトハウスはメディアからの問い合わせを受けて、関税率算出の根拠となる資料を公表した(下の写真)。これはアメリカ合衆国通商代表部(Office of the United States Trade Representative)が作成したもので、相互関税(Reciprocal tariffs)の目的は、貿易相手国と貿易赤字のバランスを取るための政策であるとしている。税率は、相手国の関税と非関税を勘案して算定し、これにより相手国からの輸入量を低減し、長期的なバランスを保つことができるとしている。

出典: United States Trade Representative

関税率算定の方式

通商代表部はこの中で、関税率算定のアプローチについて説明している(下の写真)。これによると、関税率は「(貿易赤字÷輸入額)÷(弾力性)」となり、メディアで議論されている方式と同じ考え方となる。ただ、「弾力性(Elasticity)」という係数が導入され、輸入品の関税率に対する変動率が加味された。弾力性とは、関税を上げた際の輸入量の減少の変動率を示すもので、弾力性が高い商品と低い商品がある。ジュエリーなど装飾品は関税率を上げると購買量が低減し、弾力性が高い商品となる。一方、半導体など社会インフラを構成するアイテムは、関税率を上げても購買量がそれほど低減しないで、弾力性が低い商品となる。ホワイトハウスは弾力性=1.0として算定し、大統領の“優しい政策”で弾力性=2.0とし、関税率を半減した。

計算方法

通商代表部が公開した関税率算定数式(下の写真最下部)の定義は:

  • Δτᵢ: 貿易相手国(i)に対する関税率の変化(新関税率)
  • ε: 貿易品の弾力性
  • φ: 輸入価格への転移率
  • mᵢ: 輸入総額
  • xᵢ: 輸出総額

これらの記号で関税率を表すと次の通りとなる:

  • 新関税率(Δτᵢ) =(貿易赤字(xᵢ – mᵢ )÷輸入額(mᵢ))÷(弾力性(ε * φ))
出典: United States Trade Representative

関税率算定方式をAIで評価すると

この数式で関税率を算定することに関し、AIモデルにその妥当性について質問してみた。Gemini 2.5に上述の方式を入力し、その評価について質問すると、この数式は「単純化しすぎており妥当な方式ではない」との回答が返ってきた(下の写真)。この方式は二国間における関税率を算定するための簡便な法式であるが、基本的に間違っていると判定した。貿易赤字は関税率だけで決まるものではなく、投資レベルや為替レートなど複雑な要素が関連しており、これらを加味する必要があると説明した。

出典: Google

関税率算定方式を尋ねると

Gemini 2.5に関税率を算定する方式を尋ねると、トランプ政権の方式は「単純すぎる手法で間違っている」と指摘し、国際社会で共通理解が確立されていないが、一般に使われている手法を解説した(下の写真)。これによると、関税率の算定では1)ダンピング課税(Anti-Dumping (AD) Duties)と2)相殺関税(Countervailing Duties (CVD))があり、そのコンセプトと計算式を解説した。関税率を世界全体に一律に算定することは不可能で、国ごとの要件を勘案し、二国間でこれを決定することが基本ルールとなる。

出典: Google

トランプ政権の関税率早見表

トランプ政権の関税率の考え方に基づき、GPT-4oで関税率の早見表のコードを生成した。このコードを実行すると、米国の貿易相手国に対する関税率を可視化するグラフを生成できる。日本の場合は、日本からの輸入額と日本への輸出額を入力すると、関税率を算定する(下の写真)。ここでは、トランプ大統領が発表した”優しい関税政策”「弾力性 = 2.0」を使った。Gemini 2.5やGPT-4oを使うと、関税率に関する作業を自動化できる。社会生活で不安が広がる中、ホワイトハウスはこれらAIモデルを使って、国民に関税政策を分かりやすく伝えてほしいと感じた。

出典: Google CoLab Notebook