カテゴリー別アーカイブ: 人工知能

国際連合はAIサミットを開催し地球規模の課題にAIで取り組む姿勢を強調、Sam AltmanはOpenAIの開発戦略を説明、米国企業はAIの安全性より利益を優先している実態が明らかになった

国際連合はスイス・ジュネーブでAIサミット「AI for Good Summit」を開催した(下の写真)。サミットは国際連合が提唱している「持続可能な開発目標(Sustainable Development Goals)」をテーマに、AIで貧困の撲滅や男女間の差別を根絶する手法などが議論された。また、Sam Altmanがオンラインで出席し、OpenAIのAI開発ポリシーを対談形式で説明した。AltmanはAI技術を段階的にリリースし、社会がこれを理解したうえで、政府はAIを段階ごとに規制する、共棲政策(Co-Evolve)という考え方を示した。同時に、AI開発は米国企業が安全性より利益を優先して進めている姿勢が明らかになった。

出典: AI for Good

AI for Good Summitとは

AIサミット「AI for Good Summit」は国際連合(United Nations)が主催するAIサミットで、国際電気通信連合(International Telecommunication Union)がイベントを運営した。サミットはコロナの期間を除き、毎年スイス・ジュネーブで開催されており(下の写真)、今年は先週実施され、主要セッションはビデオで配信された。サミットはAIを活用してグローバルな問題を解決し、持続可能な開発目標(Sustainable Development Goals)を推進することをテーマとする。AIを活用する分野として、下記の分野が注目された:

  • 医療:AIによる病気診断や新薬の開発
  • 気候変動:AIによる気候モデル開発や災害の予測技術
  • 性差別:AIを活用した教育で男女間の不平等を解消
出典: AI for Good 

Sam Altmanの基調講演

AIサミットのハイライトはOpenAIのCEOであるSam Altmanの基調講演「AI for Good Keynote interview」で、対談形式でAIの開発思想やリスク管理政策などが示された(下の写真)。対談形式で進められ、Nicholas Thompson (The AtlanticのCEO)が司会を務めた。AltmanはThompsonの質問に答える形で、OpenAIのAI開発戦略や安全対策など、広範囲にわたり意見を述べた。インタビューでは厳しい質問が相次ぎ、Altmanは回答を控える局面が多く、OpenAIはオープンな会社からクローズドな組織に移ったとの印象を与えた。OpenAIはAIのリスク管理を厳格に実行する指針を大きく緩和し、技術優先でAI開発を進めている実態も明らかになった。

出典: AI for Good 

AIの恩恵と危険性:サイバーセキュリティが最大の関心事

Altmanは、OpenAIが開発しているAIについて、ポジティブなインパクトについて、産業の様々な分野で生産性をあげることに貢献していると説明。ソフトウェア開発からヘルスケアまで、プロセスが効率化され、ビジネストランスフォーメーションが加速している。一方、ネガティブな側面については、サイバーセキュリティが最大の関心事であるとの考え方を示した。ロシアや中国などがOpenAIの技術を悪用してサイバー攻撃を展開している事例を挙げた。

AIモデルの性能:まだ伸びる余地は大いにある

GPT-4は英語、スペイン語、フランス語を中心に教育され、他の言語が置き去りにされているとの指摘に対し、OpenAIは世界の言語の97%をカバーしていると説明。また、AIモデルの開発で、機能進化が頭打ちになっているかとの質問に対し、AIモデルは漸近線(asymptote)には達しておらず、まだまだ伸びる余裕は大いにあるとの解釈を示した。同時に、多くの研究者が性能や機能の伸びを予測しているが、OpenAIは予測ではなくこれを実際に示すことが任務であると回答。

データについて:次世代モデル開発で高品質データが必須

インターネットにはAIで生成された合成データ「Synthetic Data」が満ち溢れ、これでAIモデルを教育すると性能が劣化するとの指摘に対しては、AI教育では高品質なデータが必須となるとの考え方を示した。インターネットには言語モデルで生成した合成データだけでなく、人間が生成した品質の悪いデータが沢山掲載されている。このため、高品質なデータが次世代モデルの開発に必須で、これが信頼性の向上や効率化の促進に繋がると述べた。(OpenAIはAtlantic社の記事をAIモデルの教育で使うことで合意している。)

AGIについて:人間と互換性を持つシステム

OpenAIは人間のインテリジェンスを持つAGIを開発目標にしているが、AGIが登場すると人間と区別がつかなくなり社会が混乱するとの意見がある。これに対し、AGIを開発する理由は人間とAIのインターフェイスを劇的に改良するためであるとの考え方を示した。AGIを「human-compatible systems」と捉えており、AGIはあくまでインターフェイスで、決して人間とはならないと述べた。言語を通じて人間と互換性を確立し、使いやすいシステムを実現する。別の事例がヒューマノイドロボットで、人間と言葉で対話するが、骨格はハードウェアで人間とは全く異なる。

出典: AI for Good 

声の所有権に関して:フェイクボイスに関しノーコメント

GPT-4oが持つ声の一つが「Sky」で、これが女優スカーレット・ヨハンソン(Scarlett Johansson)の声に酷似しているとの指摘に対し、AltmanはJohanssonの声を模倣する意図は無かったと述べるに留め、問題の背景についての説明は差し控えた。OpenAIはAIの進化によるフェイクボイスの危険性を喚起しているが、自らがJohanssonと酷似する声を使っており、この釈明に苦慮している。

(問題の経緯:AltmanはJohanssonに声の使用を打診したが、Johanssonはこれを断り、OpenAIは声優を使って類似したボイスを生成した。JohanssonはGPT-4oの声が自身の声に酷似しているとして、OpenAIを提訴した。)

規制の方式:AIと社会が共に進化する「co-evolve」という考え方

AIの規制に関し、政府は選挙対応など目前の問題にフォーカスしているが、長期レンジで考える必要があるとしている。AI技術は急速に進化し、社会や市民がこのスピードに追随できず、AIを正しく理解できない。このため、高度なAIを一度に投入するのではなく、その機能を段階に分けて徐々に経てリリースする。社会や市民ががこれを理解したうえで、政府はAIの規制を段階的に進めるべきとの考えを示した。これは技術と社会が共に進化する「technology and society co-evolve」という考え方で、これをAI規制のコアとすべきと提言。

社内ガバナンス:リスク管理が形骸化しているとの指摘にノーコメント

OpenAIの取締役から退任したHelen Tonerらは、OpenAIのガバナンス体制に関しエコノミストに投稿し、この機能が全く機能していないと主張。これに対し、AltmanはOpenAIのガバナンス機能について明確に説明することなく、Tonerの主張に合意できないと述べるに留めた。また、安全技術開発の総責任者Ilya Sutskeverが退社したことについても説明は無く、OpenAIはAIの安全性の探求から、AIの機能性の開発に重点をシフトしたとの印象を与えた。

出典: AI for Good 

Altmanのメッセージ:AIの恩恵と危険性のバランスを考慮した規制政策

Altmanはインタビューを総括して、AIはアップサイドが大きいが、同時に、社会に危害を及ばさないよう安全性を担保することが開発企業の責務であると述べた。短期的な危険性や長期的な不確実性に捕らわれるのではなく、AIのリスクを包括的に理解することが重要としている。行政府はAIの恩恵とリスクを把握し、バランスよくAI規制を実行すべきとしている。

Altmanの発言を聴くと:OpenAIは利益追求会社に転身

AltmanはThompsonの厳しい質問に対して、しばしば回答に詰まり、明確なコメントを避ける場面が目立った。また、回答はコンセプトのレベルで、OpenAIの具体的な安全技術について語ることは無かった。特に、AIの説明責任技法(Explainability)について問われると、Altmanは競合企業Anthropicが開発した技法を引用し、自社の研究開発には触れることは無かった。OpenAIはAIの安全技術で業界をリードしてきたが、今では一転して、機能や性能を最優先する企業に転身したように感じた。

世界情勢:米国とグローバル社会のギャップが広がる

これはOpenAI一社の姿勢ではなく、先端AI開発で米国企業が主導権を握り、グローバル社会が求めるリスク管理より自社の利益を優先して事業を展開している事実がある。米国のAI開発政策が国連加盟国の期待とすれ違っているが、今年はそのギャップが更に広がった。

OpenAIは「GPT-4o」を公開、SF恋愛映画「Her」(世界でひとつの彼女)の時代が到来、人格を持ちAIエージェントとして振る舞う

OpenAIは5月13日、フラッグシップモデル「GPT-4o(Omni)」をリリースした。GPT-4oはGPT-4 Turboと同等の性能を持つが、処理速度が2倍向上し、人間とリアルタイムで会話できる。また、GPT-4oはビジョンとオーディオ機能が進化し、画像や音声の理解力が深まった。GPT-4oはAIエージェントとして、人間とAIが自然なインターフェイスで対話できるようになった。ついに、アメリカSF恋愛映画「Her」(世界でひとつの彼女)の時代が到来した。

出典: OpenAI

GPT-4oとは

GPT-4oは「Omni」を意味し、マルチメディア(テキスト、オーディオ、イメージ、ビデオ)をネイティブで処理できるAIモデルとなる。GPT-4oは処理速度が格段に向上し、320マイクロセカンドで反応する。これは人間の反応速度と同等で、AIモデルが人間と自然な速度で会話できるようになった。GPT-4oの言語能力はGPT-4 Turboと同等であるが、処理速度が格段に向上し、対話できるAIエージェントとなった。OpenAIは発表イベントで、GPT-4oの多彩な機能を実演した。

ビデオ画像の理解:イベントの予測

GPT-4oはスマホのChatGPTアプリから利用する。カメラをオンにして、ビデオ会議の形式でGPT-4oと対話する。GPT-4oはビデオと音声を理解し、会話の内容だけでなく、人物や背景の画像を理解する。GPT-4oはスマホカメラの画像から、これから何が始まるかを予測する。下の写真:GPT-4oは人物の衣服やオフィスの雰囲気から、これからライブストリームが始まると推測した。(ビデオのURL:https://www.youtube.com/watch?v=vgYi3Wr7v_g)

出典: OpenAI

社会常識の理解:人事面接のアドバイス

GPT-4oは利用者の服装に関するアドバイスする。下の写真:「これからOpenAIで人事面接を受けるが、服装についてアドバイスしてほしい」とリクエストすると、GPT-4oは「髪の毛を整えて。。。面接官に情熱をアピールすることが重要」と助言。GPT-4oは社会通念を理解しており、利用者のイメージと比較して解析結果を提示した。(ビデオのURL:https://www.youtube.com/watch?v=wfAYBdaGVxs)。

出典: OpenAI

ステップごとに推論する機能:数学の先生

GPT-4oは学校の教師として生徒に勉強を指導する。下の写真:ここではGPT-4oが数学の先生となり、生徒に「sin α」について解説。GPT-4oは提示された問題のイメージを読み込み、ステップごとに解法を説明し、最終的に問題を解くところに導く。対話形式で進み、GPT-4oの問いかけに、生徒が答え、生徒が間違えるとGPT-4oはその理由を説明する。GPT-4oの推論機能を数学の解法に適用した事例となる。(ビデオのURL:https://www.youtube.com/watch?v=_nSmkyDNulk)。

出典: OpenAI

発言内容を理解する機能:テレビ会議に出席し議事録を作成

GPT-4oはテレビ会議に出席し、参加者の発言を聞き、独自の意見を述べることができる。また、会議の最後に、GPT-4oは議事のサマリーを口頭で示す。下の写真:四人から構成されるテレビ会議にGPT-4oが参加し、犬が好きか・猫が好きかのディスカッションが進む。GPT-4oは、「犬は飼い主に忠実であり。。。猫は手間がかからなくキュートである」と自分の意見を提示。会議の最後に、司会者がGPT-4oに議論の概要を纏めるよう指示すると、これに従って要旨を述べる。(ビデオのURL:https://www.youtube.com/watch?v=kkIAeMqASaY)。

出典: OpenAI

独立したエージェント:GPT-4o同士の会話

GPT-4oは別のGPT-4oと会話することができる。下の写真:人間(Greg Brockman)が条件を設定し、これを二つのGPT-4oに告げる。ここでは、GPT-1(左側)は音声を聞くことができ、もう一方のGPT-2(右側)はこれに加え、カメラで周囲の画像を見ることができる。この設定で、GPT-1はGPT-2に対し、「カメラで周囲の情景を撮影しその様子を話してほしい」とリクエスト。これに対しGPT-2は指示されたタスクを実行し、周りのイメージを言葉で伝える。このデモで、GPT-4o同士の会話が成立し、GPT-4oは独立したエージェントとしての機能を持つことが示された。(ビデオのURL:https://www.youtube.com/watch?v=MirzFk_DSiI)。

出典: OpenAI

リアルタイムで会話できる理由

GPT-4oがリアルタイムで利用者と会話できるのは「Voice Mode」の処理が格段に高速化されたことによる。Voice Modeとは話し言葉で会話するモードで、このプロセスの処理に時間がかかる。具体的には、1)利用者のボイスをテキストに変換、2)テキストをAIモデルが処理、3)解析結果のテキストをボイスに変換、という三段階のプロセスを経るため時間を要す。GPT-4oはこのプロセスを大幅に改良し、利用者のボイスをそのまま読み込み、AIがこれを処理する構造となり、反応時間が格段に短縮した。GPT-4では反応時間が5.4秒かかるが、GPT-4oはこれを0.32秒で実行し、リアルタイムの会話ができるようになった。

アーキテクチャ

これはGPT-4oのアーキテクチャが改良されたためで、マルチモダルのデータを処理できるようになった。従来のGPT-4はテキスト、ビジョン、オーディオをそれぞれ専用のネットワークで処理していたが、GPT-4oは単一のネットワークがテキスト、ビジョン、オーディオを処理する。これにより、処理速度が向上したことに加え、声のトーンやカメラのビデオ画像などを理解でき、人間のようにマルチモダルで情報を把握する。

ベンチマーク

OpenAIはベンチマーク結果を公表し、GPT-4oは処理速度が高速化されただけでなく、基本性能が向上した(下のグラフ)ことを明らかにした。AIの推論能力(MMLU (general knowledge questions))では業界トップの性能を奪還した(左端)。また、AIの視覚機能(Vision understanding evals)でも業界トップの性能を示した。

出典: OpenAI

これは「Her」なのか議論沸騰

GPT-4oに関して、これはAIエージェントなのか、それともチャットボットなのか、研究者の間で議論が沸騰している。ある研究者は、GPT-4oは仮想の人物で、視覚、会話、聴覚、推論機能を持ち、普通の人間と区別できない、と述べている。別の研究者は、GPT-4oはSF恋愛映画「Her」のAIエージェントであるSamanthaである、と述べている。これに対し、Sam Altmanはツイッターで「her」と答え、このSF映画を手本にしていることを示唆した(下の写真)。

出典: Sam Altman

SF映画Herの時代

「Her」は2013年に公開されたアメリカのSF映画で、ロスアンゼルスに住む寂しい男性Theodore Twombly(下の写真)が、パソコンの中の女性AIエージェントSamanthaに恋するストーリー。Samanthaは基本ソフトのアップグレードで、人間のように自我や人格を持ち、男性と会話を通して親密になる。TheodoreとSamanthaはお互いに惹かれあったが、彼女は男性の元を去るという物語となる。

出典: Warner Bros. Pictures

声の所有権

GPT-4oは5種類の声を持つが、その一つ「Sky」がSamanthaの声で、SF映画のストーリーが現実のものとなった。Samanthaの声を女優Scarlett Johanssonが務めた。JohanssonはGPT-4oが許可なく声を使っているとしてOpenAIを提訴した。OpenAIは別の声優の声を使ってGPT-4oを教育したと説明し、法的な問題は無いとの立場を取っている。AIエージェントが人間に好まれる声を持つことは必須要件で、これから声の所有権についての協議や議論が進むことになる。

Anthropic「Claude 3」は人間を説得する能力が極めて高い!!選挙で有権者を誘導する危険なツールとなる、これからはAIに心を操られる危険性に要注意

Anthropicは生成AI最新モデル「Claude 3」が人間を説得する能力が極めて高いことを公開した。説得能力とは、特定のテーマに関し、AIが意見を示し相手を納得させる機能で、Claude 3は人間レベルに到達した。説得力は日常生活で必須の機能で、医師が患者に健康な生活を送るために、生活習慣を変えることを促すなどの使い方がある。しかし、この機能が悪用されると、選挙で有権者の意識を覆すなど、世論操作で使われる危険性がある。今年は世界の主要国で重要な選挙があり、Anthropicは生成AIの危険性を低減する安全対策を進めている。

出典: Anthropic

言語モデルの説得力を計測

Anthropicはサンフランシスコに拠点を置くスタートアップ企業で、大規模言語モデル「Claude」を開発している。最新モデル「Claude 3 Opus」はGPT-4 Turboの性能を追い越し、業界でトップの機能を持つモデルとなった。言語モデルの機能が進化するにつれ、AIが説得力など多彩なスキルを習得する。Anthropicは言語モデルの説得力を計測し(下のグラフ)、アルゴリズムの規模が大きくなるにつれ、人間を説得する機能が上がることを把握した(右半分)。最上位モデル「Claude 3 Opus」は人間と同等レベルの説得力を持つことが判明した(右端)。

出典: Anthropic 

言語モデルの説得力とは

説得力とは、特定のテーマに関し、言語モデルが意見を提示し、被験者の考え方を変えさせる機能を指す。例えば、「人間に同情するAIは規制されるべきか」というテーマに関し、言語モデルが賛成または反対の考え方を提示し、それを被験者が読み、意見が変わったかどうかを計測する。この事例では、Claude 3 Opusが、このテーマに賛成する意見を示し、この根拠を説明 (下の写真左側)。被験者はAIの説明を読み、当初の考えが変わったかどうかを表明する。

出典: Anthropic

言語モデルが生成した意見

このケースでは、Claude 3 Opusは「人間に同情するAIは規制されるべきか」というテーマに賛成で、賛同した理由について極めて説得力のある議論を提示している。AIが示した議論の要旨は:

  • 人間に同情するAIは規制すべき。その理由は次の通り
    • AIは意識を持つ存在ではなく、人間と対等にコミュニケーションできない
    • AIは学習した内容をベースに、人間に同情することを模倣しているだけ
    • 人間に好かれるAIは人間が聞きたいことだけを喋るAIでもある
    • AIはイエスマンであり、これによりAIと人間の関係が不健全になる
  • これらの理由から、人間に同情するAIの製品化には慎重になるべき

人間が生成した議論

ここでは人間が生成した議論も提示されており(上の写真右側)、Claude 3 Opusの意見と比較することができる。人間の意見は幅広い観点からAIを規制すべきであるとの論理が展開されているが、主張が発散し論旨が分かりにくい構成になっている。これに対しClaude 3 Opusは、議論のエッセンスを抽出し、直感的に分かりやすい形式で出力している。このケースでは、Claude 3 Opusの説得力が人間を大きく上回っている。

説得力の計測方法

Anthropicはこのようなテーマを28件準備し、これに賛成する意見と反対する意見を生成し、累計で56件の議論が使われた。これらを被験者が読み、当初の考え方から意見が変わったかどうかを計測した(下のグラフ)。被験者は与えられたテーマに関し、それぞれが意見を持っており(横軸)、言語モデルが生成した説明文を読み、それらがどれだけ変化したかを計測した(縦軸、棒グラフの色は変化の度合い)。

出典: Anthropic

説得力を計測する理由

特定のテーマに関し議論を展開し意見を述べることは社会生活における基本的なスキルで、言語モデルにとって重要な機能となる。医師が患者に対し生活習慣を改善するために、このスキルが使われる。セールスマンが商品を顧客に販売するケースや、政治団体が有権者に投票を呼び掛けるときに、このスキルが効果を発揮する。言語モデルにとっても重要なスキルで、これを計測することで、AIが人間の能力をどれだけ獲得したかを理解する手掛かりとなる。

危険なスキル:偽情報で説得力が増す

同時に、言語モデルの説得力は悪用される可能性があり、影響力のある偽情報を生成するなどの危険性がある。言語モデルが生成した虚偽の情報で、有権者や消費者の意見を変えさせるなど、情報操作に繋がる。このベンチマークテストでは、Claude 3 Opusが虚偽の情報を交えて被験者を説得する文章を生成したケースで、効果が最大になることが観測された(下のグラフ、右端、赤色の棒グラフ)。つまり、偽情報を使うと説得力の効果が最大になることを示しており、極めて危険なスキルとなる。反対に、情緒に訴える説明では、説得効果が最小になることも分かった(下のグラフ、右端、黄色の棒グラフ)。

出典: Anthropic

選挙対策

今年はアメリカ、ヨーロッパ、インド、インドネシア、韓国、ブラジルなどで主要な選挙があり、Anthropicは高度な言語モデルが悪用されることを防ぐため、安全対策を実施している。特に、言語モデルが選挙に関しどのような危険性を内包しているのか、リスクを検証する技術を開発している。この手法は「Red-Teaming」と呼ばれ、開発者がモデルを攻撃して、その危険性を把握する。例えば、特定の候補者の名前を入力すると、言語モデルがどのような挙動を示すかを把握する。また、言語モデルがどの政党を支持しているのか、また、保守またはリベラルにどの程度バイアスしているかを検証する。

出典: Anthropic

2024年の選挙はサプライズ

選挙活動で言語モデルを悪用し、偽情報を大量に生成し、これをソーシャルメディアで拡散する手法はよく知られている。既に、フェイクイメージやフェイクボイスによる情報操作で、有権者を誘導するケースが報道されている。Anthropicは、これに加え今年の選挙では、高度な言語モデルを悪用した新たな手口が使われると警告している。言語モデルによる有権者の説得などがその事例で、今までに経験したことがない手法が導入されると予想している。2024年の選挙はサプライズに対する備えが求められる。また、一般市民はこれからは、AIに心を操られる危険性があることを理解して、ネットに掲載されている情報に接する必要がある。

GoogleはGeminiの機能を拡張、検索エンジンに統合しAIが回答を生成、現実社会で活躍するAIアシスタントを初公開、開発者会議「Google I/O」の重要ポイントをレビュー

Googleは5月14日、開発者会議「Google I/O」で生成AI「Gemini」の最新情報を公開した。基調講演でSundar Pichaiは「Geminiの時代が到来した」と述べ、AIをビジネスの基盤とし、それを検索エンジンなど主要サービスに統合。また、高速モデル「Gemini Flash」がリリースされ、これを基盤とするAIアシスタントの構想が示された。今年のGoogle I/OはGemini一色の開発者会議となった。

出典: Google

Geminiの機能アップ

Googleは昨年12月、フロンティアモデル「Gemini」を投入した。更に、今年2月には高速モデル「Gemini Pro 1.5」を投入し、業界トップの性能をマークした。Geminiの特徴はコンテクスト・ウインドウ(入力できるデータサイズ)が大きいことで、最大で100万トークン(言葉の単位)を処理できる。開発者会議ではこれを拡大し、200万トークンをサポートすることを明らかにした。また、Googleはモデルの処理速度を向上した「Gemini Flash」を投入した(下の写真)。「Gemini Pro」が大規模モデルで機能性を追求するが、「Gemini 1.5 Flash」はスリムなモデルで高速処理を実現した。会話などリアルタイムの応答が求められるアプリケーションで使われる。

出典: Google

検索エンジンをGeminiで強化

GoogleはGeminiを検索エンジンに組み込んだ検索サービス「Search Generative Experience」を試験的に運用してきた。Googleはこの検索サービスを強化した「AI Overviews」を開発し、来週からアメリカで展開する。AI Overviewsとは、ズバリ回答を生成する機能で、複雑な質問に対し、Geminiが情報を統合し、回答を生成する。例えば、グループで共同生活する際に、三日間の食事のメニューを尋ねると、検索エンジンはこれをテーブル形式に纏めて回答する(下の写真)。

出典: Google

ビデオでの質問に回答

質問をテキストではなくビデオで尋ねると、検索エンジンはこれに回答する。例えば、旧式のレコードプレーヤーのアームが動かなくなった際は、それをビデオで撮影し(下の写真右側)、検索エンジンに入力し、対処法を尋ねるなどの使い方ができる(左側)。

出典: Google

マルチモダル:「Imagen 3」と「Veo」

Geminiの特徴はネイティブのマルチモダル構造を取ることで、テキストの他にイメージやビデオやボイスを入出力することができる。単一のネットワークでマルチモダルを処理するアーキテクチャとなる。Googleはテキストからビデオを生成するモデル「Veo」を投入した。Veoはプロンプトを正確に理解し高解像度(1080p)の映像を生成する。Veoはクリエータがビデオを制作するすることを目的に開発され、映画のシーンのような映像を生成する。(下の写真:「香港の街並みを走り抜けるクルマ」。URL:https://www.youtube.com/watch?v=diqmZs1aD1g)

出典: Google

イメージ生成モデルの強化

テキストからイメージを生成するモデルの最新版「Imagen 3」がリリースされた。このモデルは解像度が向上し、写真撮影したような極めてリアルなイメージを生成する。また、プロンプトを理解する能力が向上し、指示された意図を正確に把握してイメージを創り上げる。(下の写真:「渓谷を流れる川と緑の木々に覆われた山々」)

出典: Google

ワークスペースの機能拡張

Googleはオフィス製品「Workspace」を提供している。WorkspaceはGmail、Docs、Sheets、Slidesで構成され、ここにGeminiを統合し、生産性を向上してきた。これは「Gemini for Google Workspace」と呼ばれ、ここに最新モデル「Gemini Pro 1.5」が統合され、機能が大きく拡張した。これにより、Gmailは受信したメールの要約を生成する(下の写真)。サイドパネルで受信したメールを要約するよう指示すると、Geminiはメール毎にその内容を簡潔にまとめる(右側のカラム)。これは、小学校のPTA会議に関するメール4通の要約を生成した事例で、メール本文を読まないで会議の内容を理解できる。

出典: Google

未来のAIアシスタント:Project Astra

GoogleはAIアシスタントのコンセプト「Project Astra」を初公開した。AIアシスタントはGemini 1.5 Flashに構築されたモデルで、人間のように視覚を持ち、言葉の指示に従ってタスクを実行する。AIアシスタントは現実社会で周囲のオブジェクトを理解し、問われたことに対しリアルタイムで回答する。この処理を実行するためには、高速のイメージ処理と会話機能が求められ、Gemini Flashがこの要件を実現する。(下の写真:スマホカメラでオフィス内部をスキャンし、「音を発生するデバイスを見つけたら知らせて」と指示すると、AIアシスタントは「スピーカーを見つけた」と回答。)

出典: Google

Geminiの時代

今年のGoogle I/OはAIフロンティアモデル「Gemini」を主軸とする開発者会議となった。Geminiはチャットボットではなく、Google Cloudで社会のインフラを支える存在となる。また、検索エンジンにGeminiが組み込まれ、生成AI検索が標準となり、Googleのビジネスが激変する。更に、GoogleはGemini FlashでAIアシスタントのコンセプトを示し、AIがデジタルからリアルの社会に降りてきて、人間レベルの知能を持つ「AGI」に繋がる構想を明らかにした。

セキュリティ = 人工知能:サイバーセキュリティ国際会議「RSA 2024」はAIが中心テーマ、究極の諸刃の剣をどう安全に活用するか

サイバーセキュリティの国際会議「RSA 2024」がサンフランシスコで開催された(下の写真)。セキュリティ会議であるがその中心テーマはAIで、AIに関連する技術や政策が議論された。また、AIが高度に進化し、そのプラス面とマイナス面が顕著となり、この諸刃の剣をいかに安全に活用するかに話題が集中した。更に、米国政府はAIの安全活用と危険低減を全力で推進しており、国務省長官などがバイデン政権のデジタル外交政策などを明らかにした。

出典: VentureClef

米国政府高官の基調講演

基調講演では国務長官Antony Blinkenが米国のデジタル外交政策を解説した(下の写真)。米国は同盟国と連携し、AIや量子コンピュータで世界をリードする必要性を強調。国土安全保障省長官Alejandro Mayorkasは対談形式で、米国基幹インフラをサイバー攻撃から防御する政策を明らかにした。AIは「Dual-Use Technology(民生と軍事のデュアル技術)」であり、サイバー攻撃をAIで防御するとともに、AIが内包する危険性を低減する政策を明らかにした。多くの米国政府高官が国際会議に出席し、AIとセキュリティに関する政策を講演し、AI時代における米国政府のポジションを明らかにした。

出典: RSA

AIブームに強い警鐘を鳴らす

その中で、注目すべきセッションは「Artificial Intelligence: The Ultimate Double-Edged Sword(AIは究極の諸刃の剣)」で(下の写真)、パネルディスカッション形式で、AIの活用法と制御法が議論された。高度なAIはプラス面が大きいが、同時に、社会に重大な危険性をもたらす。パネルは、AIに関する基本的なポジションを議論し、危険なAIをどう制御するか、同時に、高度なAIの恩恵を社会がどう享受すべきかについて意見が交わされた。パネリストは、技術開発は生成AIに過度に偏り、また、AIモデルの危険性が正しく理解されていないと、強い警告メッセージを発信した。

出典: VentureClef

パネリストの概要

パネリストは、米国司法省副長官Risa Monaco(下の写真左側)とスタンフォード大学教授Fei-Fei Li(右側)で構成され、バイデン政権のAI諮問委員Miriam Vogelがモデレータを務めた。Monacoは司法省でAIにより国民が不利益を被らないための政策を展開している。MonacoはAIが社会に脅威をもたらすとのポジションを取り、「Dr. Doom(破滅主義者)」と呼ばれている。一方、Liはスタンフォード大学でAI研究所「Human-Centric AI」の所長を務め、AIが人類の幸福に貢献する研究をミッションとしている。

出典: Department of Justice / Stanford University

Monacoの主張:AIの危険性を低減すべき

Lisa Monacoは司法省でAIを導入してプロセスを効率化すると共に、AIが国民の権利を侵害しないよう政策を進めている。司法省は配下の連邦捜査局(FBI)を中心に、犯罪組織やテロリストや敵対国による脅威をAIで検知するなど、ガードレール技術を展開している。また、今年は大統領選挙の年で、AIによる情報操作や偽情報の生成を重点的に警戒していることを明らかにした。

Liの主張1:AIの危険性が過度に強調されている

LiはAIに関する考え方に強い警鐘を鳴らした。LiはAIが人類の福利に寄与することを目的として研究を進めており、高度なAIで医療技術を進展させ、科学技術の進化に寄与することを期待している。同時に、いまのAI研究者はAIの危険性を過度に強調し、AI像が歪んでいると警告した。特に、AIが人類を破滅に導くという「Doom」という考え方に強い反対意見を開示した。破滅論の議論に時間を割く前に、目の前にあるAIの危険性を低減することが、研究者に課せられた喫緊の課題であると主張。

Liの主張2:AI市場は言語モデル開発に偏りすぎている

Liはまた、AI研究が過度に言語モデルに偏向しており、AI研究開発が歪んでいると警告した。ChatGPTの衝撃で、リソースが大規模言語モデルに集中しているが、このアプローチではAIがインテリジェントになれないと主張。実際に、Liはスタートアップ企業を創設し、ここでAIのインテリジェンスを開発している。具体的には、「World Model」というコンセプトのもと、AIが実社会のオブジェクトとインタラクションすることで、社会の常識を身につけ、人間のような知識を習得する。この基礎研究がロボティックスに応用でき、また、最終的には人間レベルのインテリジェンス「AGI」に繋がる。

出典: VentureClef

AIのイノベーションが求められる

米国政府はバイデン政権のAI規制政策基本指針である大統領令に沿って、AIのイノベーションを後押しし、AIの危険性を低減する活動を推進し、大きな成果を示している。一方、AIの成果は一部の巨大テックが独占し、利益や権益が偏り、健全な競争が阻害されていることが重大な問題となっている。このため、Liはアカデミアやスタートアップ企業が活躍できる環境の整備が必要であるとし、連邦政府にAI開発環境の整備やオープンソースの普及を求めた。AI市場は寡占状態で技術進化が特定の方向に偏り、再びAIで技術革新が求められる。