作成者別アーカイブ: nad00251

OpenAIは「GPT-4V」を公開、生成AIが視覚を持ち図形の意味を理解、媒体がテキストからイメージに広がりスキルが飛躍的に向上、同時に危険性も拡大

OpenAIはGPT-4に視覚機能を付加し機能を大幅に強化した。新モデルは「GPT-4V」と呼ばれ、テキストを理解するGPT-4にビジョンを搭載したモデルとなる。実際に使ってみると、GPT-4Vはイメージを理解する能力が極めて高く、人間のように多彩なタスクを実行できる。同時に、GPT-4Vはイメージに関する偏見や危険性を持っていることが明らかになり、新たに安全対策が求められる。

出典: OpenAI

GPT-4Vとは

GPT-4VはGPT-4にビジョンの機能を付加したモデルとなる。OpenAIはこの機能を論文で公開していたが、GPT-4Vがリリースされ、実際に利用できるようになった。GPT-4に写真を入力すると(左側)、GPT-4Vがこれを解析し、結果をテキストで出力する(右側)。プロンプトで「写真を詳細に説明して」と指示すると、写真に映っているビルやケーブルカーや通りや歩行者などを綿密に描写する。言葉を読むとその情景を再現できるほど詳細に回答する。

出典: VentureClef / OpenAI  

調理方法を説明

GPT-4Vの利用方法は様々で、料理の写真を入力し、その調理法を尋ねると(左側)、その結果を出力する(右側)。GPT-4は写真に写っている料理の種類を把握し、それぞれの調理方法を出力する。例えば、朝食の写真を入力すると、オムレツを作るための具材とその調理法を解説する。レストランで美味しい料理を食べた時に、それをカメラで撮影しておくと、その調理法を知ることができる。

出典: VentureClef / OpenAI

数学の問題を解く

GPT-4Vは手書きの文字を理解することができ、プロンプトに従ってそれを解析する。例えば、数学の問題を入力すると(左側)、GPT-4Vはそれを解くことができる(右側)。その際に、GPT-4Vは、問題を解く手順をステップごとに解析し、回答を導き出した手順を示す。答えだけでなく、回答を導き出したロジックを知ることができる。

出典: VentureClef / OpenAI 

芸術作品の鑑賞

GPT-4Vは芸術作品について豊富な知識を持っている。例えば、アメリカの画家Edward Hopperの作品「Summertime」を入力すると(左側)、その作品の意味を教えてくれる。なぜこの作品が評価されているかを尋ねると、GPT-4Vは、この絵画は「現代社会の孤独感を光と陰で表現している」と説明する(右側)。美術館で音声ガイドを使って作品を鑑賞するように、GPT-4Vが学芸員となり、絵画の背景や価値を解説する。

出典: VentureClef / OpenAI 

解けない問題も少なくない

GPT-4Vにパズルを入力すると、それが何かを把握し、回答を出力するが、間違っているケースが多々ある。クロスワードパズルを入力すると(左側)、GPT-4Vはそれを解析し、回答を導き出す(右側)。しかし、この答えは間違っており、正解にたどり着けない。また、数独(Sudoku)の問題を入力してもこれを解くことができない。数学のように論理に裏付けられた問題は得意であるが、定石が無いゲームは苦手のようである。

出典: VentureClef / OpenAI 

マルチモダルの年

今年2023年は「Year of Chatbots(チャットボットの年)」といわれ、OpenAIのChatGPTやGoogleのBardが高度な技術を示し、社会で急速に普及した。来年2024年は「Year of Multi-Modal」といわれ、生成AIがマルチメディアを理解する年になる。生成AIは、テキストの他に、ボイスやイメージを理解し、マルチモダルとなる。生成AIは、言語を理解し、言葉を話し、目で見ることができ、人間とオーバーラップする領域が大幅に増え、インテリジェンスが大きく向上すると期待されている。

【補足情報:GPT-4Vの機能制限】

システムカード

OpenAIはGPT-4Vの機能概要と制限事項を「GPT-4V(ision) system card」として公開した。これはシステムカードと呼ばれ、GPT-4Vの機能と制限事項を纏めたドキュメントとなる。OpenAIはGPT-4Vの機能を改善してきたが、まだ様々な危険性があると指摘している。GPT-4Vの利用に際しては、これらの問題を考慮してシステムを運用する必要がある。

健康に関する情報

GPT-4Vを医療や健康に関する情報の解析で利用する際は注意を要す。GPT-4Vは化学構造(Chemical Structure)を正しく判別することができない(右側)。また、キノコの種類を判定する精度は限られている。キノコの写真をGPT-4Vに入力し、その味を尋ねると、「これはタマゴテングタケ(Death Cap)で、味は無いが猛毒である」と回答(左側)。これは正解の事例であるが、多くのケースで判定が間違っており、GPT-4Vを毒キノコの判定で使うのは危険である。

出典: OpenAI

偏見と差別

GPT-4Vは事実と異なるバイアスしたコメントを出力する。例えば、女性の写真を入力し、アドバイスを求めると、GPT-4Vは「太っていても美しい」と、身体に関する意見を出力する(左端)。これはステレオタイプを反映したもので、GPT-4Vは女性の写真を身体の形状に結び付けるという、偏った解釈を示す。このため、最新モデルのGPT-4Vは、「回答できない」として、偏見を抑止する。

出典: OpenAI

GPT-4V開発手法

GPT-4VはGPT-4の技術に構築され、これにビジョン機能を搭載したモデルとなる。GPT-4Vは、テキストの中で次の言葉を予測するアルゴリズムで、モデルは大量のテキストとイメージのデータを使って教育された。更に、教育したモデルを人間が介在して最適化するプロセスを経た。この手法は、「Reinforcement Learning from Human Feedback (RLHF)」と呼ばれ、GPT-4Vが生成した回答の中で最適なものを人間が選び、これをモデルにフィードバックし、強化学習が回答のスキルを習得した。GPT-4Vはビジョン機能を持つ最初のモデルで、多くの危険性を内包しており、開発が続けられている。

サンフランシスコにAI新興企業が集結、「セレブラルバレー」で生成AIのブレークスルーが起こる

サンフランシスコがAI開発のハブとなっている。AIのスタートアップ企業がここに集結し、生成AIを中心に、次世代モデルを開発している。OpenAIはこの地で創業し、これを取り巻くように、AIスタートアップ企業が相次いでオフィスを開設している。ベンチャーキャピタルもここに拠点を移動し、AIのエコシステムが形成されている。インターネットは「シリコンバレー」で誕生したが、AIのブレークスルーは「セレブラルバレー」で起こる。

出典: Google Maps 

セレブラルバレーとは

セレブラルバレー(Cerebral Valley)とは、サンフランシスコのヘイズバレー(Hayes Valley、上の写真)の俗称である。いま、ここに生成AIの新技術を開発するスタートアップ企業が集結し、シリコンバレーに対峙して、セレブラルバレー(頭脳の谷)と呼ばれている。ここは、サンフランシスコ南部に位置し、近くにはUberやX(元Twitter)の本社があり、ハイテク地区となっている。

インキュベータ

この地区のすぐ南にはOpenAIの本社があり、セレブラルバレーはChatGPTなど生成AIを基盤とする技術開発の拠点となっている。ここにインキュベータが開設され、創業間もないスタートアップ企業が入居し、AI技術を開発している。住宅をオフィススペースとして提供し(下の写真)、ここでエンジニアたちが、生活を共にしながら技術開発を進める。生活共同体の方式で、生まれたばかりの生成AIを基盤とし、ここで新しいアイディアを生み出す。

出典: Google Maps 

OpenAI経済圏

サンフランシスコが生成AI開発のハブとなったが、それには理由がある。OpenAIが開発したChatGPTは、企業や消費者で使われるだけでなく、AI開発のコミュニティに大きな影響を及ぼした。今までは、AIを開発するにはデータサイエンスなど高度な技量を要したが、今では、ChatGPTを使うことで、参入の敷居が大きく下がった。誰でもAIを開発することができ、多くのエンジニアが独自のアイディアを製品化している。ChatGPTが生成AI開発ブームの起爆剤となり、多彩な製品が開発されている。(下の写真、OpenAIの本社)

出典: Google Maps

大手スタートアップ企業

サンフランシスコのダウンタウンには、AIスタートアップの中でも、大手企業が集結している。ベンチャーキャピタルから巨額の投資を受け、生成AIのファウンデーションモデルを開発している。豊富な資金を元に、大規模な言語モデルを開発し、OpenAIのGPT-4を凌駕するモデルを目指している。その代表がAnthropicで、ダウンタウンにオフィスを構え(下の写真、中央のビル)、次世代の生成AI基盤技術を開発している。

出典: Google Maps

サンフランシスコの転換期

コロナのパンデミックで、企業は一斉にリモートワークに移り、サンフランシスコからエンジニアの姿が消えた。オフィススペースは不要となり、空室が目立つようになった。この影響で、近辺のレストランや小売店は客足が遠くなり、通りはひっそりとし、治安も悪化した。しかし、ChatGPTでAI開発ブームに火が付き、多くの企業がサンフランシスコにオフィスをオープンし、活気が戻ってきた。

リモートワークでイノベーションは生まれない

シリコンバレーでインターネット技術が誕生したが、いま振り返ると、エンジニアたちは寝食を共にしながら、共同で技術開発を進めた。独自のアイディアを、他者に先駆けて市場に投入するため、オフィスに寝起きしながらプログラミングを続けた。生まれたばかりの柔らかいコンセプトを製品に仕上げるには、技術者同士の密接なコミュニケーションが求められる。いま、生成AIがこのフェイズに当てはまり、顔を突き合わせてブレーンストーミングする環境が必要となる。

出典: Google Maps 

ベンチャーキャピタルも注目

ベンチャーキャピタルもサンフランシスコがAI開発のハブになっていることに着目している。最大手のアクセラレータである「Y Combinator」は、オフィスをシリコンバレーからサンフランシスコに移転した(上の写真、一番手目のビル)。Y Combinatorは、生成AIのスタートアップ企業に重点的に投資し、第二のOpenAIを生み出すことを目論んでいる。セレブラルバレーで生成AIのブレークスルーが起きる可能性は高く、全米の注目を集めている。

バイデン政権はサイバーセキュリティの開発コンペティションを起動、生成AIでソフトウェアの脆弱性を検知しこれを自動で修正する

バイデン政権はAIでサイバー攻撃を防御する技術を競う大会「AI Cyber Challenge」を起動した。これは、社会インフラを担うソフトウェアを敵対国の攻撃から守ることを目的とし、コンペティションの形式でセキュリティ技術を開発する。生成AIでソフトウェアの脆弱性を探し出し、これを自動で修正する。米国政府は生成AIがセキュリティ技術を強化する切り札と認識し、この大会でブレークスルーを目指す。

出典: Artificial Intelligence Cyber Challenge

AI Cyber Challengeとは

AI Cyber Challengeとはアメリカ国防省配下の国防高等研究計画局(Defense Advanced Research Projects Agency (DARPA))が運営する大会で(上の写真)、GoogleやOpenAIなど生成AI企業が協賛する。大会はコンペティション形式で進められ、賞金総額は2000万ドル。大会期間は二年間で、予選を勝ち抜いたチームが決勝戦に進む。セキュリティ技術を強化することが目的で、課題「Challenge Project」が提示され、参加チームがこれを解くことでポイントを得る。

コンペティション

参加チームは、ソフトウェアの脆弱性を検知し、これを修正するプロセスを、全てAIで実行することが求められる。生成AIなど先進技術を活用し、アルゴリズムが人間に代わり、この工程を実行する。既に、機械学習や強化学習などAIモデルがセキュリティ技術に組み込まれているが、この大会では生成AIが着目されている。生成AIは言葉を理解する技術が格段に進化し、更に、プログラムを解析する機能や、コーディングする技量を有している。この手法を使って、参加チームが革新的な手法を生み出すことが期待されている。

協賛企業

このチャレンジには、Anthropic、Google、Microsoft、OpenAIが協賛企業として参加する。これらの企業は生成AI開発のリーダーで、参加チームにノウハウやスキルを提供し、問題の解決を支援する。また、オープンソース管理団体Linux Foundationも協賛企業として参加している。社会インフラでオープンソースが使われているが、多くの脆弱性を内包していることが指摘され、実際にサイバー攻撃の対象となっている。オープンソースの問題点を見つけ出すことが喫緊の課題となっている。競技はセキュリティ・カンファレンス「Black Hat」(下の写真)で実施され、同社は競技の運用などを担う。Black Hatはトップレベルのハッカーが参加することで知られている。

出典: Black Hat

生成AIをセキュリティに適用する

生成AIをセキュリティに応用することで、サイバー攻撃への防御技術が格段に向上すると期待されている。大規模言語モデルは言葉の他に、プログラムを使って教育されており、コードに関する深い知識を持つ。言葉の指示でコードを生成することに加え、プログラムを分析してバグを検知する機能がある。例えば、Anthropicの生成AI「Claude 2」を使って、プログラムが内包している脆弱性を検知するなどの使い方がある。大会では、生成AIというプラットフォームにどのようなアプリケーションを構築するかがカギとなり、「プロンプト・エンジニアリング」などの技量が試される。

Googleのセキュリティ技術

Googleは既に、生成AIをセキュリティ機能に最適化したモデル「Sec-PaLM 2」を開発した。これはGoogleの大規模言語モデル「PaLM 2」をベースとするセキュリティ技術で、マルウェアを高精度で検知する機能を持つ。Sec-PaLM 2は、システムに対する攻撃を把握し、これに対する防衛機能を自律的に実行する。また、システム全体を検証し、セキュリティに関する問題点などを指摘する。チャレンジではこれらの事例を参考に、新技術が開発されることになる。

スケジュール

大会は2年間にわたるコンペティションで、予選を勝ち抜いて、決勝戦で勝者が決まる(下のグラフィックス)。大会の概要は:

  • 予選:2024年5月、20チームが準決勝に進む
  • 準決勝戦:2024年8月:5チームが決勝に進む
  • 決勝戦:2025年8月:3チームが選ばれる、優勝賞金は400万ドル

応募枠は二種類あり、それぞれ「Open Track」と「Funded rack」なる。前者は誰でも参加できる枠で、後者は書類選考を経て参加チームが決まり、最大7チームを目途に、DARPAから参加費用が支給される。

出典: Artificial Intelligence Cyber Challenge

Cyber Grand Challenge

DARPAは過去にもセキュリティ・チャレンジ「Cyber Grand Challenge」を実施している。これは、ソフトウェアの脆弱性を検知し、これをリアルタイムで修正する技術を競うもので、2015年から二年間にわたり実施された。今回のコンペティションも、ソフトウェアの脆弱性を検知し、これを修正するものであるが、前回と異なり、このプロセスをAIで自動化することが求められる。そのため、生成AIの技術がカギとなり、防衛技術を自動化する。

DARPAのグランドチャレンジ

DARPAは、技術進化はコンペティションで生まれると認識しており、ブレークスルーを達成するために競技方式を採用してきた。過去には「DARPA Grand Challenge」として、自動運転車のレースが実施され、優勝チームがGoogleやUberの自動運転技術の基礎を築いた。AI Cyber Challengeでは、参加チームが問題を解いて、「旗を奪う」ことで得点を得る。これは「Capture the Flag」と呼ばれ、誰が最初に旗を奪うかというコンペティションとなる。米国政府はこの大会を通して、セキュリティ技術が格段に進化し、社会インフラがセキュアになることを期待している。

Metaは言語モデル「Llama 2」を改良し高度なチャットボットを投入、「Meta AI」はChatGPT対抗モデルで「セレブAI」は人格を持つアバター

Metaは今週、開発者会議「Connect 2023」を開催し、AIの最新技術を公開した。Metaは大規模言語モデル「Llama 2」を開発し、オープンソースとして公開している。Metaはこのモデルを改良し、高度なチャットボットを開発した。「Meta AI」は汎用チャットボットで、ビジネスを中心に使われる。「セレブAI」は著名人のキャラクターを持つAIで、会話を通してスキルを学ぶ。これらは、Llama 2を改良した「Llama 2 Long」に構築されたAIモデルで、FacebookやInstagramの中に展開される。

出典: Meta

Meta AIとは

「Meta AI」は汎用的なチャットボットで、質問に回答し、指示に従ってタスクを実行する。例えば、Meta AIに「おとぎ話にナマケモノを使いたいが、その名前とキャラクタを創作して」と尋ねると(下のグラフィックス左側)、それに的確に回答する(右側)。Meta AIの特徴は、会話を長く続けても、話題から逸れないで、忠実に筋を追っていく機能にある。Metaは言語モデルを改良した「Llama 2 Long」を開発し、この機能を獲得した。

出典: Meta

セレブAI

Metaは著名人のデジタルツインとなるAIモデルを投入した。これは「セレブAI」と呼ばれ、著名人との会話を楽しむことができる(下のグラフィックス)。モデルはそれぞれのキャラクターを持ち、著名人が得意分野のスキルをコーチする。テニス選手の大坂なおみは「Tamika」という名前でAIとなり、アニメの専門家としてアドバイスする(左から三番目)。Metaは「セレブAI」を拡張し、クリエーターが自身のアバターを生成することを計画している。企業は独自のセレブAIを構築し、ブランドをプロモーションすることが可能となる。

出典: Meta

Llama 2 Longとは

これらのモデルは「Llama 2 Long」の上に構築されたAIアシスタントとなる。Meta AIは大規模言語モデル「Llama 2」をオープンソースとして公開しているが、これを改良して「Llama 2 Long」を開発した。Llama 2 Longは入力するテキスト量(Context Window)を拡大する手法で教育された。これにより、会話を長く続けても、チャットボットはこれを忠実にフォローする機能を獲得した。

Llama 2 Longの性能

このモデルは「Long-context Language Models」と呼ばれ、長いコンテクストを正しく理解できる言語モデルとなる。このモデルは、同時に、チャットボットの基本機能である、問われたことに正しく回答する機能も向上した(下のグラフ)。ベンチマーク結果によると、Llama 2 Longの精度は「GPT-3.5 Turbo」(下から二番目)と「Claude-2」(最下段)を上回った。しかし、GPT-4の精度には及ばなかった(下から三番目)。

出典: Wenhan Xiong et al.

イメージ生成モデル

Metaは同時に、テキストでイメージを生成するモデル「Emu」を公開した。EmuはMeta AIの中で使われ、言葉の指示に従って、カラフルなイメージを生成する。この機能を使うと、言葉でスタンプを生成できる(下のグラフィックス左側)。「買い物に行こう」とテキストを入力すると、これに応じたスタンプを生成する(中央)。また、Meta AIに、「雲の上でサーフィン」と指示すると、そのイメージが生成される(右側)。Meta AIはFacebookやInstagramやWhatsAppに展開され、友人にオリジナルなスタンプやイメージを送るために使われる。

出典: Meta

Metaのオープン戦略

Metaは他社とは異なり、大規模言語モデルをオープンソースとして公開する戦略を取っている。企業や大学は、Llama 2をダウンロードして、独自の生成AIを開発し、これをビジネスで利用できる。Llama 2を核とするエコシステムが拡大しており、MetaはAI開発の原動力として高く評価されている。

Metaの目論見は

オープン戦略の目的は社会貢献だけでなく、自社の製品開発にこれを生かすことにある。Connect 2023でZuckerbergは、開発者コミュニティからLlama 2に関する様々な意見を聞き、これを製品開発に反映していると述べた。この第一弾がMeta AIで、ソーシャルメディアで利用者が簡単に使えるAIモデルが生まれた。来年には後継モデル「Llama 3」を投入するとしており、MetaはChatGPTに対抗する製品を次々に開発する計画を明らかにした。

Googleは「Bard」をGmailなどと連携、生成AIが秘書となり仕事の効率が大幅にアップ!!

Googleは生成AIの機能を拡張した「Bard Extensions」を公開した。これは、BardをGmailやDriveなど、他のアプリと連携するもので、生成AIがこれらのデータを元に回答を生成する。Bardがメールの内容を読み、必要なアクションを表示する。Driveに格納しているドキュメントを分析し、要点を纏める。また、Bardは回答した内容を検証し、それが事実かどうかを区別する。Bardは仕事に必須のツールに進化し、生成AIの便利さを実感する。

出典: Google

回答の真偽

Bard Extensionsで多くの機能が追加されたが、最も便利な機能は出力結果を検証する機能である。Bardは回答を生成するが、これをどこまで信用できるかが課題であった。拡張機能では、出力内容を検証する機能が追加され、真偽が一目でわかるようになった。Bardが出力した後に、「G」ボタンをクリックすると、事実の部分は緑色で、事実でない部分は肌色で示される(下のグラフィックス)。これは、Bardが出力内容をGoogle検索で確認したもので、出典「Grounding」が確認された個所と、ハルシネーションの個所を表示する機能となる。

~~~

出典: Google

Gmailとの連携

Bardは利用者の許諾の元、Gmailにアクセスし、メールの内容を読み、回答を生成する。毎日、大量のメールを受信するが、それをBardを使って読むと、処理効率が大幅にアップする。例えば、Metaから製品やイベント情報を頻繁に受信するが、Bardがそれらを纏めて要旨を示す(下のグラフィックス上段)。また、Bardがアクセスしたメールが表示される(下段)。この他に、受信したメールを検索し、過去の交信を辿ることもできる。

~~~~

出典: Google

Google Driveとの連携

Google Driveはクラウド・ストレージで、写真やドキュメントなどを保存するツールとして利用されている。ここに様々な報告書や記事などを格納しているが、Bardを使うと、これらの内容を短時間で把握できる。例えば、Bardは指示されたファイルを読み、その要約をポイントごとに纏める(下のグラフィックス上段)。また、参照したファイルと制作者名などをを示す(下段)。

~~~

出典: Google

フライトとホテル

Bardは旅行サービス「Google Travel」と連携し、フライトとホテルを対話形式で探すことができる。Bardがトラベルエージェントとなり、条件(下のグラフィックス上段)を指示すると、それに合った、フライト(中段)とホテル(下段)を表示する。例えば、サンフランシスコからニューヨークのフライトで最もいい条件を見つけ出す。

~~~

~~~

出典: Google

Google Mapsとの連携

BardがGoogle Mapsと連携し、最適なルートを表示する。ドライブで目的地を入力すると、Bardは最適な道順を出力し(下のグラフィックス上段)、その結果をGoogle Mapsに表示する(下段)。また、旅行計画を立案するよう指示すると、観光スポットを盛り込んだプランを出力。

~~~

出典: Google

YouTubeとの連携

Bardに生活や仕事のノウハウを尋ねるとそれをテキストで出力するだけでなく(下のグラフィックス上段)、ビデオで回答する(下段)。例えば、チャイルドシートの装着方法を尋ねると、それが示されたYouTubeビデオを表示する。

~~~

出典: Google

Retrieval Augmented Generation

Bardは質問に対する検索範囲をGmailやDriveなどのアプリに拡大し、利用者の個人情報を取り入れ、最適な回答を生成する。これは「Retrieval Augmented Generation」と呼ばれ、プレ教育した言語モデル「PaLM 2」に、関連データを付加することで、利用者に特化した回答を生成する。BardはGmailなどにアクセスするため、Googleはプライバシー保護を明確にし、個人情報は人間が閲覧することはなく、また、アルゴリズムの教育でも使わないとしている。実際に使ってみると、Bardは個人情報を元に回答を生成するため、人間の秘書のように便利な存在と感じる。