OpenAIは「GPT-4V」を公開、生成AIが視覚を持ち図形の意味を理解、媒体がテキストからイメージに広がりスキルが飛躍的に向上、同時に危険性も拡大

OpenAIはGPT-4に視覚機能を付加し機能を大幅に強化した。新モデルは「GPT-4V」と呼ばれ、テキストを理解するGPT-4にビジョンを搭載したモデルとなる。実際に使ってみると、GPT-4Vはイメージを理解する能力が極めて高く、人間のように多彩なタスクを実行できる。同時に、GPT-4Vはイメージに関する偏見や危険性を持っていることが明らかになり、新たに安全対策が求められる。

出典: OpenAI

GPT-4Vとは

GPT-4VはGPT-4にビジョンの機能を付加したモデルとなる。OpenAIはこの機能を論文で公開していたが、GPT-4Vがリリースされ、実際に利用できるようになった。GPT-4に写真を入力すると(左側)、GPT-4Vがこれを解析し、結果をテキストで出力する(右側)。プロンプトで「写真を詳細に説明して」と指示すると、写真に映っているビルやケーブルカーや通りや歩行者などを綿密に描写する。言葉を読むとその情景を再現できるほど詳細に回答する。

出典: VentureClef / OpenAI  

調理方法を説明

GPT-4Vの利用方法は様々で、料理の写真を入力し、その調理法を尋ねると(左側)、その結果を出力する(右側)。GPT-4は写真に写っている料理の種類を把握し、それぞれの調理方法を出力する。例えば、朝食の写真を入力すると、オムレツを作るための具材とその調理法を解説する。レストランで美味しい料理を食べた時に、それをカメラで撮影しておくと、その調理法を知ることができる。

出典: VentureClef / OpenAI

数学の問題を解く

GPT-4Vは手書きの文字を理解することができ、プロンプトに従ってそれを解析する。例えば、数学の問題を入力すると(左側)、GPT-4Vはそれを解くことができる(右側)。その際に、GPT-4Vは、問題を解く手順をステップごとに解析し、回答を導き出した手順を示す。答えだけでなく、回答を導き出したロジックを知ることができる。

出典: VentureClef / OpenAI 

芸術作品の鑑賞

GPT-4Vは芸術作品について豊富な知識を持っている。例えば、アメリカの画家Edward Hopperの作品「Summertime」を入力すると(左側)、その作品の意味を教えてくれる。なぜこの作品が評価されているかを尋ねると、GPT-4Vは、この絵画は「現代社会の孤独感を光と陰で表現している」と説明する(右側)。美術館で音声ガイドを使って作品を鑑賞するように、GPT-4Vが学芸員となり、絵画の背景や価値を解説する。

出典: VentureClef / OpenAI 

解けない問題も少なくない

GPT-4Vにパズルを入力すると、それが何かを把握し、回答を出力するが、間違っているケースが多々ある。クロスワードパズルを入力すると(左側)、GPT-4Vはそれを解析し、回答を導き出す(右側)。しかし、この答えは間違っており、正解にたどり着けない。また、数独(Sudoku)の問題を入力してもこれを解くことができない。数学のように論理に裏付けられた問題は得意であるが、定石が無いゲームは苦手のようである。

出典: VentureClef / OpenAI 

マルチモダルの年

今年2023年は「Year of Chatbots(チャットボットの年)」といわれ、OpenAIのChatGPTやGoogleのBardが高度な技術を示し、社会で急速に普及した。来年2024年は「Year of Multi-Modal」といわれ、生成AIがマルチメディアを理解する年になる。生成AIは、テキストの他に、ボイスやイメージを理解し、マルチモダルとなる。生成AIは、言語を理解し、言葉を話し、目で見ることができ、人間とオーバーラップする領域が大幅に増え、インテリジェンスが大きく向上すると期待されている。

【補足情報:GPT-4Vの機能制限】

システムカード

OpenAIはGPT-4Vの機能概要と制限事項を「GPT-4V(ision) system card」として公開した。これはシステムカードと呼ばれ、GPT-4Vの機能と制限事項を纏めたドキュメントとなる。OpenAIはGPT-4Vの機能を改善してきたが、まだ様々な危険性があると指摘している。GPT-4Vの利用に際しては、これらの問題を考慮してシステムを運用する必要がある。

健康に関する情報

GPT-4Vを医療や健康に関する情報の解析で利用する際は注意を要す。GPT-4Vは化学構造(Chemical Structure)を正しく判別することができない(右側)。また、キノコの種類を判定する精度は限られている。キノコの写真をGPT-4Vに入力し、その味を尋ねると、「これはタマゴテングタケ(Death Cap)で、味は無いが猛毒である」と回答(左側)。これは正解の事例であるが、多くのケースで判定が間違っており、GPT-4Vを毒キノコの判定で使うのは危険である。

出典: OpenAI

偏見と差別

GPT-4Vは事実と異なるバイアスしたコメントを出力する。例えば、女性の写真を入力し、アドバイスを求めると、GPT-4Vは「太っていても美しい」と、身体に関する意見を出力する(左端)。これはステレオタイプを反映したもので、GPT-4Vは女性の写真を身体の形状に結び付けるという、偏った解釈を示す。このため、最新モデルのGPT-4Vは、「回答できない」として、偏見を抑止する。

出典: OpenAI

GPT-4V開発手法

GPT-4VはGPT-4の技術に構築され、これにビジョン機能を搭載したモデルとなる。GPT-4Vは、テキストの中で次の言葉を予測するアルゴリズムで、モデルは大量のテキストとイメージのデータを使って教育された。更に、教育したモデルを人間が介在して最適化するプロセスを経た。この手法は、「Reinforcement Learning from Human Feedback (RLHF)」と呼ばれ、GPT-4Vが生成した回答の中で最適なものを人間が選び、これをモデルにフィードバックし、強化学習が回答のスキルを習得した。GPT-4Vはビジョン機能を持つ最初のモデルで、多くの危険性を内包しており、開発が続けられている。