Nvidiaは開発者会議「GTC20」で、ビデオ会議機能をAIで強化する技法を公開した。フェイクイメージを生成する技術GAN(Generative Adversarial Network)は重大な社会問題となっているが、この技術を使うとビデオ画像が格段に鮮明になる。在宅勤務でビデオ会議が多用され通信回線がひっ迫しているが、GANを使うことで、限られた帯域の中で鮮明な画像を送信できる。

出典: Nvidia |
Nvidia Maxineとは
これは「Nvidia Maxine」と呼ばれ、AIをフルに活用したビデオ会議フレームワーク (上の写真)。この技術を使うと通信回線の状態が悪くても鮮明な画像を送ることができる。また、出席者の顔を常にカメラに正対するよう補正できる。会話型AIが発言者の言葉をリアルタイムで翻訳する。様々なAI機能が搭載され、ビデオ会議の機能が大幅にアップする。Nvidia Maxineはフレームワークで、企業は既存のテレビ会議システムにこれらAI機能を組み込み機能を強化する。
通信データの圧縮
ネットワークの状況が悪いと、ビデオ会議の映像がスムーズに伝わらない。例えば、相手の人物の映像が荒くなる(下の写真、左側)。これに対し、Nvidia MaxineはAIをデータ転送に適用することで、通信速度が遅い環境でも、高精度なイメージを送信できる(下の写真、右側)。Nvidia Maxineは、実際に顔のイメージを送信する代わりに、受信側でAIが顔のイメージを生成することで高解像度の画像を表示する。ストリーミングデータの送信ではH.264という画像圧縮規格が使われるが、Nvidia Maxineはこれに比べ10倍の精度で送信できる。

出典: Nvidia |
顔を正面に向ける
この他に、「Face Alignment」という機能を使うと、AIが横を向いている顔を正面に向ける。PCのディスプレイを見ながら話すと顔が横に向くケースが多く(下の写真、左側)、この機能を使うとこれを補正し、正対して会議をすることができる(右側)。ここでも、GANが顔イメージを生成し、それを正面に向くよう補正する。

出典: Nvidia |
同時通訳
また、「Translation」という機能を使うと、リアルタイムで話し言葉を翻訳し、それをディスプレイに表示する(下の写真)。ここでは対話型AIフレームワーク「Nvidia Jarvis」が使われている。Nvidia Jarvisが話し言葉を理解し、それを翻訳し、その結果をテキストとしてディスプレイに表示する。

出典: Nvidia |
AIアバターとの対話
開発者会議では対話型AIアバター「Conversational AI Avatar」のデモが実施された。AIアバターは音声で会話できるだけでなく、表情を変えることができ、対話における表現が増す。エイリアンのAIアバターは宇宙に関するトピックスについて対話できる(下の写真)。

出典: Nvidia |
在宅勤務とネットワーク環境
在宅勤務が続きビデオ会議が多用されるが、最大の問題点はネットワーク通信であることが分かってきた。コロナ以前は通信容量が問題になることはなかったが、在宅勤務で一斉にビデオ会議が使われると、ネットワーク環境がこれに追随できないことが明らかになった。今すぐにネットワークを補強することは難しいが、Nvidia Maxineを使うと鮮明な画像を送ることができる。
[技術概要:ストリーミングデータをGANで生成]
データ送信の仕組み
Nvidia Maxineは、顔イメージを送信するのではなく、GAN(Generative Adversarial Network)が顔のランドマークから顔のイメージを生成する手法を取る(下の写真)。送信者はカメラで撮影した写真(下の写真、Keyframeの部分)を参照データとして送り、それ以降は、顔のランドマーク (Keypointsの部分)だけを送る。受信側のPCは、GANで顔のランドマークから顔のイメージを描き出す。ここではGauGANという方式のGANが使われている。

出典: Nvidia |
GauGANとは
GauGANとはNvidiaの研究チームが開発したGANで、セマンティック情報を写真に変換する機能を持つ(下の写真)。セマンティック情報とは色で区分けされたマップ(下の写真、最上段)で、色がオブジェクト種別を示す(青色が空で茶色が樹木など)。GauGANはこのセマンティック情報を写真のようなリアルのイメージ(二段目以降)に変換する。その際に、指定されたスタイル(左端の列、朝焼けや日没など)に沿って変換する。GauGANは他の手法に比べ入力された条件(セマンティック情報)に忠実に従い、写真のようにリアルなイメージを生成できる点に特徴がある。Nvidia Maxineはこの技法を使い、入力された顔の特徴(Keypoints)を顔の写真(Keyframe)にそって生成する。顔の特徴がセマンティック情報で顔の写真が指定されたスタイルとなる。

出典: Taesung Park et al. |