カテゴリー別アーカイブ: 人工知能

Waymoは自動運転車のカメラで撮影したイメージをAIで繋ぎ合わせサンフランシスコのデジタルツインを生成

Waymoはサンフランシスコ市街地の3DモデルをAIで生成した。Waymoはサンフランシスコで自動運転車の試験走行を展開しており、クルマのカメラで撮影した写真をAIで繋ぎ合わせ、市街地の3Dマップを生成した。Google Street Viewを立体化した形状で、サンフランシスコのデジタルツインとなる。この中を自由自在に移動でき、自動運転車やロボットの開発において、アルゴリズムのシミュレーションで使われる。

出典: Waymo

写真を繋げ3Dモデルを生成

このAIは「Block-NeRF (Neural Radiance Fields)」と呼ばれ、自動運転車で撮影した写真を繋ぎ合わせ、3Dマップを生成する機能を持つ。上の写真は「グレース大聖堂(Grace Cathedral)」の前を走行しているところで、クルマの車窓から見るように風景が流れていく。ビデオ撮影した景色とは異なり、Block-NeRFで生成したモデルは、カメラのアングルを変えるなど、画像を自由に編集できる。(ビデオへのリンク。)

Dモデルの機能

Waymoはサンフランシスコのアラモ地区(Alamo Square、下の写真左側)で撮影した写真280万枚をBlock-NeRFで繋ぎ合わせて3Dモデル(下の写真右側)を生成した。生成されたモデルは、視点を変えて360度の方向から見ることができる。また、3Dモデルは一塊のデータではなく、撮影されたオブジェクトを自由に編集できる。具体的には、道路や歩道にクルマや歩行者が写っているが、Block-NeRFでこれらを消し去ることができる(下の写真右側、クルマや歩行者写っていない)。また、モデルの環境を設定することもでき、晴れの日の午後などのイメージを生成できる。

出典: Matthew Tancik et al.

NeRFとは

NeRFとは、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する手法を指す。この技法はUC BerkeleyとGoogle Researchのチームが開発した(下の写真、ドラムセットの3Dモデルを生成)。オブジェクトを周囲から撮影し、その写真をNeRFで繋ぎ合わせて3Dモデルを生成する。簡単に立体モデルを生成でき、それを柔軟に操作できるため、この技法が注目されている。

出典: B. Mildenhall, P. P. Srinivasan, M. Tancik et al.

Block-NeRFとは

NeRFは身の回りのもの(ドラムセットなど)や人物など、比較的小さな形状のオブジェクトが対象となる。これに対し、Block-NeRFは市街地のように、大規模な3Dモデルを構築できることが特徴となる。Block-NeRFは複数のNeRFを組み合わせて最終モデルを生成する。実際には、市街地を区画し、それぞれの区画でNeRFで3Dモデルを生成する。各区画で生成した3Dモデルを結合し、市街地全体の3Dモデルを生成する手順となる(下の写真左側、オレンジ色のドットが各区画で使われたNeRFを示す)。NeRFは形状(Visibility)と色彩(Color)で構成され、これを機見合わせ3Dマップを生成する。街中の景観が変わると、その部分のNeRFだけを再教育し、3Dマップを更新する(下の写真右側、上段の景観が下段に変わったケース)。市街地全体のアルゴリズムを再教育する必要はなく、効率的にモデルをアップデートできる。

出典: Matthew Tancik et al.

Block-NeRFの利用方法

生成された3Dモデルは自動運転車やロボットの開発で使われる。自動運転車はLidarやカメラで撮影したイメージから、現在地をピンポイントで特定する。これはLocalizationと呼ばれる処理で、このプロセスをBlock-NeRFで生成した3Dマップで実行する。また、自動運転車の運行を検証するため、シミュレーション環境を制作するために使われる。サンフランシスコのデジタルツインを生成し、ここで自動運転車を走行させ安全性を検証する。

メタバースへの応用

Block-NeRFで生成したモデルは、道路の走行だけでなく、上空を飛行することもできる。例えば、世界一曲がりくねった坂道「ロンバード・ストリート(Lombard Street)」の上を飛行することもできる。(ビデオへのリンク。) Waymoはコメントしていないが、都市のデジタルツインを生成し、これをメタバースの仮想社会として利用することもできる。

出典: Waymo

Waymoの走行試験

Waymoはサンフランシスコで試験走行を進めている(下の写真)。住民が被験者となり、Waymoに搭乗し、安全性の検証が行われている。先月からは、Waymoはセーフティドライバーが搭乗しない無人車両で試験走行を開始した。このケースではWaymo社員が被験者となり、無人車両に搭乗し、安全性の確認が続いている。Waymoはサンフランシスコで6か月間、試験走行を実行してきたが、無人車両での試験走行が商用化に向けた最後のステップとなる。

出典: Waymo

Nvidiaは2D写真をAIで繋げ3Dモデルを高速で生成する技法を開発、メタバースやアバターの生成に適用

Nvidiaは開発者会議「GTC 2022」をオンラインで開催した。分科会でAI研究の最新成果として、3Dモデルを高速で生成する技法を発表した。これは「Instant NeRF」と呼ばれ、カメラで撮影した複数の写真をAIで繋げ、3D世界を構築する技法である。オブジェクトや人の3Dモデルを簡単に生成できるため、メタバースを構築する基礎技術として期待されている。

出典: Nvidia

3Dモデルを生成する技術

撮影した写真を張り合わせ、被写体の3Dモデルを生成する技術は数多く存在し、ビジネスなどで利用されている。一般に、3Dモデルを生成するためには、奥行きを計測できるカメラ「Depth Camera」を使い、被写体を撮影し、それを立体的に張り合わせ、3Dモデルを生成する。また、自動運転車はLidarを使って道路や市街地の3Dモデルを作成し、この3Dマップに従って安全に走行する。

NeRFという技法

これに対し、Neural Radiance Fields(NeRF)は、カメラで撮影した写真をAIで繋ぎ合わせ、3Dモデルを生成する。2D写真をAIで3Dに再構築するため、簡単に立体モデルを生成でき、それを柔軟に操作できる。具体的には、カメラで被写体を異なる位置から撮影し(下の写真)、撮影された写真をニューラルネットワークに入力し、被写体を3Dで描写する(先頭の写真)。3Dモデルが完成すると、被写体の周囲を自由に移動でき、異なるアングルから見ることができる。Nvidiaは高速でNeRFを生成する技術「Instant NeRF」を開発し、そのビデオを公開している。(ビデオへのリンク)。

出典: Nvidia

NeRFのコンセプト

NeRFを使うとオブジェクトを簡単に3D化することができる。例えば、レゴで組み立てたブルドーザーを異なるアングルから撮影し、それをNeRFで処理すると、その3Dモデルが生成される(下の写真)。スマホカメラで写真を撮ると2DイメージがJPEGに圧縮されるように、複数の写真をNeRFで圧縮すると、3Dモデルが生成される。NeRFは「3Dカメラ」の基礎技術と位置付けられる。

出典: Nvidia

NeRFの利用方法

NeRFの利用法は様々であるが、メタバースの基礎技術として注目されている。Nvidiaはオブジェクトや人のデジタルツインを生成し、メタバースでそれをシミュレーションする手法を取る。その際に、オブジェクトの3DモデルをNeRFで生成する。また人のデジタルツインとなるアバターをNeRFで生成する。(下の写真、Instant NeRFで生成された制御室、3Dモデルの解像度は高く、また、ケーブルの陰になっている部分も正確に描写されている。)

出典: Nvidia

NeRFの仕組み

NeRFは異なるアングルから撮影した写真を入力とし、それらを色と形状に変換するニューラルネットワークとなる(下のグラフィックス)。実際には、写真を撮影した位置(Position、(x, y, z))と視線(View Angle、(θ, Φ))を入力し、ニューラルネットワークは色(RGB)と密度(Density、σ)を出力する。ニューラルネットワークを複数の写真で教育し、完成したNeRFに見る方向を入力すると、そのイメージを出力する。つまり、オブジェクトを周囲から見渡せるようになる。

出典: Nvidia

Instant NeRF

NvidiaはNeRFの高速版である「Instant NeRF」を開発した。入力するデータを前処理することで、従来のNeRFに比べ1,000倍高速で処理できる。例えば、オブジェクトを撮影した写真40枚程度でニューラルネットワークを教育すると、その処理時間は数秒程度となる。また、完成したInstant NeRFで3Dイメージを生成するにはミリセカンドで実行できる。ほぼリアルタイムで3Dモデルを生成できるようになり、応用分野が大きく広がると期待される。(下の写真、レゴのブルドーザーの写真でInstant NeRFを教育し3Dモデルを生成。)

出典: Nvidia

Dモデルの普及

Nvidiaによると、75年前にポラロイドカメラ(Polaroid Camera)が開発され、3Dモデルを瞬時に2Dの写真に変換することに成功した。Instant NeRFは逆のプロセスで、2Dの写真から瞬時に3Dモデルを生成する。ポラロイドカメラが写真が普及する礎を築いたように、NeRFにより3Dモデルが普及すると期待されている。

Nvidiaは地球のデジタルツインで気候変動研究を進める、現行の数学モデルに代わりAIが台風発生を予測

Nvidiaは、今週、開発者会議「GTC 2022」をオンラインで開催した。基調講演でCEOのJensen HuangがNvidiaのAI研究の最新成果を発表した。Nvidiaは科学技術向けメタバースである地球のデジタルツインを生成し、この3Dモデルで気候変動の研究を進めている(下の写真)。Nvidiaは米国国立研究所と共同で、地球のデジタルツインで台風や集中豪雨の発生を予測するモデルを開発した。数学モデルではなく、AIで気象の変化を予測することで、処理時間を劇的に短くすることに成功した。

出典: Nvidia

現行の天気予報の仕組み

天気予報は、海洋や陸地の状態を数値予報モデル(Numerical Weather Prediction)で表し、これをスパコンでシミュレーションする手法となる。具体的には、数値予報モデルに、現在の気象データを入力し、将来の値を計算することで状態の変化を予測する。様々な数値予測モデルが使われているが、ヨーロッパ中期予報センター(ECMWF)が開発した「Integrated Forecast System」がその代表となる。これは「欧州モデル(European Model)」とも呼ばれる。

米国のモデル

一方、米国においては、アメリカ国立気象局(National Weather Service)が開発した「Global Forecast System」が使われる。これは「米国モデル(American Model)」と呼ばれ、米国内の天気予報で使われている。一般に、欧州モデルのほうが高性能で正確な予測ができるとされる。一方、米国モデルは長期レンジ(最長16日先まで)の予測ができる点に特長がある。両モデルともシステム規模が巨大で、これを実行するには世界でトップクラスのスパコンが必要になる。

AIで天気を予測する

これらに対して、Nvidiaなどが開発した予測モデルはAIを使って気象の状態を予測する。この予測モデルは「Fourier ForeCasting Neural Network(FourCastNet)」と呼ばれ、短期から中期レンジで、台風(Typhoon)や集中豪雨(Atmospheric River)など、異常気象を予測することができる(下のグラフィックス、中段)。FourCastNetは、短時間に高精度で天気を予測することができる。欧州モデルに比べ45,000倍高速で予測することができる。

出典: Jaideep Pathak et al.

AIで予測する仕組み

現行の数値予報モデルは、数学モデルをスパコンで計算し、その解を求める手法であるが、FourCastNetはニューラルネットワークで気象を予測する。ニューラルネットワークが過去の気象データを学習し、将来のイベントを高精度で予測する。FourCastNetの教育では、ヨーロッパ中期予報センターの気象データ「ERA5」が使われ、10TBのデータでニューラルネットワークが教育された。

気象予測の事例

FourCastNetを使うと台風の発生を正確に予想できる。実際に、FourCastNetは「Typhoon Mangkhut(平成30年台風第22号)」の発生を正確に予測した(上のグラフィックス)。この台風は、フィリピンや中国、香港などに甚大な被害をもたらした。FourCastNetが予測する範囲はグローバルで、地球全体をカバーする(中央部)。日本の南の海上でMangkhutが発生した(左側最下段)が、FourCastNetはこれを正確に予測した(左側中段)。

ModulusとOmiverse

FourCastNetは地球のデジタルツインに構築され(下の写真)、気象モデルをインタラクティブに操作できる。デジタルツイン生成では「NVIDIA Omniverse」が使われ、スパコン「Earth-2」で実行された。また、AIモデルは「NVIDIA Modulus」が使われ、AIで物理問題を解析するためのツールが揃っている。具体的には、変微分方程式(partial differential equations)を解くためのニューラルネットワークが使われた。

出典: Nvidia

地球温暖化の研究

地球のデジタルツインを生成し、FourCastNetというAIモデルで気象予測を実行するのは、日々の天気予報を求めるためではなく、地球温暖化問題を解明する研究の一環となる。現行モデルで気象予測を実行すると、スパコンを使っても長時間かかる。これに対し、FourCastNetをEarth-2で実行すると、45,000倍速く予測結果を得ることができる。つまり、数多くのモデルを並列して実行でき(下の写真)、地球温暖化対策の研究を効率的に進めることができる。

出典: Nvidia

ゼレンスキー大統領のフェイクビデオが登場、Metaは即時にこれを検知し記事を削除、AIを使ったデジタル戦が拡大

ウクライナ(Ukraine)政府はロシアがフェイクビデオを使って情報操作する危険性を表明し、国民に冷静な対応を呼びかけていた。実際に、ゼレンスキー(Zelensky)大統領のフェイクビデオがメディアに掲載された(下の写真)。偽の大統領は国民に、武器を捨ててロシアに投降するよう呼びかけた。MetaはこのビデオはDeepfakesであると判定し、プラットフォームから削除した。戦時下においてはAIを使った情報戦が展開されるが、今回はそのプロトタイプが登場し、デジタル兵器の攻防が始まった。

出典: Operational Report @ Telegram

ゼレンスキー大統領の偽ビデオ

3月16日、ゼレンスキー大統領がビデオメッセージで、国民に武器を捨ててロシアに投降するよう呼びかけた。これはウクライナに対する情報戦で、ビデオはアルゴリズムにより生成されたDeepfakesで、本人の演説ではない。Metaはこれをフェイクビデオであると特定し、プラットフォームから記事を削除した(下の写真)。ロシアがウクライナに侵攻した後、Metaは特別チーム「Special Operations Center」を形成し、24時間体制で情報操作をモニターしており、このフェイクビデオを即座に検知することができた。

出典: Meta

ロシアでビデオが拡散

このフェイクビデオはMetaのプラットフォームからは削除されたが、他のソーシャルネットワークで拡散している。メッセージングアプリ「Telegram」にこのフェイクビデオが掲載され、ここには、「ハッカーがウクライナのサイトにこのビデオを掲載した」とのコメントが添えられている (先頭の写真)。また、ロシアのソーシャルネットワーク「VK」にも同じビデオが掲載され、クレムリンを指示するグループで拡散している。

テレビ局のハッキング

これに先立ち、ウクライナのテレビ局「Ukraine 24」がハッキングされ、テレビ画面に偽のテロップが表示された。フェイク・テロップはニュース画面の下部に表示され、ゼレンスキー大統領からのメッセージと偽り、「戦闘を止め武器を捨てる」よう国民に訴えた(下の写真、最下部)。また、「大統領は交渉に失敗し、キエフを去った」とも伝えている。

出典: Ukraine Now @ Telegram

ゼレンスキー大統領の対応

フェイクビデオに対し、ゼレンスキー大統領はショートビデオを公開し、偽情報を打ち消した(下の写真、Instagramから配信)。ショートビデオで、拡散したビデオは偽情報で、つたない手法の攻撃であると非難した。大統領はオフィシャルサイトから、定常的に国民にメッセージをショートビデオで配信しており、今回も、このアカウントから真実の情報を伝えた。

出典: Zelensky @ Instagram

フェイクビデオの完成度

実際に、フェイクビデオを見ると、完成度は低く、これは本物ではないと感じる。頭部が体に比べて大きく、不自然さを感じる。また、喋っている時に、頭部は動くが、体は不動のままで、強い違和感を覚える。Deepfakesを生成する高度なGANが開発されているが、このビデオは技術的には未熟で、完成の域に達していないことが分かる。このフェイクビデオはプロトタイプと解釈することもでき、これから技術改良が進み、判別が困難になると予想される。

Metaの特別チーム

ロシアはフェイクニュースなどを使って情報戦を展開しており、西側諸国が被害を受けている。米国においては、2016年の大統領選挙で、ロシアは大規模な情報操作戦を展開し、これがトランプ大統領の当選に繋がったとされる。Meta(当時はFacebook)は、ネットワークに掲載された偽情報を削除するなどの措置は取らず、米国社会から強い批判を受けた。これを教訓に、2020年の大統領選挙では、特別チームを形成し、偽情報をリアルタイムでモニターし、ロシアのデジタル攻撃を防いだ。ロシアのウクライナ侵攻では、再度、独別チームを形成し、デジタル戦を防衛している。

戦時下におけるAIの役割、ウクライナ軍は顔認識システムでロシア兵士のIDを特定

ロシア軍によるウクライナ(Ukraine)への軍事侵攻が新たな局面を迎えている。ロシア軍は首都キエフ(Kyiv)に迫っているが、ウクライナ軍の反撃が続き、侵攻は足踏み状態になっている。ウクライナ軍は本土防衛のために、AIなどのハイテクを導入することを明らかにした。高精度の顔認識システムを導入し、ロシア兵士のIDを特定し、デジタルな防衛網を構築する。(ウクライナ政府は民間施設が攻撃されていることを示し(下の写真)、防衛のための寄付を暗号通貨で募っている。)

出典: Ministry of Digital Transformation of Ukraine

顔認識システム

ウクライナ国防省は顔認識システムの利用を開始したことを明らかにした。これは米国新興企業Clearviewが開発したもので、通信社ロイターが報道した。Clearviewは世界で最大規模の顔データベースを構築し、その判定精度は業界のトップである。Clearviewはこのシステムを無料でウクライナ軍に提供し、ロシア兵のIDを特定するために使われる。

ロシア兵のIDの特定

顔認識システムはロシア兵士の身元を特定するために使われるが、具体的には、攻撃を行ったロシア兵士の氏名などを把握する。また、死亡したロシア兵士の身元の特定のためにも使われる。戦士のIDを特定するためには指紋が使われるが、顔認識システムだと、その場で顔写真から身元を特定できる。ロシア軍は工作員を市街地に送り込み、破壊作戦を展開している。このため、チェックポイントなどで顔写真から、ロシア兵士を特定するためにも使われる。

出典: CNN

難民の身元の特定

顔認識システムは難民の身元を特定するためにも使うことができる。多くの人が戦火を避け、ウクライナを離れ、ポーランドなど近隣諸国に避難している。難民の多くは家族が離散し、再会が難しくなる。このため、顔認識システムで身元を特定し、家族の再会に役立てる。また、ソーシャルネットワークに掲載されている顔写真を解析することで、情報操作のための偽装工作を見破ることもできる。

ロシア人の顔写真データベース

Clearviewは世界の人物の顔写真100億枚を収集し、これを顔認識システムのデータベースとして使っている。被験者の顔写真をこのデータベースで検索し、本人のIDを割り出す。ここには、ロシア人の顔写真20億枚が含まれており、ロシア人のIDを高精度で特定することができる。ロシアの人口は1.4億人で、単純計算で、一人当たり14枚の顔写真が格納されていることになる。

顔写真の収集方法

Clearviewはソーシャルネットワークに公開されている顔写真をスクレ―ピングしてデータベースを構築した。スクレ―ピングとは、顔写真やその属性などを、ウェブサイトからダウンロードする手法を指す。Clearviewはロシアのソーシャルネットワーク「VK」(下の写真)から顔写真をスクレ―ピングした。VKはロシア・セントペテルスブルグ(Saint Petersburg)に拠点を置く企業で、会員数は5億人を超え、ロシアで一番人気のソーシャルネットワークである。

出典: VK

倫理的な使い方

Clearviewのスクレ―ピングの手法は個人のプライバシー侵害にあたるとして問題視されている。米国では、集団訴訟が起こり、Clearviewの手法が法廷で問われている。イギリス政府は、Clearviewは個人情報保護法に抵触するとして制裁金を科した。カナダやオーストラリア政府は、Clearviewに対し、個人情報を削除することを求めている。多くの問題を抱えているが、戦時下においては国防に役立つとして、Clearviewの技術に期待が寄せられている。

ハイテクを導入

顔認識システムとは別に、ウクライナのデジタル・トランスフォーメーション省は、米国のAI技術を導入することを計画している。既に、欧米企業はウクライナ政府にインターネット通信機器やサイバーセキュリティ・ツールを提供している。SpaceXは衛星通信システム「Starlink」の受信装置(下の写真右側)を提供している。ウクライナで地上の通信網が被害を受けているが、衛星通信でインターネットを再構築する。実際に、ウクライナ副首相は、Starlinkの受信装置 (左側)を受領したとツイートし、Elon Muskに謝意を示した。

出典: Mykhailo Fedorov / Starlink

サンフランシスコでの反戦集会

世界各地でウクライナを支援する集会が開催されているが、サンフランシスコでは市庁舎の前で反戦集会が開かれた。ベイエリアには多くのウクライナ人が暮らしており、数百人が反戦集会に参加し、プーチン大統領にウクライナから撤退するよう呼びかけた。サンフランシスコ市はウクライナを支援する意思を表明するために、市庁舎を国旗の色にライティングしている(下の写真)。

出典: Andy Soluk