月別アーカイブ: 2019年8月

AI開発が地球温暖化の原因!ニューラルネットワークが巨大化し教育で大量の電力を消費

AIの中心技術であるニューラルネットワークが巨大化している。高精度なAIを開発するためにニューラルネットワークの構造が複雑になり、それを教育するプロセスで大規模な計算量を必要とする。計算処理量は消費電力と比例し、排出される二酸化炭素量が急増している。このペースで進むと2025年までに温暖化ガスの10%をAI開発が占めるとの予測もある。AI開発は規模の競争になっているが、いかに省エネなニューラルネットワークを開発できるかが問われている。

出典: Google

AI開発と消費エネルギー量

University of Massachusettsの研究チームは論文「Energy and Policy Considerations for Deep Learning in NLP」を公開し、AI開発と消費エネルギー量の関係を明らかにした。自然言語解析(Natural Language Processing)分野でニューラルネットワークが大きく進化しているが、その精度を上げるためには大規模な演算量を必要とする。これが大量の電力消費に結びつき、開発方針を見直す必要があると提言している。

二酸化炭素排出量

研究チームは自然言語解析モデルを教育する際に発生する二酸化炭素量を算定した。これによると「Transformer」というAIを教育すると192ポンド(87キログラム)の二酸化炭素が排出される(下のテーブル、二段目、CO2e)。これは自動車に換算すると400マイル(644キロメートル)走行したケースに匹敵する。

出典: Emma Strubell et al.

Transformerとは

このTransformerとはGoogleが開発した言語モデルで翻訳などの自然言語処理で使われる。Transformerは他方式と比較して翻訳精度が極めて高いという特性を持っている。通常、言語モデルはRecurrent Neural Network(RNN)が使われるが、Googleは独自の方式でニューラルネットワークを開発し、言葉を理解する能力を格段に向上させた。実際、Transformerは翻訳サービス「Google Translate」で使われており、生活に身近な存在でもある。

Transformerを最適化すると

更に、このTransformerを最適化すると626,155ポンド(284トン)の二酸化炭素が排出され、これはクルマで地球を50周走ったケースに匹敵する(上のテーブル、六段目、NASと示された部分)。これをクラウド使用料金に換算すると最大で320万ドルとなり、今ではニューラルネットワークを一本開発するのに多額の費用が発生する。

ニューラルネットワークの最適化

Transformerを最適化するとはニューラルネットワークの構造を目的に合うように変更することを意味する。Transformerの基本モデルが完成すると、その精度を上げるため「Neural Architecture Search (NAS)」というプロセスを実行する。これがニューラルネットワークを最適化するプロセスで、ハイパーパラメータ最適化(Hyperparameter Optimization)とも呼ばれる。ハイパーパラメータとはニューラルネットワークの基本形式で、学習速度(Learning Rate)、隠れ層(Hidden Layer)の数、CNNカーネル(Convolution Kernel)の大きさなどから構成される。従来はハイパーパラメータ最適化のプロセスを研究者がマニュアルで実行してきたが、GoogleはこれをAIで実行する。AIがAIを生成することになり、この処理で大規模な演算量が発生し、これが地球温暖化の原因となっている。

ニューラルネットワークの巨大化

この研究とは別に、OpenAIはニューラルネットワークの規模が急速に巨大化していることを明らかにした。ニューラルネットワークの構造が複雑になり、それを教育するための計算量が幾何級数的に大きくなっていることを定量的に示した(下のグラフ)。ニューラルネットワークを教育するための計算量(PetaFlops-Day、1日に千兆回計算する量を1とする)で比較すると、1年間で10倍になっていることが分かる。最初のニューラルネットワーク「AlexNet」と最新のニューラルネットワーク「AlphaGO Zero」を比較するとその規模は30万倍になっている。

出典: OpenAI  

ムーアの法則を上回るペース

ムーアの法則はチップに搭載されるトランジスターの数が18か月ごとに倍増することを示している。一方、上述のケースではニューラルネットワークを教育するために必要な演算量は3.5か月ごとに倍増している。AIの規模が巨大化していることは感覚的に分かっていたが、ムーアの法則を上回る勢いで拡大していることが明らかになった。この原因はニューラルネットワーク自体が大きくなることに加え、それを最適化するプロセス(上述のNAS)で大規模な計算量が発生するためである。

精度から省エネへ

これがデータセンタの電力消費量を押し上げ、地球温暖化の原因となっている。プロセッサの進化も激しく、AI処理専用プロセッサ(Google TPUなど)の普及がこのトレンドを下支えしている。これからもニューラルネットワーク開発の規模は拡大を続け、環境に与えるインパクトは看過できなくなる。このため、ニューラルネットワーク開発では精度の追求だけでなく、如何に省エネに開発できるかが問われている。

Alphabet配下のWaymoとDeepMindが連携すると、AIが自動運転アルゴリズムを生成

Alphabet子会社であるWaymoとDeepMindは共同で、AIで自動運転アルゴリズムを生成する技法を開発した。自動運転車はニューラルネットワークで周囲のオブジェクトを把握し、その挙動を予想し、クルマの進行方向を決める。今までは、研究者がニューラルネットワークを開発してきたが、この技法を使うとAIがニューラルネットワークを生成する。AIがAIを生成する技法は既に登場しているが、これを自動運転車に適用したのはWaymoが初となる。

出典: Waymo

アルゴリズム教育

自動運転車はニューラルネットワークが安全性を決定する。Waymoは複数のニューラルネットワークを使い、センサーデータを解析し、車線や道路標識や歩行者や車両などを判定する(上の写真)。新しいデータを収集した時や、新しい場所で運転を開始する際は、ニューラルネットワークの再教育が必要となる。しかし、ニューラルネットワークを教育し、その精度を検証するには時間を要す(数週間かかるといわれている)。

ハイパーパラメータ最適化

アルゴリズム教育はニューラルネットワークのハイパーパラメータの最適化(Hyperparameter Optimization)に帰着する。ハイパーパラメータとはニューラルネットワークの基本形式で、学習速度(Learning Rate)、隠れ層(Hidden Layer)の数、CNNカーネル(Convolution Kernel)の大きさなどから構成される。ニューラルネットワークの教育を開始する前に、これらハイパーパラメータを決めておく。

AIで最適なハイパーパラメータを見つける

最適なハイパーパラメータを見つけるためには、異なる種類のハイパーパラメータを並列に稼働させ、それを検証して性能を比較する。この方式は「Random Search」と呼ばれ、AI(Deep Reinforcement Learning)の手法を使い、最適なハイパーパラメータを探す。Googleはこの方式を「AutoML」と呼び、クラウドで一般に提供している。WaymoはこのAutoMLを使い(下の写真、AutoML Architecture Searchの部分)、自動運転アルゴリズムの開発を始めた。

出典: Waymo

DeepMindが開発した新方式

DeepMindはAutoML方式を改良したシステム「Population Based Training (PBT)」を開発した。Waymoは2019年7月、この方式で自動運転アルゴリズムを開発し、性能が大きく向上したことを明らかにした。PBTもRandom Searchでハイパーパラメータを探すが、ここにダーウィンの進化論(Theory of Evolution)を適用し、自然淘汰の方式で最適な解にたどり着く。複数のニューラルネットワークが性能を競い合い、勝ったものだけが生き残る方式を採用している。

Population Based Trainingとは

具体的には、複数のニューラルネットワークを並列で教育し、それらの性能を測定する。最高の性能を達成したニューラルネットワークが生き残り、それが子供ネットワーク「Progeny」を生み出す(下の写真、複数の子供ネットワークが教育されている概念図)。

出典: DeepMind  

子供ネットワークは親ネットワークのコピーであるが、ハイパーパラメータの形が少しだけ変異(Mutate)している。自然界の摂理を参考に、ネットワークが子供に受け継がれたとき、その形を少し変異させる。生成された複数の子供ネットワークを教育し、そこからベストのものを選別し、このプロセスを繰り返す(下の写真:親ネットワークから子供ネットワークが生成される)。

出典: DeepMind  

才能を見抜く技術

PBTは優秀な子供ネットワークにリソースを集中させ、人間に例えると英才教育を施す仕組みとなる。これがPBTの強みであるが弱点でもある。PBTは短期レンジで性能を判定するため、今は性能は出ないが将来開花する遅咲きのネットワークを見つけることができない。この問題に対応するため、PBTは多様性を増やすことで遅咲きのネットワークを育てた。具体的には、ニッチグループ(Sub-Population)を作り、この中でネットワークを開発した。ちょうどガラパゴス諸島で特異な機能を持つ生物が生まれるように、閉じられた環境でエリートを探した。

クルマに応用

PBTは野心的なコンセプトであるが、実際にそれをWaymo自動運転車に適用し、その効果が実証された。BPTはオブジェクトを判定するニューラルネットワーク(Region Proposal Network)に適用された。このアルゴリズムは周囲のオブジェクト(歩行者、自転車、バイクなど、下の写真右側)を判定し、それを四角の箱で囲って表示する(下の写真左側)。その結果、アルゴリズムの判定精度が向上し、遅延時間が短く(短時間で判定できるように)なった。更に、Waymoは複数のニューラルネットワークでこの処理を実施しているが、PBTにより一本のニューラルネットワークでこれをカバーできることが分かった。

出典: Waymo  

判定精度が大幅に向上

PBTによりアルゴリズムの性能が大幅に向上したが、具体的には、PBTで生成したニューラルネットワークは従来の方式に比べ、従来と同じ再現率 (Recall、例えば周囲の自転車をもれなく検知する割合)で精度(Precision、例えば検知したオブジェクトを正しく自転車と判定する割合)が24%向上した。また、PBTは従来方式に比べ必要な計算機の量が半分となったとしている。

Googleのコア技術

Googleのコア技術はAIでこれをWaymoが採用することで自動運転アルゴリズムが大きく進化した。上述のAutoMLはGoogle Brain(AI研究所)で開発され、さらに高度なPBTはDeepMindが開発した。自動運転車はニューラルネットワークがその商品価値を決めるが、Googleのコア技術であるAIがWaymoの製品開発を後押ししている。

Googleは発売前に次世代スマホ「Pixel 4」の概要を公表、レーダーを搭載しハンドジェスチャーで操作する

Googleは2019年7月、次世代スマホ「Pixel 4」の機能を公開した。Pixel 4は小型レーダーを搭載しハンドジェスチャーでデバイスを操作することができる(下の写真)。また、Pixel 4は初めて顔認証方式を採用し、顔をかざしてスマホをアンロックできる。Pixel 4は未発表製品であるが、写真などがリークしており、Googleは発表前にデバイスや機能を公開するという異例の措置を取った。

出典: Google

Motion Sense

Googleの先端技術開発プロジェクト「Advanced Technology and Projects 」は手の動きを感知するレーダー技術の開発を進めてきた。これは「Soli」と呼ばれ次期スマホPixel 4に搭載され(下の写真、Soli Radar Chip)、ハンドジェスチャーでデバイスを操作できる。レーダーはスマホ周辺の小さな動きを検知し、それをアルゴリズムで解析してハンドジェスチャーの意味を理解する。これにより、スマホに触らないでアプリを操作できる。また、Soliは利用者がスマホの近くにいることも検知する。

出典: Google

Motion Senseの活用方法

Motion Senseを使うとスマホの前で指や手を動かせてアプリを操作できる。音楽を聴いているときに手を振ると次の曲にスキップする。目覚まし時計が鳴っているときにスマホの上で手を振ると音が止む。電話がかかってきた時に手を振ると呼び出し音を止めることができる。この技術はスマホだけにとどまらず、今後はスマートウォッチやスマートホーム機器をハンドジェスチャーで操作することを計画している。

Face Unlock

GoogleはPixel 4に顔認識技術を取り入れ、顔をかざしてデバイスをアンロックする方式を採用することも明らかにした(上の写真、Face Unlockセンサーの配置)。これは「Face Unlock」と呼ばれ、スマホに顔を向けるだけでデバイスがアンロックされる(下の写真)。既にApple iPhoneで「Face ID」として使われているが、Face Unlockはこの機能を上回り使いやすくなった。

出典: Google

Face Unlockの使い方

Apple Face IDはiPhoneを取り上げ、それを顔の前にかざし、指で画面を下から上にスワイプしてデバイスをアンロックする。これに対し、Google Face Unlockは、Soliが利用者が近づいているのを検知し、Face Unlock機能を事前に起動する。顔がセンサーの視界に入り、アルゴリズムがこれを認証すると、Pixel 4が掴まれると同時にデバイスがアンロックされる。つまり、Pixel 4を持つだけでデバイスがアンロックされることになる。また、上下を逆に持ち上げられてもアルゴリズムは顔を認証できる。

セキュリティチップ

Face Unlock機能はPixel 4で稼働し、データは外部に出ることはなくデバイスに留まる。顔イメージなどの個人情報はデバイスに留まり、セキュリティやプライバシーに配慮した設計となっている。具体的には、顔を登録した際の情報は、Googleサーバに保管されることはなく、Pixel 4に搭載されるセキュリティチップ「Titan M」に格納される。Titan MはPixel 3から採用されデバイスの金庫として機能し、基本ソフトやアプリで扱うデータが安全に保管される。

Pixel 4の写真と名称

Googleは2019年6月、TwitterでPixel 4の写真を公開した(下の写真)。同時に、この製品は「Pixel 4」という名称であることも明らかにした。Pixel 4のカメラ仕様について様々な憶測が飛び交っていたが、これによりリアカメラは1台で箱型のケースに搭載されることが明らかになった。ネット上にはリークしたPixel 4の写真が掲載されており、Googleはこの発表でこれを追認したことになる。

出典: Google  

Soliとは

Soliは電磁波を使ったセンサーで、半導体チップから電磁波を発信し、オブジェクトで反射したシグナルをアンテナで計測する仕組みとなる。反射波のエネルギー、遅延時間、周波数シフトを計測し、それを解析することでオブジェクトの大きさ、形状、向き、材質、距離、速度を推定する。レーダーの解像度は低いが、手や指の動きを正確に把握できる。シグナルを時系列に分析する手法「Gesture Recognition Pipeline」を使い、アルゴリズム(AI)が特定の動作(ジェスチャー)をシグナルから特定する。レーダーはカメラなど他のセンサーと比べ細かな動きを把握できる特性を持ち、指先の小さな動きも正確に把握する。

出典: Google  

応用分野は幅広い

SoliはPixel 4に搭載されるが、幅広い製品に応用することを検討している。スマートウォッチに搭載すると、指を動かしアプリを操作できる。Google Mapsをスクロールするには、指でクラウンを回す動作をする(上の写真)。Soliのシグナルは服などを透過するため、ポケットやカバンにいれたスマホを指で操作できる。また、暗い場所でもジェスチャーで操作できる。Pixel 4は、言葉での指示に加え、ハンドジェスチャーでも操作できるようになる。