カテゴリー別アーカイブ: Google

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。

Waymoはサンフランシスコで住民を乗せて走行試験を開始、自動運転車が高齢者の日常生活を支援できるかを検証

Waymoは今週、サンフランシスコで住民を乗せて自動運転車の走行試験を開始することを発表した。これは「Waymo One Trusted Tester Program」と呼ばれ、自動運転車に関する住民の意見を把握することを目的とする。特に、自動運転車が高齢者や非健常者の日常生活を支援できるかを検証することがプログラムの中心となる。

出典: Waymo

住民を乗せて走行試験

この実証試験はWaymoの自動運転車最新モデル「Jaguar I-PACE」で実施される(上の写真)。クルマは自動運転技術「Waymo Driver」の最新版「5th Generation」を搭載している。Waymoはアリゾナ州フェニックスで営業運転を展開しているが、サンフランシスコでは2021年2月から社員が乗客となり試験走行を進めている。道路が整備されたフェニックスとは異なり、サンフランシスコでは市街地の込み合った道を安全に走行する技術が求められる。

検証のポイント

クルマには専任スタッフ「Autonomous Specialist」が搭乗して試験走行が実施される。このプログラムは自動運転車が住民の生活に如何に役立つかを検証する。サンフランシスコはバスや路面電車の他に、UberやLyftなどライドシェアサービスが充実している。この環境でWaymoの特性を把握し如何に差別化を図るかが問われる。Waymoは高齢者や非健常者の足となることを想定しており、車いすや杖を使って生活する住人が自動運転車をどう評価するのかを解析する(下の写真)。また市当局と共同で、Waymoが公共交通機関と連携して住民が移動しやすくする仕組みを構築する。

出典: Waymo

サンフランシスコでの世論調査

Waymoはこれに先立ちサンフランシスコで自動運転車に関する住民の世論調査を実施した。地域住民にクルマの運転や生活における移動方法などを訪ねたもので、地域の特性が明らかになった。サンフランシスコにおける運転で困ることのトップは駐車場が少ないことで、また、公共交通機関がスケジュール通り運行していないことも課題となる。また、サンフランシスコは高齢者や非健常者が多いことも特徴で(下のグラフ)、94,000人が移動手段で問題を抱えている。

出典: Waymo

試験走行エリア

Waymoは試験走行エリアを示していないが、米国メディアはサンフランシスコのダウンタウンを除く部分としている。ユニオンスクエアを中心とするダウンタウンはオフィスビルが立ち並びビジネス街や観光地となっている。Waymoは、この地域は走行せず、住民が住んでいるサンフランシスコ西部と南部を中心に試験する。因みに、曲がりくねったロンバード・ストリート(Lombard Street)は試験エリアに含まれていない。

Waymo Drive最新モデル

WaymoはセンサーとしてLidar、カメラ、レーダーを搭載し(下の写真)、これをソフトウェアで解析し自動で走行する。Waymo Driveの最新モデル5th Generationではセンサーの機能やパッケージングが改良された。レーダーは「Imaging Radar System」と呼ばれ、カメラのように高解像度でオブジェクトを把握することができる。また、Lidarやカメラは構造がシンプルになり製造コストを半分にすることに成功した。これから自動運転技術が本格的に製造されるが、Waymo Driveの量産体制が整った。

出典: Waymo  

高齢化社会と自動運転車

サンフランシスコは全米の中で自動運転車にとって最も高度な技術を必要とする都市となる。ここで安全に走行できれば他の都市でも運行できることになる。このため、Waymoの他に、GM/CruiseやAmazon/Zooxがサンフランシスコで自動運転車の開発を進めている。自動運転車の出荷を目前に控え、Waymoは高齢者や非健常者の足として生活を支えるクルマとして商品化している。日本を含め世界で高齢化が進む中で自動運転車の役割が重要になってきた。

Googleは監視カメラ最新モデルを発表、カメラにAIチップを搭載し検知精度が向上、エッジAIへの流れが加速

Googleは監視カメラ「Nest Cam」とドアベル「Nest Doorbell」の最新モデルを発表した。カメラはAIチップを搭載し、画像解析処理をデバイス上で実行する。クラウドを介すことなく、デバイス上で機械学習を実行でき、高精度で不審者などのオブジェクトを検知する。Googleはスマホ最新モデルPixel 6に続き、スマートホーム製品でもエッジAIを採用し、デバイスのAI処理性能を大幅に向上した。

出典: Google

Nest CamとNest Doorbell

Googleはスマートホーム製品を「Nest」のブランドで提供しており、監視カメラ「Nest Cam」とドアベル「Nest Doorbell」の最新モデルを開発した。Nest Camは二機種あり、屋外・屋内モデル(上の写真、右端)と屋内モデル(中央)で、前者はバッテリーで稼働する。ドアベル(左側)もバッテリーで稼働し、配線は不要で簡単に設置できることが特徴となる。デザインも一新され、シンプルで背景に調和する色調や形状となった。

監視カメラ

Nest CamとNest Doorbellはカメラが捉えた映像をAIで解析してイベントを検知する構成となる。Nest Camは家屋の外壁などに取り付けて利用する(下の写真右側)。Nest CamのAIはオブジェクトの種別を判定し、人や動物やクルマを検知すると(左側)、それをアラートとして利用者のスマホに送信する(中央)。外出先からでも自宅のセキュリティを確認することができる。

出典: Google  

ドアベル

Nest Doorbellはドアベルであるがカメラを搭載しており、監視カメラとして機能する(下の写真中央)。Nest Doorbellは人の動きを検知し、訪問者があると、それをアラートとして利用者のスマホに送信する(左側)。利用者はアプリで訪問者を確認し、マイクボタンを押すとそのまま会話することができる。また、オンラインショッピングで商品が配送されるとそれを認識し(右側)、利用者に通知する。

出典: Google  

AIスピーカーとの連携

Googleは監視カメラやドアベルをスマートホームの主要製品と位置付け、AIスピーカーとの連携を強化している。米国の家庭でAIスピーカーの導入が進んでいるが、Googleは「Nest Mini」(下の写真左端)や「Nest Hub」(右端)を提供している。Nest Hubはディスプレイを搭載したAIスピーカーで、監視カメラやドアベルがイベントを検知すると、カメラの映像がストリーミングされる。訪問者をディスプレイで確認してドアを開けるなどの応対ができる。

出典: Google  

Tensorチップ

Nest CamとNest DoorbellはAIチップ「Tensor Processor(TPU)」を搭載しており、カメラの映像をデバイス上で解析する。従来はカメラの映像をクラウドに送付して解析していたが、これをデバイス上で処理することで性能アップを達成した。具体的には、Nest CamとNest Doorbellは現行製品と比較して、二倍のピクセルとフレームを処理することができ、判定精度が大きく向上した。GoogleはエッジAIの開発を進め、先週発表されたPixel 6に続き、NestでもAIチップをデバイスに搭載する構成を取る。GoogleはIoTデバイス向けのAIチップを「Edge TPU」として販売している(下の写真)。

出典: Google  

実際に使ってみてみると

実際に、Nest Doorbellの現行モデルを使っているが、玄関先のセキュリティが強化され、安心感が大幅に向上した。使い方はシンプルで、スマホアプリ「Nest」からドアベルが捉えた玄関先のビデオを見ることができる(下の写真左端)。また、来客があると、アラートをスマホで受信する。更に、商品が宅配されたとき、AIはそのイベントを把握し、スマホにメッセージを送信する(中央最上段)。玄関先に置かれた商品を手早く取り上げることで盗難被害を防ぐことができる。

出典: VentureClef  

クラウドに映像を記録

撮影されたビデオはクラウド「Nest Aware」に記録され、これを検索することで特定のイベント(商品配送など)を再生できる(上の写真右端)。一方、木の陰などをイベントとして捉え、アラートを受け取ることがあり、判定精度が課題であるとも感じる。最新モデルはAIチップが搭載され、画像解析の判定精度が上がり、誤検知が減ると期待される。

AIドアベルが人気商品

いま米国でAI監視カメラの導入が進んでいる。特に、AIドアベルの人気が高く、多くの家庭がセキュリティ強化のために設置している。Googleからは上述のNest Doorbellが出荷されている。また、Amazonからは「Ring Doorbell」が提供され、両者が人気商品で市場を二分している。これらは、宅配商品の盗難を防ぐために、また、自宅前のイベントを監視するために使われている。GoogleはドアベルのAI性能を向上することでAmazonとの差別化を図っている。

Googleはスマホ最新モデル「Pixel 6」を発表、自社開発プロセッサ「Tensor SoC」を搭載し超高速AIマシンに進化

Googleは8月2日、スマホ最新モデル「Pixel 6」を発表した(下の写真)。Googleは独自でスマホ向けプロセッサ「Tensor SoC」開発した。名称が示している通り、これはAI処理に特化したプロセッサで、スマホはAIマシンに進化した。Googleはスマホ向けに様々なAIシステムを開発してきたがプロセッサ性能が限界に達し、今回、独自にプロセッサを開発し、性能を大幅にアップグレードした。

出典: Google

Pixel 6の概要

このシリーズは「Pixel 6」と「Pixel 6 Pro」の二つのモデルから成り、今年の秋から出荷が始まる。製品価格やハードウェア仕様など詳細情報は公表されていない。発表のポイントは高速AIプロセッサで、Googleはスマホの機能をAIで拡充する戦略を取る。これにより、AIがカメラの性能を大幅に機能アップする。また、AIがリアルタイムの通訳となり、異なる言語で会話できる。更に、最新の基本ソフト「Android 12」を搭載し、カラーデザインが洗練されユーザインターフェイスが大幅に改善された。

スマホ向けプロセッサ

Googleはスマホ向けのプロセッサ「Tensor SoC」(下の写真)を独自で開発した。SoCとは「System on a Chip」の略で基本ソフトを稼働させるメインのプロセッサとなる。今までGoogleは半導体企業QualcommからSoC (Snapdragon)を調達してきたが、Pixel 6向けにはこれを独自で開発した。Tensorという名称が示すように、AI処理に重点を置いたプロセッサ構成となる。一方、SoCを構成するユニットとして、CPU、GPU、5G Modemなどがあるが、Googleはこれらを独自で開発したのかどうかについては公表していない。(米国メディアはSoCのベースをSamsungからライセンスを受け、GoogleはAIプロセッサの部分を開発したと推測している。)

出典: Google  

カメラと画像処理

Googleはカメラで撮影したデータをAIで処理して写真やビデオを生成する手法を取る。これは「Computational Photography」と呼ばれ、カメラのセンサーが捉えたイメージをAIで解析しダイナミックレンジの広い画像「HDR」を生成する。また、暗闇の中でもフラッシュや三脚を使わないで鮮明な写真を生成する技術「Night Sight」を開発してきた。このプロセスで大規模なAI計算が発生し、これをTensor SoCが担う。また、Pixel 6ではカメラと関連センサーは本体に収まらず、帯状のデバイス「Camara Bar」に格納される(先頭の写真、黒色の長方形の部分)。

言語処理

AI機能のもう一つの柱は言語処理で言語モデルが言葉を理解してユーザとのインターフェイスとなる。「Google Assistant」が人間の秘書のように言葉を理解してタスクを実行する。また、AIアプリ「Recorder」は録音した言葉をテキストに変換する機能を持つ(下の写真)。会議での発言を録音し(左端)、Recorderがそれをテキストに変換し(中央)、議事録を作成する。後日、議事録を検索して特定の発言を見つけることができる(右端)。Pixel 6はこれをもう一歩すすめ、同時通訳機能が登場した。Pixel 6のTensor SoCで翻訳プロセスが実行され、クラウドを経ることなく、デバイス上でリアルタイムに実行される。

出典: Google  

Material You

Googleは開発者会議Google I/Oで基本ソフトの最新モデル「Android 12」と新たなデザインコンセプト「Material You」(下の写真)を発表した。Android 12はMaterial Youを搭載する最初の基本ソフトでPixel 6でこれを製品として提供する。Material Youは色をベースとしたシンプルなデザインで、機能性と個人の個性を追求したインターフェイスとなる。

出典: Google  

Material Youを使ってみると

既に、Android 12のベータ版が公開されており、Material Youを使うことができる(下の写真)。Material Youでは基本色調「Basic Color」を設定すると画面のコンポーネントがその色となる。例えば、基本色調をブルーに設定すると(左端)、画面のボタンやアイコンの色がブルーに (中央)なる。また、ブラウンに設定するとその色を基調としたデザインとなる(右端)。更に、Material Youではボタンの形状が丸みを帯び、サイズも大きくなり、優しいイメージに進化した。Pixel 4でAndroid 12のMaterial Youを使っているが、タッチしやすく温かみを感じるインターフェイスとなった。

   

出典: VentureClef  

スマホハイエンド市場への挑戦

Googleは2016年10月、Pixelを発表しスマホ事業に参入し、Pixel 6は第六世代のモデルとなる。Pixelシリーズは一貫してAIでスマホを構成する戦略を取り、Googleのコア技術である画像解析と言語モデルをスマホに応用してきた。Google PixelのカメラはAIで構成され、世界でトップレベルの高品質な画像を生成してきた。しかし、近年ではApple iPhoneの機能アップが著しく、Pixelはスマホ競争から取り残されている。Pixel 6はプロセッサを大幅にアップグレードし、再び、ハイエンド市場でシェア拡大を狙っている。

Googleが産業用ロボット市場に進出、高度なAIでロボットのソフトウェアを開発、日本企業との競争が始まる

Googleの親会社であるAlphabetは産業用ロボットを開発するため独立会社「Intrinsic」を創設した。ロボットはムーンショット工場「Alphabet X」で開発されてきたが、ここを卒業し独立企業として製品化を目指す。Intrinsicはロボットの頭脳となるソフトウェアを開発する。日本企業は産業用ロボットで大きなシェアを占めているが、ここでGoogleとの競争が始まることになる。

出典: Intrinsic

Intrinsicの概要

Intrinsicは産業用ロボット(Industrial Robotics)のソフトウェアを開発する。ロボット本体のハードウェアではなく、その頭脳となるソフトウェアを開発する。産業用ロボットとは製造工場で組み立て作業などを行うロボットで、ソーラーパネルや自動車の製造ラインで使われる。つまり、Intrinsicは家庭向けのヒューマノイドではなく、製造ライン向けにロボットアームを稼働させるソフトウェアを開発する。

産業用ロボットを開発する理由

Intrinsicが産業用ロボットを開発する理由は製造業を中国から米国や欧州などの先進国に戻すためである。国際経済フォーラムによると、現在、全世界の製造量の70%を10の国が担っている(下のグラフィックス)。特に、中国はその28.4%を占め、世界の工場として稼働している。Intrinsicが開発するロボットを使えば、どこにでも簡単に製造ラインを構築できる。各国が自国に製造施設を持つことができ、新たなビジネスが生まれる。更に、消費地に近い場所で製造することで、製品を輸送する距離が短縮され、地球温暖化ガスの削減につながる。特に、米国は自国に製造業を呼び戻す政策を進めているが、2030年までに作業員が210万人不足すると予想され、これを産業用ロボットで補完する。

出典: Statista  

現行の産業用ロボットの限界

現在、家電製品や自動車の製造で産業用ロボットが使われているが、そのテクノロジーは旧態依然のままであり、これがロボットの普及を妨げている。産業用ロボットのソフトウェアは特定のタスクを実行するために書かれている。これはハードコーディングと呼ばれ、例えば、部品の溶接ではそれ専用にコーディングする。また、パネルを接着してケースを作るには、そのタスクに特化したコーディングをする。このため、タスクごとにソフトウェアを開発することになり、多数のエンジニアを必要とし、完成するまでに時間を要す。

Intrinsicのアプローチ

これに対し、Intrinsicは高度なAIを使いインテリジェントな産業用ロボットを開発する戦略を取る。チームは数年にわたり、産業用ロボットの視覚機能、学習能力、補正能力などを開発してきた。具体的には、オブジェクト認識技術(Perception)、深層学習(Deep Learning)、強化学習(Reinforcement Learning)など最新のAI技法を開発し、幅広いタスクを実行できる産業用ロボットを目指している。

出典: Intrinsic  

プロトタイプの検証

Intrinsicはこれらの機能を実装したプロトタイプを制作しその機能を検証した。ロボットは深層学習とフォース制御機能を搭載することで、異なる形状のUSB端子を正しい場所に最適な力で挿入することができる(上の写真)。開発に要した時間は2時間で、短時間で複雑な操作ができるロボットの開発に成功した。また、視覚機能や計画機能を搭載することで、二台のロボットが共同で家具のパネルを組み立てることができる(下の写真)。

出典: Intrinsic  

更に、ロボットが協調して木造家屋を組み立てることができる(下の写真)。これはチューリッヒ工科大学(ETH Zurich)のGramazio Kohler Researchで実施されたもので、四台のロボットが協調して家屋のパネルを組み立て接着剤で固定する。製造現場では多様なタスクを実行する必要があるが、プロトタイプは短時間で開発され、ロボットが汎用的な作業ができる目途がついたとしている。

出典: Gramazio Kohler Research, ETH Zurich

ムーンショットを卒業

チームはムーンショット工場「Alphabet X」(下の写真)で5年半にわたり、プロトタイプの開発を進めてきたが、これからはIntrinsicで産業用ロボットの商用化を目指す。対象分野は家電産業や自動車製造やヘルスケアで、パートナー企業と商用モデルを開発する。

出典: VentureClef  

ロボット開発の歴史

Googleのロボット開発は2013年に始まり、Boston Dynamicsなど6社を相次いで買収した。この中には日本企業Schaftも含まれていた。ロボット開発プロジェクトは「Replicant」と呼ばれ、Androidの生みの親Andy Rubinの下で進められた。しかし、プロジェクトで目立った成果は無く、GoogleはReplicantを中止した。

ロボット開発を再開

その後、Googleはソフトウェアに重点を移し、ロボット開発を再開した。コア技術であるAIを駆使しインテリジェントなロボット開発を進めてきた。その最初の成果が「Everyday Robots」で、家庭やオフィスで日々のタスクを実行するロボットを発表した。この開発ラインから分岐し、Intrinsicは産業用ロボットを開発する。産業用ロボット市場では多くの企業から製品が投入されており、これから日本企業など先行企業との競争が始まることになる。