カテゴリー別アーカイブ: Microsoft

MicrosoftはOpenAIとの提携を強化、言語モデル「GPT-3」やチャットボット「ChatGPT」の開発を加速する

MicrosoftはAI研究機関OpenAIへ出資することを発表し、AI開発のブレークスルーを加速する。また、両社は研究成果をそれぞれのAIビジネスに展開するとしている。両社は既に提携関係にあり、Microsoftは2019年と2021年に出資しており、今回が三回目となり、関係を強化する。OpenAIは言語モデル「GPT-3」やチャットボット「ChatGPT」を開発しており、Microsoftはこれら先端技術をクラウドで企業に提供する。

出典: Microsoft

AIスパコン開発

OpenAIは高度な言語モデルを生み出しているが、これらはMicrosoftのAIスパコンを使って開発されている。言語モデル「GPT-3」やチャットボット「ChatGPT」はニューラルネットワークの規模が巨大で、開発では世界最速レベルのスパコンが必須となる。MicrosoftはNvidiaのGPUプロセッサ「A100」を使ってスパコンを開発し世界5位の性能を誇る(下の写真)。Microsoftはこの性能を更に向上させ、OpenAIはこの開発基盤で次世代の言語モデルを開発し、イノベーションを加速させる。同時に、Microsoftはこのスパコンをクラウド「Azure」に展開し、企業はここで大規模AIモデルを開発しそれを運用する。

出典: Microsoft

AIをクラウドで提供

MicrosoftはOpenAIが開発する最先端のAIモデルをクラウドで提供する。このクラウドは「Azure OpenAI Service」と呼ばれ、試験的に運用されてきたがこれを一般に公開する。ここでは、「GPT-3」や「ChatGPT」の他に、プログラムをコーディングするAIモデル「GitHub Copilot」や言葉の指示に従ってイメージを生成するAIモデル「 DALL·E 2」が提供される。MicrosoftはこれらのAIモデルを企業向けに提供するが、ビジネスとして安全に運用するために、セキュリティを強化し、AIの危険性を低減している。(下の写真、GPT-3でスポーツの試合のサマリーを生成している事例。)

出典: Microsoft

OpenAIへ開発環境を提供

MicrosoftはOpenAIにAI開発環境を独占的に提供しているが、今回の提携で、これを継続することを確認した。OpenAIはMicrosoftのクラウドを使って、先進技術の開発を実行するほかに、自社で事業を展開するために、AIモデルやAPIサービスをこのクラウドで顧客向けに提供する。従来はAmazon Web Servicesを使っていたが、Microsoftと提携し、これを全面的にAzureに切り替えた。

OpenAIとは

OpenAIはサンフランシスコに拠点を置く新興企業で、Sam Altman やElon MuskらがAI研究の非営利団体として、2015年に設立した。OpenAIは、人間レベルのインテリジェンスを持つAIを開発することをミッションとしており、深層強化学習(Deep Reinforcement Learning)や大規模言語モデル(Large Language Model)を中心に研究を進めている。

出典: Google Maps

OpenAIのAI開発戦略

OpenAIは非営利団体として設立されたが、経営方式を大きく変え、今では準営利団体として、最先端のAI技法の研究開発を進める。Elon Muskは2018年にOpenAIの取締役を辞任したが、投資家として関与している。Muskは、AIは「人類にとって最大の脅威」であると発言しており、人類に利するAIを研究する組織としてOpenAIを設立した。

Sam Altmanとは

また、Sam AltmanはCEOとしてOpenAIの運営に携わっている。AltmanはAIにより利益の分配が偏り、多くの人が職を失うことになると懸念している。失業者対策の一つとしてベーシックインカム(Universal Basic Income)の導入を求めており、自身でこの実証試験を進めている。(下の写真、Sam Altman(左側)とMicrosoft CEOのSatya Nadella(右側))

出典: Microsoft

MicrosoftがOpenAIに着目する理由

言語モデルは規模が大きくなると、処理性能が向上するだけでなく、多彩な機能を現すことが分かっている。GPT-3など言語モデルは「Transformer」というアーキテクチャで構築され、この規模を拡大すると、言語だけでなく、イメージやビデオやスピーチなど、他のメディアを理解する。つまり、TransformerベースのAIモデルはマルチメディアをインテリジェントに処理する機能を獲得し、社会のインフラを担う存在となる。MicrosoftはOpenAIと共同で、AIの社会基盤をクラウドで提供する構想を描いている。

MicrosoftはAIプログラミング技術「Copilot」が著作権法に違反するとして訴訟される、アルゴリズム教育で著作物を利用することの是非が問われる

MicrosoftはAIプログラミング技術「GitHub Copilot」が著作権を侵害しているとして訴訟された。Copilotとはプログラミングツールで、開発者の指示に従って、AIがコーディングを実行する。Copilotはオープンソースのプログラムで教育され、AIが出力するコードが、著作権を侵害しているとして提訴された。AI開発のアルゴリズム教育において、著作物を使うことが違法かどうかが問われることになる。

出典: GitHub

Copilotとは

Copilotは、Microsoftの子会社であるGitHubと関連会社のOpenAIが共同で開発したプログラミング技術で、人間の指示に従ってAIがプログラムを作成する(上の写真)。エンジニアがプログラムの機能を言葉で入力すると(上段)、Copilotがこれに従ってプログラミングを実行する(下段、水色のシェイドの部分)。これはプログラミングにおける「自動補完(Autocomplete)」機能で、エンジニアが書き始めたコードを、Copilotがそれに続く部分をリアルタイムで完結する。この機能は2022年6月に一般に公開され、月額10ドルで利用することができる。

Copilotの仕組み

CopilotはOpenAIが開発したAI「Codex」をベースとしている。Codexとは高度な言語モデルで、「GPT-3」をプログラミングに特化した構造となる。GPT-3はOpenAIが開発した言語モデルで(下の写真)、人間が入力した言葉(灰色の部分)に続く文章を出力する(黒色の部分)。一方、Codexは人間が入力したプログラミングに続くコードを出力する。

出典: OpenAI

教育データ

Copilotの核となるCodexはオープンソースのソフトウェアを使って教育された。具体的には、GitHubに掲載されているプログラムや、ネット上に掲載されているプログラムを使って、アルゴリズムを教育した。つまり、OpenAIはネット上のオープンソースをスクレイピングし、これを教育データとして利用した。これらはオープンソースとして公開されており、自由に利用することができる。

自動プログラミング

Copilotは自動でプログラムのコードを出力するが、これらは教育の過程で使われたオープンソースのプログラムの一部である。Copilotがプログラミングを実行するが、それらは教育で使われたオープンソースを出力する構造となる。オープンソースは誰でも自由に使えるが、使用の際にはオープンソースのライセンス契約に準拠する必要がある。例えば、オープンソースを利用した場合は、その著作権の表示が求められ、誰が開発者であるのかなどの表記が必要になる。

著作権侵害の理由

しかし、Copilotは利用したオープンソースの著作権表記をしておらず、ライセンス契約に違反するとして提訴された。著作物としてのプログラムを不法に利用したというのが訴訟の理由となる。これに対し、Microsoft側は、プログラムの一部を使うことは著作権法のフェアユース(Fair Use)に当たるとして、著作権の侵害は無いとのポジションを取る。

訴訟の意義

AI開発では著作物を使ってアルゴリズムを教育するのが常套手段となり、この手法が容認されてきた。例えば、イメージを生成するAIである、OpenAIの「DALL-E」やGoogleの「Imagen」やMetaの「Make-A-Scene」などは、アートなどの著作物で教育されている。これらのAIはオリジナルのアートをほうふつさせるイメージを生成し(下の写真、写真家Gregory CrewdsonのイメージでAIが少女像を生成)、著作権に関する議論が広がっている。これら企業は、著作物の使用はフェアユースの範囲であるとして、合法的にAIを加発していると主張する。この集団訴訟は、まだ初期段階であるが、AIと著作権に関する法的解釈を明確にすると期待されている。

出典: OpenAI

自主規制

米国では、これらイメージを生成するAIが、デジタルアートの制作などで使われている。ネット上にはAIが生成したデジタルアートが満ち溢れ、オリジナルとAIが生成したイメージの区別が難しくなってきた。このような中、写真画像販売会社Getty Imagesは、AIで生成したイメージをサイトにアップロードして販売することを禁止した。AIアートについての法的解釈が確定する前に、企業は自主的にリスクを避ける措置を実施している。

原告の主張

この訴訟はプログラマー兼弁護士であるMatthew Butterickにより起こされた。Butterickによると、訴訟した理由はAI教育と著作権との関係を問うもので、著作物制作者の権利を守るためとしている。AIの教育では著作物を使うことが容認されているが、AIは例外ではなく、著作権法の解釈に従うことが問われている。

Microsoftはメタバース市場に参入、仮想空間でのビデオ会議システムを発表、MR技術をコラボレーションに展開

Microsoftはメタバースの技術開発を進め、3D仮想空間におけるビデオ会議システム「Mesh for Teams」を発表した。このシステムはメタバースに構築されるコラボレーション基盤で、アバターを介してコミュニケーションする(下の写真)。Microsoftは「Mesh」という名称でメタバース技術を開発しており、これをビデオ会議「Teams」に適用した。

出典: Microsoft

Microsoftが考えるメタバース

Microsoftは2021年3月、メタバースを構成する技術として「Mesh」を発表した。Microsoftは、メタバースをインターネットの新しいモデルと捉えている。メタバースは仮想空間で、ここに人々が集い、交流する場となる。また、メタバースに、人や物のデジタルツインが生成され、これらを介して、現実空間と仮想空間が連結される。Microsoftは現実空間と仮想空間の融合をMR(Mixed Reality)と呼び、Meshがこの技術を支えている。更に、MicrosoftはMRヘッドセットとして「HoloLens」を開発し、企業向けに提供している。

Mesh for Teamsとは

メタバース上に展開するビデオ会議システムは「Mesh for Teams」と呼ばれ、コラボレーションツール「Teams」をMR空間「Mesh」で運用する構成となる。Teamsは在宅勤務におけるコラボレーションツールとして、幅広く利用されている。Mesh for Teamsは、その新機能で、自分のアバターを介してテレビ会議に参加する(下の写真、右側)。また、企業はMesh for Teamsを使って、会議室やロビーなど、仮想空間を生成することができる。ここに3D仮想オフィスが生成され、社員はアバターを介してここでデジタルに勤務する。

出典: Microsoft

Accentureの仮想オフィス

Accentureは既に、メタバース上にオフィス空間を生成し、社員のコラボレーションの場として活用している。仮想のキャンパスは「Accenture Nth Floor」と呼ばれ、ここに社員が集い、オフィス勤務をする(下の写真、イメージ)。社員は、オフィスでコーヒーを飲みながら会話を交わすこともできる。会議室ではプレゼンテーションを行い、また、パーティーを開催することもできる。仮想キャンパスは、テレビ会議とは異なり、社員同士が出会い交流する場となる。物理オフィスで雑談するなかで、アイディアが生まれるように、メタバースは社員が出合い言葉を交わす場となる。

出典: Microsoft

メタバース・アプリケーション

Microsoft はMeshとHoloLens を使ったメタバース・アプリケーションの開発を進めている。メタバース・アプリケーションは、場所を超えて共同作業をする空間を構築する。例えば、オフィス内に3D 仮想スペースを構築し、共同作業を進めることができる(下の写真)。複数の社員がHoloLens 2を着装し、会議室やオフィスに集合し、そこで実物を見ながら製品開発を進めることが可能となる。このアプリケーションはMeshで生成され、HoloLens 2からアクセスする。

出典: Microsoft

メタバースへのアクセス技術

Microsoft は、メタバースへのアクセス技術としてMR グラス「HoloLens」を開発した。現在は、第二世代の製品「HoloLens 2」を出荷しており、これを着装し、現実空間に構築された仮想オブジェクトを操作する(下の写真)。企業向けのデバイスで、メタバース・アプリケーションと組み合わせて利用する。Microsoft はVR(仮想現実) とAR(拡張現実) を統合した技術をMR(複合現実)と呼び、メタバースにアクセスする基礎技術と位置付けている。

出典: Microsoft

Mesh for Teamsを開発した理由

Microsoftは、ポストコロナのワークスタイルはハイブリッドとなり、遠隔勤務が重要な役割を担うと分析している。遠隔勤務では、管理職が考えるより、仕事を効率的に進めることができるとしている。一方、社員は、遠隔勤務では、会社の同僚と会えないことが最大の課題だと指摘する。オフィス勤務では、同僚と立ち話ができ、人間関係が深まる。また、会議では、同僚の素振りから、その場の空気を読むことができた。遠隔勤務では、これら人間関係のウェットな部分が欠落し、社員同士が疎遠になる。Mesh for Teamsはこれらの問題点を補完するために開発された。社員はデジタルツインであるアバターを生成し、これらを介して、表情や感情を表し、他の社員と交流する(下の写真)。

出典: Microsoft

メタバースのロードマップ

Meta(Facebook)はメタバースにソーシャルネットを構築する構想を描いているが、Microsoftはメタバースで企業向けのソリューションを提供する戦略を取る。その最初のステップがコラボレーションで、社員は3D仮想空間で共同作業を実行する。航空機のエンジンの設計を遠隔地と社員と共同で進めるソリューションを提供している(下の写真)。Microsoftの強みはAIやクラウドで、Mesh for Teamsでメタバース開発レースに参戦した。

出典: Microsoft

Microsoftは超リアルな3Dフェイスを生成、顔写真の代わりに合成メディアで顔認識AIを教育できることを実証

Microsoftは合成メディア(Synthetic Media)の手法で3Dフェイスを生成した(下の写真)。これは顔認識AIを教育するためのモデルで、実物と見分けのつかない超リアルな3Dフェイスが生成された。今まではセレブなど実在の人物の顔写真を使って顔認識AIを教育してきた。しかし、これらの写真は本人の了解を取らないで無断で使われ、個人のプライバシーを侵害するとして社会問題となっている。このため、Microsoftは、これらのデータセットを消去し、合成メディアの手法で3Dフェイスを作成し、これをアルゴリズム教育に活用できることを実証した。

出典: Erroll Wood et al.

研究の意義

倫理的に顔認識AIを教育するために、人工的に3Dフェイスを生成し、これでアルゴリズムを教育する手法が取られてきた。しかし、合成データで教育するとアルゴリズムの判定精度が落ちるという問題が発生する。しかし、Microsoftは高品質の合成データを生成し、教育したアルゴリズムは写真データで教育したものと精度が変わらないことを示した。つまり、顔認識AIを教育するために、ネット上の顔写真をスクレイピングすることは不要で、合成データで倫理的に開発できる道筋をつけた。

顔認識AIの精度

合成データで顔認識アルゴリズムを教育すると、判定精度は写真で教育した場合と同等であることが示された。顔認識アルゴリズムは顔のパーツを判定する機能(Face Pursing)があり、鼻や口や目やまつ毛などを識別して色で示す(下の写真左側)。実際にベンチマークすると、写真で教育したものとほぼ同等の精度となることが証明された。また、顔認識アルゴリズムは顔の特徴量(Landmarks)を特定する機能があり、合成データで教育すると10倍精密なランドマークを生成できる(右側)。

出典: Erroll Wood et al.

Dフェイスモデル

MicrosoftはAIの手法(Generative 3D Face Model)で人物の頭部を三次元で生成する。これは3Dフェイスモデルと呼ばれ、生成されたモデルは実在しない人物の顔を超リアルに生成する。この手法はハリウッドの映画スタジオで使われる特撮技術(Visual Effects (VFX))で、映画スターがデジタルに生成されている。しかし、Microsoftの場合は教育データを大量に生成する必要があり、超リアルな3Dフェイスモデルを数多く生成する技法を開発した。

モデル生成のプロセス

このため、Microsoftはテンプレートを基準にして、それを変形する手法で多数の3Dフェイスモデルを生成した。まず、AIはテンプレートとなる3Dフェイスモデル(下の写真左端)を生成する。これをベースに、このモデルに個性(左から二番目)、表情(三番目)、スキン(四番目)、頭髪(五番目)、衣服(六番目)、背景(右端)を付加する。これにより、リアルで多様性のある3Dフェイスモデルを生成することができた。

出典: Erroll Wood et al.

Dフェイスモデルの多様性

3Dフェイスモデルで教育された顔認識AIは特定の人種にバイアスすることなく公平に判定できることも示された。Microsoftは3Dフェイスモデルで教育した顔認識AIを多様性データセット「The MUCT Face Database」を使ってその判定精度を検証した(下の写真)。このデータセットは異なる性別や多様な人種で構成されており、多様性を検証するために使われる。また、光の状態も様々で、現実社会に近い環境で顔認識AIの精度を検証できる。教育した顔認識AIはこのデータセットで正しく判定し、多様性のある実社会で利用できることが示された。

出典: Erroll Wood et al.

データセットを公開

Microsoftは生成した3DフェイスモデルをGitHubに公開しており、研究開発の目的で自由に利用することができる。公開されているモデルの数は10万で、それぞれのモデルには70のアノテーションが付加されている(下の写真、フェイスモデルとアノテーション)。研究者はこのモデルを使うことで、倫理的に顔認識AIを開発できる。

出典: Microsoft

顔写真データセットを消去

これに先立ち、Microsoftは著名人の顔写真データセット「Microsoft Celeb (MS-Celeb-1M)」を開発し、これを公開していた。これは著名人の顔写真100万枚を格納したデータセットで、顔認識AIの教育で利用されてきた。しかし、Microsoftはデータセットに格納している顔写真について、本人の同意を得ていないとして、全てのデータを消去し公開サイト「MS Celeb 」を閉鎖することを決定した。顔写真収集に関する議論が広がる中、Microsoftは他社に先駆けてこれらを利用しない方針を打ち出した。

顔写真をスクレイピング

これとは対照的に、新興企業「Clearview」は顔認識AI開発するために、ソーシャルネットワークに掲載されている顔写真をスクレイピングしてアルゴリズムを教育した。写真の数は30億枚を超え、世界最大規模の顔写真データセットを構築した。Clearviewが開発した顔認識アルゴリズムは判定精度が高く、全米の警察で犯罪捜査に利用されている。これに対し、市民団体は、個人の顔写真を許可無く使用することは違法であるとして、Clearviewに対し集団訴訟を起こした。

出典: Erroll Wood et al.

合成メディアの手法で生成

フェイスブックなどに掲載している顔写真を収集し、これを顔認識AIの教育で使うことが社会問題となっているなか、倫理的な開発手法の模索が続いている。消費者の了解を得て顔写真を収集するのでは大量のデータを準備できない。Microsoftは高品質な3Dフェイスモデルを大量に生成することに成功し、教育データを合成メディアの手法で生成する方式に注目が集まっている。

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。