カテゴリー別アーカイブ: Microsoft

Microsoft検索エンジン「Bing」が異次元に進化!!会話AIが組み込まれ検索結果を要約して出力、知りたい情報がズバリわかり極めて便利!!

Microsoftは高度なAIを組み込んだ検索エンジン「Bing」とブラウザー「Edge」を公開した。製品にはチャットボット「ChatGPT」改良版が搭載され、検索エンジンの機能が異次元に進化した。質問を入力すると、Bingは検索結果を要約した文章を表示し、知りたいことがピンポイントで分かる。評価は良好で、Googleが独占していた検索市場が大きく変わりそうだ。

出典: Microsoft

AI検索エンジンを使ってみる

MicrosoftはBingのトライアルモデルを公開しており、実際に使ってその機能を検証することができる。Bingはインターフェイスが一新され、初期画面に大きな検索ボックスが表示される(上の写真)。ここに検索クエリーを入力するが、キーワードだけでなく、質問を文章で入力することができる。知識人に質問する要領で、知りたいことを自然言語で尋ねると、その回答を短文に纏めて出力する。

パーティの料理を尋ねると

Bingに「6人で夕食会を計画しているが、全員ベジタリアンで、メニューを教えて。。。」と尋ねると、通常の検索結果が表示される(下の写真左側)。これに加えて、チャットボットが検索結果を要約して短い文章示す(下の写真右側)。この部分がChatGPT改良版で生成された回答で、推奨するレシピが示され、知りたいことが一目でわかる。

出典: Microsoft

チャットボットの回答

チャットボットは問われたことに的確に答え、ベジタリアン向けのレシピを表示する。回答はサイトへのリンクを示すのではなく、人間のように言葉で推奨する料理を説明している点に特徴がある。今までは、表示されたリンクを辿り、サイトで記事を読み、情報を得ていたが、チャットボットがこの作業を代行し、解答をズバリ示す。

出典: Microsoft

回答の根拠を示す

また、チャットボットが出力した回答について、その根拠となるサイトへのリンクが示される(下の写真右側、数字の部分)。このリンクにタッチすると、そのサイトへのURLが示され(下の写真右側、最下段)、出典となるサイトを閲覧できる。チャットボットが出力する情報の信ぴょう性が問われるが、Bingは情報の出典を示すことで、信頼度を上げる法式を取る。

出典: Microsoft

ブラウザー

ブラウザー「Edge」もAIで強化され、チャットボットが統合され、チャット機能「Chat」と文章生成機能「Compose」が加わった。チャット機能は利用者との対話機能で、チャットボットが指示に従ってタスクを実行する。ブラウザーでアクセスしたサイトを、チャット機能を使って、その要約を生成できる。例えば、チャット機能で、企業業績評価レポートの要約を生成できる。また、文書生成機能は、指示された内容でビジネスドキュメントを生成する。例えば、「AIを実装したBingとEdgeに関する記事」と指示すると、チャットボットはこれを実行する(下の写真)。LinkedInに製品のPR記事を掲載するが、Edgeを使うと文書生成作業をチャットボットが代行する。

出典: Microsoft

検索ビジネスの課題

新しいBingで検索方法が様変わりし、消費者はダイレクトに知りたい情報を読むことができる(下の写真)。一方、企業としては、検索結果のリンクがクリックされなくなることを意味し、サイトへのトラフィックが大きく減少する。これにより、企業サイトでの商品PRの効果が低下することになる。Microsoftとしては広告収入の減少につながり、ビジネスモデルをどう構築するかが課題となる。

出典: Microsoft

ChatGPTの改良モデル

Microsoftは、実装しているチャットボットは「ChatGPT」ではなく、それを改良したモデルとしている。詳細については公表されてないが、チャットボットが正確な情報を回答できるよう、参照したサイトを示すなど、新機能が加わった。また、検索エンジンはリアルタイムで情報を提示する必要があり、アルゴリズムは最新情報で常に改版される必要がある。

Microsoftは検索市場で逆転を狙う

トライアル版のBing検索エンジンを使ってみると、ピンポイントで知りたいことが表示され、情報にアクセスする時間が大幅に短縮される。極めて効率的に情報を検索できる。今までは検索と言えばGoogleであったが、Bingが大幅に機能アップし、GoogleからBingに乗り換える人が増えると思われる。GoogleはChatGPTに対抗してBardを投入したが評判は芳しくない。Googleは創業以来最大の危機に直面し、Microsoftは検索市場で逆転を狙い、AI開発を加速している。

MicrosoftはOpenAIとの提携を強化、言語モデル「GPT-3」やチャットボット「ChatGPT」の開発を加速する

MicrosoftはAI研究機関OpenAIへ出資することを発表し、AI開発のブレークスルーを加速する。また、両社は研究成果をそれぞれのAIビジネスに展開するとしている。両社は既に提携関係にあり、Microsoftは2019年と2021年に出資しており、今回が三回目となり、関係を強化する。OpenAIは言語モデル「GPT-3」やチャットボット「ChatGPT」を開発しており、Microsoftはこれら先端技術をクラウドで企業に提供する。

出典: Microsoft

AIスパコン開発

OpenAIは高度な言語モデルを生み出しているが、これらはMicrosoftのAIスパコンを使って開発されている。言語モデル「GPT-3」やチャットボット「ChatGPT」はニューラルネットワークの規模が巨大で、開発では世界最速レベルのスパコンが必須となる。MicrosoftはNvidiaのGPUプロセッサ「A100」を使ってスパコンを開発し世界5位の性能を誇る(下の写真)。Microsoftはこの性能を更に向上させ、OpenAIはこの開発基盤で次世代の言語モデルを開発し、イノベーションを加速させる。同時に、Microsoftはこのスパコンをクラウド「Azure」に展開し、企業はここで大規模AIモデルを開発しそれを運用する。

出典: Microsoft

AIをクラウドで提供

MicrosoftはOpenAIが開発する最先端のAIモデルをクラウドで提供する。このクラウドは「Azure OpenAI Service」と呼ばれ、試験的に運用されてきたがこれを一般に公開する。ここでは、「GPT-3」や「ChatGPT」の他に、プログラムをコーディングするAIモデル「GitHub Copilot」や言葉の指示に従ってイメージを生成するAIモデル「 DALL·E 2」が提供される。MicrosoftはこれらのAIモデルを企業向けに提供するが、ビジネスとして安全に運用するために、セキュリティを強化し、AIの危険性を低減している。(下の写真、GPT-3でスポーツの試合のサマリーを生成している事例。)

出典: Microsoft

OpenAIへ開発環境を提供

MicrosoftはOpenAIにAI開発環境を独占的に提供しているが、今回の提携で、これを継続することを確認した。OpenAIはMicrosoftのクラウドを使って、先進技術の開発を実行するほかに、自社で事業を展開するために、AIモデルやAPIサービスをこのクラウドで顧客向けに提供する。従来はAmazon Web Servicesを使っていたが、Microsoftと提携し、これを全面的にAzureに切り替えた。

OpenAIとは

OpenAIはサンフランシスコに拠点を置く新興企業で、Sam Altman やElon MuskらがAI研究の非営利団体として、2015年に設立した。OpenAIは、人間レベルのインテリジェンスを持つAIを開発することをミッションとしており、深層強化学習(Deep Reinforcement Learning)や大規模言語モデル(Large Language Model)を中心に研究を進めている。

出典: Google Maps

OpenAIのAI開発戦略

OpenAIは非営利団体として設立されたが、経営方式を大きく変え、今では準営利団体として、最先端のAI技法の研究開発を進める。Elon Muskは2018年にOpenAIの取締役を辞任したが、投資家として関与している。Muskは、AIは「人類にとって最大の脅威」であると発言しており、人類に利するAIを研究する組織としてOpenAIを設立した。

Sam Altmanとは

また、Sam AltmanはCEOとしてOpenAIの運営に携わっている。AltmanはAIにより利益の分配が偏り、多くの人が職を失うことになると懸念している。失業者対策の一つとしてベーシックインカム(Universal Basic Income)の導入を求めており、自身でこの実証試験を進めている。(下の写真、Sam Altman(左側)とMicrosoft CEOのSatya Nadella(右側))

出典: Microsoft

MicrosoftがOpenAIに着目する理由

言語モデルは規模が大きくなると、処理性能が向上するだけでなく、多彩な機能を現すことが分かっている。GPT-3など言語モデルは「Transformer」というアーキテクチャで構築され、この規模を拡大すると、言語だけでなく、イメージやビデオやスピーチなど、他のメディアを理解する。つまり、TransformerベースのAIモデルはマルチメディアをインテリジェントに処理する機能を獲得し、社会のインフラを担う存在となる。MicrosoftはOpenAIと共同で、AIの社会基盤をクラウドで提供する構想を描いている。

MicrosoftはAIプログラミング技術「Copilot」が著作権法に違反するとして訴訟される、アルゴリズム教育で著作物を利用することの是非が問われる

MicrosoftはAIプログラミング技術「GitHub Copilot」が著作権を侵害しているとして訴訟された。Copilotとはプログラミングツールで、開発者の指示に従って、AIがコーディングを実行する。Copilotはオープンソースのプログラムで教育され、AIが出力するコードが、著作権を侵害しているとして提訴された。AI開発のアルゴリズム教育において、著作物を使うことが違法かどうかが問われることになる。

出典: GitHub

Copilotとは

Copilotは、Microsoftの子会社であるGitHubと関連会社のOpenAIが共同で開発したプログラミング技術で、人間の指示に従ってAIがプログラムを作成する(上の写真)。エンジニアがプログラムの機能を言葉で入力すると(上段)、Copilotがこれに従ってプログラミングを実行する(下段、水色のシェイドの部分)。これはプログラミングにおける「自動補完(Autocomplete)」機能で、エンジニアが書き始めたコードを、Copilotがそれに続く部分をリアルタイムで完結する。この機能は2022年6月に一般に公開され、月額10ドルで利用することができる。

Copilotの仕組み

CopilotはOpenAIが開発したAI「Codex」をベースとしている。Codexとは高度な言語モデルで、「GPT-3」をプログラミングに特化した構造となる。GPT-3はOpenAIが開発した言語モデルで(下の写真)、人間が入力した言葉(灰色の部分)に続く文章を出力する(黒色の部分)。一方、Codexは人間が入力したプログラミングに続くコードを出力する。

出典: OpenAI

教育データ

Copilotの核となるCodexはオープンソースのソフトウェアを使って教育された。具体的には、GitHubに掲載されているプログラムや、ネット上に掲載されているプログラムを使って、アルゴリズムを教育した。つまり、OpenAIはネット上のオープンソースをスクレイピングし、これを教育データとして利用した。これらはオープンソースとして公開されており、自由に利用することができる。

自動プログラミング

Copilotは自動でプログラムのコードを出力するが、これらは教育の過程で使われたオープンソースのプログラムの一部である。Copilotがプログラミングを実行するが、それらは教育で使われたオープンソースを出力する構造となる。オープンソースは誰でも自由に使えるが、使用の際にはオープンソースのライセンス契約に準拠する必要がある。例えば、オープンソースを利用した場合は、その著作権の表示が求められ、誰が開発者であるのかなどの表記が必要になる。

著作権侵害の理由

しかし、Copilotは利用したオープンソースの著作権表記をしておらず、ライセンス契約に違反するとして提訴された。著作物としてのプログラムを不法に利用したというのが訴訟の理由となる。これに対し、Microsoft側は、プログラムの一部を使うことは著作権法のフェアユース(Fair Use)に当たるとして、著作権の侵害は無いとのポジションを取る。

訴訟の意義

AI開発では著作物を使ってアルゴリズムを教育するのが常套手段となり、この手法が容認されてきた。例えば、イメージを生成するAIである、OpenAIの「DALL-E」やGoogleの「Imagen」やMetaの「Make-A-Scene」などは、アートなどの著作物で教育されている。これらのAIはオリジナルのアートをほうふつさせるイメージを生成し(下の写真、写真家Gregory CrewdsonのイメージでAIが少女像を生成)、著作権に関する議論が広がっている。これら企業は、著作物の使用はフェアユースの範囲であるとして、合法的にAIを加発していると主張する。この集団訴訟は、まだ初期段階であるが、AIと著作権に関する法的解釈を明確にすると期待されている。

出典: OpenAI

自主規制

米国では、これらイメージを生成するAIが、デジタルアートの制作などで使われている。ネット上にはAIが生成したデジタルアートが満ち溢れ、オリジナルとAIが生成したイメージの区別が難しくなってきた。このような中、写真画像販売会社Getty Imagesは、AIで生成したイメージをサイトにアップロードして販売することを禁止した。AIアートについての法的解釈が確定する前に、企業は自主的にリスクを避ける措置を実施している。

原告の主張

この訴訟はプログラマー兼弁護士であるMatthew Butterickにより起こされた。Butterickによると、訴訟した理由はAI教育と著作権との関係を問うもので、著作物制作者の権利を守るためとしている。AIの教育では著作物を使うことが容認されているが、AIは例外ではなく、著作権法の解釈に従うことが問われている。

Microsoftはメタバース市場に参入、仮想空間でのビデオ会議システムを発表、MR技術をコラボレーションに展開

Microsoftはメタバースの技術開発を進め、3D仮想空間におけるビデオ会議システム「Mesh for Teams」を発表した。このシステムはメタバースに構築されるコラボレーション基盤で、アバターを介してコミュニケーションする(下の写真)。Microsoftは「Mesh」という名称でメタバース技術を開発しており、これをビデオ会議「Teams」に適用した。

出典: Microsoft

Microsoftが考えるメタバース

Microsoftは2021年3月、メタバースを構成する技術として「Mesh」を発表した。Microsoftは、メタバースをインターネットの新しいモデルと捉えている。メタバースは仮想空間で、ここに人々が集い、交流する場となる。また、メタバースに、人や物のデジタルツインが生成され、これらを介して、現実空間と仮想空間が連結される。Microsoftは現実空間と仮想空間の融合をMR(Mixed Reality)と呼び、Meshがこの技術を支えている。更に、MicrosoftはMRヘッドセットとして「HoloLens」を開発し、企業向けに提供している。

Mesh for Teamsとは

メタバース上に展開するビデオ会議システムは「Mesh for Teams」と呼ばれ、コラボレーションツール「Teams」をMR空間「Mesh」で運用する構成となる。Teamsは在宅勤務におけるコラボレーションツールとして、幅広く利用されている。Mesh for Teamsは、その新機能で、自分のアバターを介してテレビ会議に参加する(下の写真、右側)。また、企業はMesh for Teamsを使って、会議室やロビーなど、仮想空間を生成することができる。ここに3D仮想オフィスが生成され、社員はアバターを介してここでデジタルに勤務する。

出典: Microsoft

Accentureの仮想オフィス

Accentureは既に、メタバース上にオフィス空間を生成し、社員のコラボレーションの場として活用している。仮想のキャンパスは「Accenture Nth Floor」と呼ばれ、ここに社員が集い、オフィス勤務をする(下の写真、イメージ)。社員は、オフィスでコーヒーを飲みながら会話を交わすこともできる。会議室ではプレゼンテーションを行い、また、パーティーを開催することもできる。仮想キャンパスは、テレビ会議とは異なり、社員同士が出会い交流する場となる。物理オフィスで雑談するなかで、アイディアが生まれるように、メタバースは社員が出合い言葉を交わす場となる。

出典: Microsoft

メタバース・アプリケーション

Microsoft はMeshとHoloLens を使ったメタバース・アプリケーションの開発を進めている。メタバース・アプリケーションは、場所を超えて共同作業をする空間を構築する。例えば、オフィス内に3D 仮想スペースを構築し、共同作業を進めることができる(下の写真)。複数の社員がHoloLens 2を着装し、会議室やオフィスに集合し、そこで実物を見ながら製品開発を進めることが可能となる。このアプリケーションはMeshで生成され、HoloLens 2からアクセスする。

出典: Microsoft

メタバースへのアクセス技術

Microsoft は、メタバースへのアクセス技術としてMR グラス「HoloLens」を開発した。現在は、第二世代の製品「HoloLens 2」を出荷しており、これを着装し、現実空間に構築された仮想オブジェクトを操作する(下の写真)。企業向けのデバイスで、メタバース・アプリケーションと組み合わせて利用する。Microsoft はVR(仮想現実) とAR(拡張現実) を統合した技術をMR(複合現実)と呼び、メタバースにアクセスする基礎技術と位置付けている。

出典: Microsoft

Mesh for Teamsを開発した理由

Microsoftは、ポストコロナのワークスタイルはハイブリッドとなり、遠隔勤務が重要な役割を担うと分析している。遠隔勤務では、管理職が考えるより、仕事を効率的に進めることができるとしている。一方、社員は、遠隔勤務では、会社の同僚と会えないことが最大の課題だと指摘する。オフィス勤務では、同僚と立ち話ができ、人間関係が深まる。また、会議では、同僚の素振りから、その場の空気を読むことができた。遠隔勤務では、これら人間関係のウェットな部分が欠落し、社員同士が疎遠になる。Mesh for Teamsはこれらの問題点を補完するために開発された。社員はデジタルツインであるアバターを生成し、これらを介して、表情や感情を表し、他の社員と交流する(下の写真)。

出典: Microsoft

メタバースのロードマップ

Meta(Facebook)はメタバースにソーシャルネットを構築する構想を描いているが、Microsoftはメタバースで企業向けのソリューションを提供する戦略を取る。その最初のステップがコラボレーションで、社員は3D仮想空間で共同作業を実行する。航空機のエンジンの設計を遠隔地と社員と共同で進めるソリューションを提供している(下の写真)。Microsoftの強みはAIやクラウドで、Mesh for Teamsでメタバース開発レースに参戦した。

出典: Microsoft

Microsoftは超リアルな3Dフェイスを生成、顔写真の代わりに合成メディアで顔認識AIを教育できることを実証

Microsoftは合成メディア(Synthetic Media)の手法で3Dフェイスを生成した(下の写真)。これは顔認識AIを教育するためのモデルで、実物と見分けのつかない超リアルな3Dフェイスが生成された。今まではセレブなど実在の人物の顔写真を使って顔認識AIを教育してきた。しかし、これらの写真は本人の了解を取らないで無断で使われ、個人のプライバシーを侵害するとして社会問題となっている。このため、Microsoftは、これらのデータセットを消去し、合成メディアの手法で3Dフェイスを作成し、これをアルゴリズム教育に活用できることを実証した。

出典: Erroll Wood et al.

研究の意義

倫理的に顔認識AIを教育するために、人工的に3Dフェイスを生成し、これでアルゴリズムを教育する手法が取られてきた。しかし、合成データで教育するとアルゴリズムの判定精度が落ちるという問題が発生する。しかし、Microsoftは高品質の合成データを生成し、教育したアルゴリズムは写真データで教育したものと精度が変わらないことを示した。つまり、顔認識AIを教育するために、ネット上の顔写真をスクレイピングすることは不要で、合成データで倫理的に開発できる道筋をつけた。

顔認識AIの精度

合成データで顔認識アルゴリズムを教育すると、判定精度は写真で教育した場合と同等であることが示された。顔認識アルゴリズムは顔のパーツを判定する機能(Face Pursing)があり、鼻や口や目やまつ毛などを識別して色で示す(下の写真左側)。実際にベンチマークすると、写真で教育したものとほぼ同等の精度となることが証明された。また、顔認識アルゴリズムは顔の特徴量(Landmarks)を特定する機能があり、合成データで教育すると10倍精密なランドマークを生成できる(右側)。

出典: Erroll Wood et al.

Dフェイスモデル

MicrosoftはAIの手法(Generative 3D Face Model)で人物の頭部を三次元で生成する。これは3Dフェイスモデルと呼ばれ、生成されたモデルは実在しない人物の顔を超リアルに生成する。この手法はハリウッドの映画スタジオで使われる特撮技術(Visual Effects (VFX))で、映画スターがデジタルに生成されている。しかし、Microsoftの場合は教育データを大量に生成する必要があり、超リアルな3Dフェイスモデルを数多く生成する技法を開発した。

モデル生成のプロセス

このため、Microsoftはテンプレートを基準にして、それを変形する手法で多数の3Dフェイスモデルを生成した。まず、AIはテンプレートとなる3Dフェイスモデル(下の写真左端)を生成する。これをベースに、このモデルに個性(左から二番目)、表情(三番目)、スキン(四番目)、頭髪(五番目)、衣服(六番目)、背景(右端)を付加する。これにより、リアルで多様性のある3Dフェイスモデルを生成することができた。

出典: Erroll Wood et al.

Dフェイスモデルの多様性

3Dフェイスモデルで教育された顔認識AIは特定の人種にバイアスすることなく公平に判定できることも示された。Microsoftは3Dフェイスモデルで教育した顔認識AIを多様性データセット「The MUCT Face Database」を使ってその判定精度を検証した(下の写真)。このデータセットは異なる性別や多様な人種で構成されており、多様性を検証するために使われる。また、光の状態も様々で、現実社会に近い環境で顔認識AIの精度を検証できる。教育した顔認識AIはこのデータセットで正しく判定し、多様性のある実社会で利用できることが示された。

出典: Erroll Wood et al.

データセットを公開

Microsoftは生成した3DフェイスモデルをGitHubに公開しており、研究開発の目的で自由に利用することができる。公開されているモデルの数は10万で、それぞれのモデルには70のアノテーションが付加されている(下の写真、フェイスモデルとアノテーション)。研究者はこのモデルを使うことで、倫理的に顔認識AIを開発できる。

出典: Microsoft

顔写真データセットを消去

これに先立ち、Microsoftは著名人の顔写真データセット「Microsoft Celeb (MS-Celeb-1M)」を開発し、これを公開していた。これは著名人の顔写真100万枚を格納したデータセットで、顔認識AIの教育で利用されてきた。しかし、Microsoftはデータセットに格納している顔写真について、本人の同意を得ていないとして、全てのデータを消去し公開サイト「MS Celeb 」を閉鎖することを決定した。顔写真収集に関する議論が広がる中、Microsoftは他社に先駆けてこれらを利用しない方針を打ち出した。

顔写真をスクレイピング

これとは対照的に、新興企業「Clearview」は顔認識AI開発するために、ソーシャルネットワークに掲載されている顔写真をスクレイピングしてアルゴリズムを教育した。写真の数は30億枚を超え、世界最大規模の顔写真データセットを構築した。Clearviewが開発した顔認識アルゴリズムは判定精度が高く、全米の警察で犯罪捜査に利用されている。これに対し、市民団体は、個人の顔写真を許可無く使用することは違法であるとして、Clearviewに対し集団訴訟を起こした。

出典: Erroll Wood et al.

合成メディアの手法で生成

フェイスブックなどに掲載している顔写真を収集し、これを顔認識AIの教育で使うことが社会問題となっているなか、倫理的な開発手法の模索が続いている。消費者の了解を得て顔写真を収集するのでは大量のデータを準備できない。Microsoftは高品質な3Dフェイスモデルを大量に生成することに成功し、教育データを合成メディアの手法で生成する方式に注目が集まっている。