カテゴリー別アーカイブ: 人工知能

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。

Teslaは世界最高速のAIプロセッサを発表、自動運転車開発でメーカーがAIスパコンを開発し垂直統合が進む

TeslaはAIイベント「AI Day」で自動運転車開発の最新状況を公開した。自動運転の中核技術は高度なコンピュータビジョンで、これを開発するためにはAIスパコンが必要となる。TeslaはAIプロセッサを開発し、これをベースに独自のAIスパコンを構築した。更に、自動運転技術をロボットに応用したヒューマノイドを開発することを明らかにした。

出典: Tesla

発表概要

Teslaの自動運転技術は「Full Self-Driving(FSD)」(上の写真)と呼ばれ、他社とは異なり、カメラだけでクルマが自律走行する。AIはカメラの映像を解析し周囲のオブジェクトを把握するが、ニューラルネットワークの規模が巨大になり、また、アルゴリズムを教育するために大量のデータを必要とする。このため、Teslaは独自でAIプロセッサ「D1 Chip」を開発し、アルゴリズム教育を超高速で実行する。自動車メーカーがスパコン開発まで手掛け、自動運転車で垂直統合が進む。

AI専用スパコン

TeslaはAI専用プロセッサD1をベースとするAIスパコン「ExaPOD」を開発した(下の写真)。このシステムはアルゴリズムの教育などで使われ、一般に「Dojo Supercomputer」と呼ばれる。現在は、GPUをベースとするAIスパコンを運用しているが、これを独自半導体D1 Chipで構成する。最大性能は1.1 ExaFlopsで、世界で第五位の処理能力を持つスパコンとなる。Teslaは既に、独自技術で車載プロセッサ「FDS Chip」を開発しており、クルマでアルゴリズムを実行するために使われている。今回発表のD1 Chipは超高速のプロセッサで、ExaPODでアルゴリズム教育などで使われる。

出典: Tesla

AIプロセッサ

AIプロセッサD1 Chipは354の計算ユニット(Training Node)から成るプロセッサで、最大性能は362 TeraFlopsとなる(下の写真)。計算ユニットはマトリックス計算とベクトル計算機構を備え、ニューラルネットワークの教育に最適のアーキテクチャとなる。従来は、Nvidia GPUを使っていたが、TeslaはAI処理に特化したD1 Chipを独自に開発した。

出典: Tesla  

AIプロセッサの性能比較

D1 Chipの特徴は他のチップと高速でデータ通信できることで、このクラスで最大の能力を持つ。D1 Chipはデバイスの周囲に通信機構(I/O Ring)を搭載し、他のチップとデータを送受信する。D1 Chipの通信性能が高いため、数多くのチップと連結でき、スパコン大規模なスパコンの開発可能となる。(下のグラフはAIチップの処理性能を示している。横軸が演算性能で縦軸が通信速度。GoogleのTPUやGPUに比べ通信性能が高いことが分かる。)

出典: Tesla  

ボードの構造

D1 Chipはボード「Training Tile」(下の写真)に搭載される。ボードには25個のD1 Chipが搭載され、他のボードと高速でデータ通信する。更に、このボード6枚をラックに搭載し、これを24ユニット使い、AIスパコン「ExaPOD」が構成される。つまり、ExaPODは3000個のD1 Chipを搭載し、最大性能は1.1 ExaFlopsとなる。

出典: Tesla  

コンセプト

TeslaはLidarを使わないでカメラだけで自動運転できる技術を開発している。カメラの映像をAIで解析することでクルマが自動走行する。コンピュータビジョンが視覚となり、クルマは動物のように、周りの状況を判断して安全なルートを走行する。クルマは8台のカメラを搭載し、これをAIで解析して周囲のオブジェクトを把握する。

出典: Tesla

自動運転AIの構造

上のグラフィックスはAIのアーキテクチャを示している。それぞれのカメラの映像をCNNで解析し特徴量を把握する(下段の部分)。これをTransformerで融合し、周囲を見渡せる3Dモデルを生成する。3Dモデルはベクトル空間(Vector Space)として構成され、クルマは周囲の状況を3Dで把握するだけでなく、その意味を理解する。更に、AIは過去のオブジェクトを“記憶”する機能を持ち、視界が遮られても周囲の状況を把握できる。(下のグラフィックス、ピックアップトラックがクルマの視界を遮ってもRNNは背後に二台のクルマがいることを覚えている(赤丸で囲った部分)。)

出典: Tesla

スパコンが必要な理由

Teslaが開発しているAIモデルは巨大で、更に、このニューラルネットワークを大量のデータで教育する必要がある。ニューラルネットワークのパラメータの数は数億個といわれ、自動運転車の開発は巨大AI開発でもある。Teslaは市販車両のカメラで撮影した映像をクラウドに集約しており、これが教育データとして使われる。大量の教育データを保有していることがTeslaの強みとなる。巨大なニューラルネットワークを大量のデータで教育するためにはAIスパコンが必須となる。

ロボット開発を開始

イベントの最後にMuskはヒューマノイドロボット「Tesla Bot」(下の写真)を開発することを明らかにした。自動運転車のカメラやAIをロボットに適用することでヒューマノイドを開発し、来年、プロトタイプの完成を目指す。ロボットは繰り返し作業など人間が嫌がるタスクを実行し、買い物に行くなどの利用法が示された。ただ、実際にロボットが完成するかどうかについて、Muskは難しいとの見解を示している。つまり、ロボット開発はMusk流のマーケティング手法で、市場の注目を集め、優秀なエンジニアを雇い入れることが目的との解釈もある。

出典: Tesla

Autopilotの事故が続く

Teslaは運転支援技術「Autopilot」で事故が続き、その対応に苦慮している。Autopilotで自動走行中に停車中の緊急車両に衝突する事故が11件続き、連邦政府(National Highway Transportation and Safety Administration)は調査を開始した。事故は夜間に発生しており、コンピュータビジョンの精度が調査の対象となる。AutopilotのAIに疑問が呈された形となり、Teslaはカメラだけで安全に走行できることを早期に実証する必要性に迫られている。

米国の小売店舗は万引き防止のためAI監視カメラの導入を進める、人権団体は消費者保護を理由に廃止を求める

米国の主要小売店舗でAI監視カメラの導入が進んでいる。店舗に設置された監視カメラの映像をAIで解析し、商品窃盗者の身元を特定する目的で使われる。消費者が気付かないうちに普及が進み、今ではApple Storeなど大手小売店舗がAI監視カメラを導入している。しかし、人権保護団体は、AI監視カメラは消費者の誤認逮捕につながるとして、小売店舗に対しシステムの使用を停止するよう求めている。

出典: Macy’s

老舗デパート・メイシーズ

米国のデパートやスーパーマーケットでAI監視カメラの導入が進んでいる。老舗デパートであるMacy’sは、顔認識システムを導入していることを明らかにしている。その理由として、犯罪組織が特定地域で商品窃盗を繰り返しており、これを抑止するためにAI監視カメラを利用すると説明している。実際に、米国は昨年から治安が悪化しており、有名店舗で高級品を狙った窃盗事件が多発している。

アップルストアー

Appleは何も公表していないが、Apple StoreはAI監視カメラを導入し、商品窃盗を防止していることが判明した。Appleとそのセキュリティ企業Security Industry Specialistsは消費者から顔認識システムに関し訴訟を受けている。訴状によると、Appleは顔認識システムで窃盗者を特定したが、これはアルゴリズムのエラーで、別の人物がその人物になりすまして犯行を実行したことが判明した。このため、消費者は誤認逮捕されたとしてAppleなどを提訴している。この訴訟が切っ掛けでAppleがAI監視カメラを導入していることが明らかになった。

出典: Apple  

セブンイレブンなど

この他に、コンビニ7-Elevenはオーストラリアの全店舗でAI監視カメラを導入している。また、ハンバーガーチェインのMcDonald’sは2019年、注文受付カウンターで顔認識システムのプロトタイプの運用を開始した。現在、マクドナルドは監視カメラで店舗内の顧客を撮影し、セキュリティを強化している。一方で、AI監視カメラを使用しないと表明する企業も少なくない。Starbucksは顔認識システムを利用しないことを明言しており、顧客のプライバシーを保護する方針を維持している。

多くの店舗が顔認識システムを導入

人権監視団体「Fight for the Future」は顔認識システムの利用状況をまとめ、これをデータベースとして公開している。これによると、調査した53社のうち35社が顔認識システムを使っている。消費者が気付かないうちに米国小売店で顔認識システムの普及が進み、全体の2/3がAI監視カメラを導入している。現在、人権監視団体は小売店舗で顔認識システムの利用を停止するための活動を展開している。

反対する理由

人権監視団体がこの運動を展開する理由は消費者や店舗従業員の保護にある。顔認識アルゴリズムは判定精度が十分でなく、システムは間違った判定を下すことが少なくない。このため、Apple Storeのケースのように、消費者が誤認逮捕されることになる。また、顔認識システムは消費者の挙動を収集するためにも使われる。AI監視カメラで消費者の店内での挙動を把握し、この情報を元にターゲット広告を配信する。更に、AI監視カメラは小売店舗従業員の仕事ぶりを監視する目的で使われ、アルゴリズムが動きを逐一モニターする。

出典: Fight for the Future

警察は顔認識システムの使用を中止

顔認識システムの妥当性についての議論が始まり、全米の警察はその利用を禁止する方向に進んでいる。サンフランシスコ市は警察が顔認識技術を使うことを禁止した。これがトリガーとなり、対岸のオークランド市とバークレー市も顔認識技術の使用を禁止し、警察はこのシステムの使用を中止した。この背後には政府がAIで市民を監視することへの漠然とした恐怖心があり、顔認識システム禁止の動きが全米に広がる勢いとなっている。

欧州と米国の動き

消費者はAIに対する漠然とした恐怖から、顔認識システムに過剰に反応していることも事実である。AI監視カメラを正しく使うと、犯罪を抑止し、地域のセキュリティが向上する。このため、欧州委員会(European Commission)はAI監視カメラについてその使用を認めている。但し、AI監視カメラで顔認識システムが稼働していることを明示することを義務付けており、消費者への配慮を求めている。米国も同様な方向に進んでおり、警察での使用禁止とは対照的に、小売店舗や企業でAI監視カメラの導入が進んでいる。

Googleは監視カメラ最新モデルを発表、カメラにAIチップを搭載し検知精度が向上、エッジAIへの流れが加速

Googleは監視カメラ「Nest Cam」とドアベル「Nest Doorbell」の最新モデルを発表した。カメラはAIチップを搭載し、画像解析処理をデバイス上で実行する。クラウドを介すことなく、デバイス上で機械学習を実行でき、高精度で不審者などのオブジェクトを検知する。Googleはスマホ最新モデルPixel 6に続き、スマートホーム製品でもエッジAIを採用し、デバイスのAI処理性能を大幅に向上した。

出典: Google

Nest CamとNest Doorbell

Googleはスマートホーム製品を「Nest」のブランドで提供しており、監視カメラ「Nest Cam」とドアベル「Nest Doorbell」の最新モデルを開発した。Nest Camは二機種あり、屋外・屋内モデル(上の写真、右端)と屋内モデル(中央)で、前者はバッテリーで稼働する。ドアベル(左側)もバッテリーで稼働し、配線は不要で簡単に設置できることが特徴となる。デザインも一新され、シンプルで背景に調和する色調や形状となった。

監視カメラ

Nest CamとNest Doorbellはカメラが捉えた映像をAIで解析してイベントを検知する構成となる。Nest Camは家屋の外壁などに取り付けて利用する(下の写真右側)。Nest CamのAIはオブジェクトの種別を判定し、人や動物やクルマを検知すると(左側)、それをアラートとして利用者のスマホに送信する(中央)。外出先からでも自宅のセキュリティを確認することができる。

出典: Google  

ドアベル

Nest Doorbellはドアベルであるがカメラを搭載しており、監視カメラとして機能する(下の写真中央)。Nest Doorbellは人の動きを検知し、訪問者があると、それをアラートとして利用者のスマホに送信する(左側)。利用者はアプリで訪問者を確認し、マイクボタンを押すとそのまま会話することができる。また、オンラインショッピングで商品が配送されるとそれを認識し(右側)、利用者に通知する。

出典: Google  

AIスピーカーとの連携

Googleは監視カメラやドアベルをスマートホームの主要製品と位置付け、AIスピーカーとの連携を強化している。米国の家庭でAIスピーカーの導入が進んでいるが、Googleは「Nest Mini」(下の写真左端)や「Nest Hub」(右端)を提供している。Nest Hubはディスプレイを搭載したAIスピーカーで、監視カメラやドアベルがイベントを検知すると、カメラの映像がストリーミングされる。訪問者をディスプレイで確認してドアを開けるなどの応対ができる。

出典: Google  

Tensorチップ

Nest CamとNest DoorbellはAIチップ「Tensor Processor(TPU)」を搭載しており、カメラの映像をデバイス上で解析する。従来はカメラの映像をクラウドに送付して解析していたが、これをデバイス上で処理することで性能アップを達成した。具体的には、Nest CamとNest Doorbellは現行製品と比較して、二倍のピクセルとフレームを処理することができ、判定精度が大きく向上した。GoogleはエッジAIの開発を進め、先週発表されたPixel 6に続き、NestでもAIチップをデバイスに搭載する構成を取る。GoogleはIoTデバイス向けのAIチップを「Edge TPU」として販売している(下の写真)。

出典: Google  

実際に使ってみてみると

実際に、Nest Doorbellの現行モデルを使っているが、玄関先のセキュリティが強化され、安心感が大幅に向上した。使い方はシンプルで、スマホアプリ「Nest」からドアベルが捉えた玄関先のビデオを見ることができる(下の写真左端)。また、来客があると、アラートをスマホで受信する。更に、商品が宅配されたとき、AIはそのイベントを把握し、スマホにメッセージを送信する(中央最上段)。玄関先に置かれた商品を手早く取り上げることで盗難被害を防ぐことができる。

出典: VentureClef  

クラウドに映像を記録

撮影されたビデオはクラウド「Nest Aware」に記録され、これを検索することで特定のイベント(商品配送など)を再生できる(上の写真右端)。一方、木の陰などをイベントとして捉え、アラートを受け取ることがあり、判定精度が課題であるとも感じる。最新モデルはAIチップが搭載され、画像解析の判定精度が上がり、誤検知が減ると期待される。

AIドアベルが人気商品

いま米国でAI監視カメラの導入が進んでいる。特に、AIドアベルの人気が高く、多くの家庭がセキュリティ強化のために設置している。Googleからは上述のNest Doorbellが出荷されている。また、Amazonからは「Ring Doorbell」が提供され、両者が人気商品で市場を二分している。これらは、宅配商品の盗難を防ぐために、また、自宅前のイベントを監視するために使われている。GoogleはドアベルのAI性能を向上することでAmazonとの差別化を図っている。

Googleはスマホ最新モデル「Pixel 6」を発表、自社開発プロセッサ「Tensor SoC」を搭載し超高速AIマシンに進化

Googleは8月2日、スマホ最新モデル「Pixel 6」を発表した(下の写真)。Googleは独自でスマホ向けプロセッサ「Tensor SoC」開発した。名称が示している通り、これはAI処理に特化したプロセッサで、スマホはAIマシンに進化した。Googleはスマホ向けに様々なAIシステムを開発してきたがプロセッサ性能が限界に達し、今回、独自にプロセッサを開発し、性能を大幅にアップグレードした。

出典: Google

Pixel 6の概要

このシリーズは「Pixel 6」と「Pixel 6 Pro」の二つのモデルから成り、今年の秋から出荷が始まる。製品価格やハードウェア仕様など詳細情報は公表されていない。発表のポイントは高速AIプロセッサで、Googleはスマホの機能をAIで拡充する戦略を取る。これにより、AIがカメラの性能を大幅に機能アップする。また、AIがリアルタイムの通訳となり、異なる言語で会話できる。更に、最新の基本ソフト「Android 12」を搭載し、カラーデザインが洗練されユーザインターフェイスが大幅に改善された。

スマホ向けプロセッサ

Googleはスマホ向けのプロセッサ「Tensor SoC」(下の写真)を独自で開発した。SoCとは「System on a Chip」の略で基本ソフトを稼働させるメインのプロセッサとなる。今までGoogleは半導体企業QualcommからSoC (Snapdragon)を調達してきたが、Pixel 6向けにはこれを独自で開発した。Tensorという名称が示すように、AI処理に重点を置いたプロセッサ構成となる。一方、SoCを構成するユニットとして、CPU、GPU、5G Modemなどがあるが、Googleはこれらを独自で開発したのかどうかについては公表していない。(米国メディアはSoCのベースをSamsungからライセンスを受け、GoogleはAIプロセッサの部分を開発したと推測している。)

出典: Google  

カメラと画像処理

Googleはカメラで撮影したデータをAIで処理して写真やビデオを生成する手法を取る。これは「Computational Photography」と呼ばれ、カメラのセンサーが捉えたイメージをAIで解析しダイナミックレンジの広い画像「HDR」を生成する。また、暗闇の中でもフラッシュや三脚を使わないで鮮明な写真を生成する技術「Night Sight」を開発してきた。このプロセスで大規模なAI計算が発生し、これをTensor SoCが担う。また、Pixel 6ではカメラと関連センサーは本体に収まらず、帯状のデバイス「Camara Bar」に格納される(先頭の写真、黒色の長方形の部分)。

言語処理

AI機能のもう一つの柱は言語処理で言語モデルが言葉を理解してユーザとのインターフェイスとなる。「Google Assistant」が人間の秘書のように言葉を理解してタスクを実行する。また、AIアプリ「Recorder」は録音した言葉をテキストに変換する機能を持つ(下の写真)。会議での発言を録音し(左端)、Recorderがそれをテキストに変換し(中央)、議事録を作成する。後日、議事録を検索して特定の発言を見つけることができる(右端)。Pixel 6はこれをもう一歩すすめ、同時通訳機能が登場した。Pixel 6のTensor SoCで翻訳プロセスが実行され、クラウドを経ることなく、デバイス上でリアルタイムに実行される。

出典: Google  

Material You

Googleは開発者会議Google I/Oで基本ソフトの最新モデル「Android 12」と新たなデザインコンセプト「Material You」(下の写真)を発表した。Android 12はMaterial Youを搭載する最初の基本ソフトでPixel 6でこれを製品として提供する。Material Youは色をベースとしたシンプルなデザインで、機能性と個人の個性を追求したインターフェイスとなる。

出典: Google  

Material Youを使ってみると

既に、Android 12のベータ版が公開されており、Material Youを使うことができる(下の写真)。Material Youでは基本色調「Basic Color」を設定すると画面のコンポーネントがその色となる。例えば、基本色調をブルーに設定すると(左端)、画面のボタンやアイコンの色がブルーに (中央)なる。また、ブラウンに設定するとその色を基調としたデザインとなる(右端)。更に、Material Youではボタンの形状が丸みを帯び、サイズも大きくなり、優しいイメージに進化した。Pixel 4でAndroid 12のMaterial Youを使っているが、タッチしやすく温かみを感じるインターフェイスとなった。

   

出典: VentureClef  

スマホハイエンド市場への挑戦

Googleは2016年10月、Pixelを発表しスマホ事業に参入し、Pixel 6は第六世代のモデルとなる。Pixelシリーズは一貫してAIでスマホを構成する戦略を取り、Googleのコア技術である画像解析と言語モデルをスマホに応用してきた。Google PixelのカメラはAIで構成され、世界でトップレベルの高品質な画像を生成してきた。しかし、近年ではApple iPhoneの機能アップが著しく、Pixelはスマホ競争から取り残されている。Pixel 6はプロセッサを大幅にアップグレードし、再び、ハイエンド市場でシェア拡大を狙っている。