カテゴリー別アーカイブ: スタートアップ

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。

Voice Cloning 誰でもプロのアナウンサーになれる、AIが発言者の音声を編集し言い間違いを修正する

アマチュアがNHKのアナウンサーのように流ちょうに喋るビデオを生成できる。ビデオの制作で時間がかかるのがナレーションの録音と編集である。準備したテキストに従って喋るが、アマチュアの場合、言い間違いやテキストの修正で撮影を繰り返し、ファイナルカットができるまで時間を要す。ここで最新のAI技法「Voice Cloning」を使うと、発言者のボイスを編集して言い間違いを修正できる。一回の撮影でプロ並みのビデオが完成する。

出典: Descript

Voice Cloningとは

Voice Cloningとは発言者の声のクローンを生成する技術で、本物と見分けのつかない偽の声が生成される。Voice Cloningは使い方を誤ると危険な技術であり、他人になりすまし、相手を欺き、金銭を奪う犯罪行為につながる。AI時代の「振り込め詐欺」で、米国で大きな社会問題となっている。一方、Voice Cloningは社会に貢献する技術でもあり、録音や録画の音声処理が格段に容易になり、新世代のビデオ編集技術として注目されている。

Desciptというスタートアップ

スタートアップがVoice Cloningを応用した編集技術を開発している。サンフランシスコに拠点を置く新興企業Descriptは録音した音声をVoice Cloningで編集する技術を開発した。この技術はポッドキャストやビデオの音声編集で使われる。録音した音声をDescriptに入力すると、AIがそれをテキストに変換する(Transcription)。変換されたテキストをレビューし、言い間違いがあるとその部分を修正すると、同時に音声ファイルも変更される。つまり、音声テキストを編集するだけで、修正されたナレーションを生成できる。

編集のプロセス

Descriptはこの一連の機能をクラウドとして提供している(下の写真)。スマホカメラで撮影すると、映像と音声がDescriptに入力される。音声の部分はテキストに変換され、ウインドウに表示される(下の写真、中央部)。ここに表示されたテキストを編集すると、変更された通りの音声が生成される。音声は発言者の声で生成され、何回も録音することなく、テキストの編集だけでこれを実現できる。また、ビデオやイメージを編集する機能が追加され、テキストの中にイメージアイコンを挿入することで、ナレーションに合わせてビデオが再生される(下の写真、上段)。

出典: Descript

Speech Synthesis

音声を生成する技術は「Speech Synthesis」と呼ばれ、発言者の声でテキストを音声に変換する。上述の事例のように、利用者の声でテキストを音声に変換する。この他に、Descriptは音声サンプルを提供しており、テキストを好みの音声に変換することができる。テキストを入力すると、Speech Synthesisは指定された音声(アメリカ英語を話す女性の声など)でナレーションを生成する(下の写真)。

他社の技術と比較すると

多くの企業がSpeech Synthesisを開発しているが、その中で「Amazon Polly」や「Google Text-to-Speech」が有名である。Descriptの特徴は人間が喋るように自然なナレーションを生成することに特徴がある。「Polly」が生成する音声はロボットが喋るようにぎこちなく、機械的に生成されたことが分かる。一方、「Text-to-Speech」はDescriptのよに人間の発言と区別がつかない。

出典: Descript  

LyerbirdのAI技術

Descriptの音声技術はLyrebirdが開発したAIをベースとしている。Lyrebirdとはカナダ・モントリオールに拠点を置く新興企業で、テキストをリアルタイムで音声に変換する技術を開発した。特に、人の声を生成するVoice Cloningに特徴があり、AIは本人と見分けのつかないスピーチを生成する。Descriptは2019年9月、Lyrebirdを買収し、この技術をベースに前述の製品を開発した。

オバマ大統領の声を生成

Lyrebirdは当時のオバマ大統領のスピーチをAIで生成して注目を集めた。オバマ大統領は、「Hi everybody.  This time I like to share with you a cool company…」と語り始めたが(下の写真)、これはオバマ大統領が喋っているのではなくLyrebirdが音声を生成したもので、本人の声と見分けがつかない。

出典: Descript  

様々な応用分野

 Lyrebirdはこの技術を使って様々なソリューションを開発した。映画製作で俳優の声を記録しておくと、年をとっても、また、亡くなっても声優として活躍できる。AIスピーカーやオーディオブックで好みの声を選択できるようになる。また、映画俳優だけでなく個人が声を録音しておくと、亡くなった後もチャットボットとして家族と対話できる。(下の写真、Amazon Alexaのスキル「HereAfter」を使うと亡くなった両親や友人と会話できる。)

出典: HereAfter

AI振り込め詐欺

また、声のクローンを簡単に制作できるようになり、新手の犯罪が社会問題となっている。会社役員の声のクローンを生成し、AI版の振り込め詐欺が始まった。会社役員になりすました犯罪者は企業の経理部に電話をかけ、役員の声で指定した口座に振り込みを指示する。電話の声は本人と区別がつかず、被害にあう企業が増えている。このため、不正行為を監視する連邦取引委員会(FTC)は企業や消費者に対し注意を呼び掛けている。

声のクローンを生成する

声の録音データがあれば簡単にそのクローンを生成できる。企業幹部は会社紹介などでYouTubeにビデオを公開しているケースが多く、ハッカーはこれらビデオに記録されている音声データを使いクローンを生成する。10分程度のデータで音声のクローンが生成でき、1時間分あれば本人と見分けのつかない高精度なクローンが生成できる。

使い方には注意を要す

AI技法の進化と共に市場にはテキストを音声に変換する製品が数多く登場している。Photoshopでイメージを編集するように、Voice Cloningで本人と見分けのつかない音声クローンを生成する。Voice Cloningは便利な技術であるとともに、犯罪と表裏一体の関係にあり、使い方には注意を要す。もはや、電話の声だけで相手を信用することは危険で、本人確認の手順を決めておく必要がある。

コロナと共棲するため飲食店はリアルからデジタルに進化、シリコンバレーで”ゴースト・キッチン”が営業を開始

コロナがデジタルトランスフォーメーションを加速しているが、レストランもデジタル化を進めている。デジタルなレストランはGhost Kitchenと呼ばれ、店舗を持たない配送専門の飲食店となる。Ghost Kitchenはキッチンだけの施設で、注文を受けた料理を調理し、消費者宅まで配送する。DoorDashは仮想レストラン「DoorDash Kitchens」をシリコンバレーにオープンし営業を開始した(下の写真)。

出典: VentureClef

オンデマンドの出前サービス

DoorDashはサンフランシスコに拠点を多く新興企業で、レストラン出前サービスで急成長している。コロナの感染拡大でレストランは営業自粛を求められ、事業存続の危機に瀕している。多くのレストランは生き延びるため、DoorDashなどのオンデマンド配送サービスを利用し、宅配に特化した事業モデルにシフトしている。

DoorDash Kitchens

DoorDashは新たな試みとして仮想レストランの事業を始めた。これが「DoorDash Kitchens」で、シェフや事業者向けに調理場を提供する。シェフは店舗を持つ必要はなく、DoorDash Kitchensを借りて、簡単にレストランを運営できる。DoorDash Kitchensはダイニングスペースはなく、出前と受け取り専用のレストランとなる。

実際に使ってみると

実際にDoorDash Kitchensを使ってみたが、美味しい料理を短時間で受け取ることができ、とても便利だと感じた。専用アプリでレストランを選択し、そこで料理を注文し、それをDoorDash Kitchensで受け取る手順となる。ここでThe Italian Homemade Companyというレストランでパスタを注文し(下の写真、左側)、指定された時間にDoorDash Kitchensに出向き、料理を受け取った(下の写真、中央)。

出典: VentureClef

店舗で料理を受け取る

DoorDash Kitchensに到着すると、店舗は人目を引くデザインで、入り口にはDasher(宅配スタッフ)たちが出前の順番を待っていた(先頭の写真)。店舗内部にはダイニングスペースはなく、調理された料理がパッケージされ、棚に置かれていた(下の写真、左側)。棚の裏側がキッチンになっており、複数のレストランが入店し、ここで注文を受けた料理を調理する(下の写真、右側)。

出典: VentureClef / DoorDash

シンプルで美味しい料理

ここでラビオリ(Ravioli)とニョッキ(Gnocchi)とフェットゥチーネ(Fettuccine)を注文したが(下の写真)、ベーシックなイタリアンで美味しかった。レストランでは手の込んだ料理が出るが、DoorDash Kitchensではシンプルで美味しい料理をキッチンで量産する仕組みとなる。ここには複数のレストランが入っており、イタリア料理の他にハラール料理やタイ料理など6店舗が入居している。

出典: VentureClef

事業戦略

DoorDash Kitchensはレストランのターンキーソリューションで、シェフはレストランを開設することなく簡単に事業を開始できる。また、DoorDashが調理した料理を宅配するので、シェフは調理に専念できる。DoorDash Kitchensがレストランというプラットフォームを提供し、シェフはここで仮想レストランを運営する。ちょうどクラウドの上でシェフというアプリが動く形態で、クラウド・レストランとも呼ばれる。コロナの感染が広がる中、DoorDash Kitchensのようなクラウド・レストランに注目が集まっている。

出典: VentureClef

アウトドアダイニング

レストランはデジタル化を進めるとともに、ダイニングスペースをオープン化する試みを始めた(上の写真)。マウンテンビュー市は通りを歩行者天国とし、レストランはここにソーシャルディスタンスを保ってテーブルを配置している。屋内の閉じた空間では感染の危険性が高く、オープンスペースで安全なダイニングを提供する。コロナ感染が急増しているので出向くのをためらうが、営業時間にはテーブルはほぼ満席で、レストランの新モデルとして注目されている。

ベンチャーキャピタルの技術発表イベント、音楽ストリーミングにブロックチェーンを導入

ベンチャーキャピタル500 Startupsはサンフランシスコで発表イベントを開催し、スタートアップは開発した最新技術を披露した。カナダ・バンクーバーに拠点を置く新興企業Beatdappは音楽ストリーミング回数を計測する技術をブロックチェーンで開発し、そのデモを公開した(下の写真)。音楽ストリーミングサービスがブームであるが、配信企業と音楽制作会社の間で音楽配信回数が食い違い、訴訟に発展することも珍しくない。

出典: VentureClef

音楽ストリーミングサービスとは

音楽ストリーミングとは、音楽制作会社(Record Labels、レーベル)やアーティストが制作した音楽を、配信会社(Digital Service Provider、DSP)が消費者にオンデマンドで配信するサービスを指す。レーベルはWarner Music Groupなど大手三社と数多くの独立系(Indie Label、インディーズ)からなる。また、DSPではSpotifyがトップで、それをApple Music、Amazon Music、Tencent Musicなどが追っている。

音楽ストリーミング事業

音楽ストリーミングサービスでは音楽や音楽ビデオの配信回数で収入が決まる。この事業の収益は視聴者のサブスクリプションと広告収入で構成され、配信回数に応じてDSPがレーベルやアーティストに売り上げを分配する。しかし、Beatdappによると、世界600社の音楽ストリーミングサービスを調査すると、DSPが報告した配信回数と実際の配信回数の間に隔たりがある。DSPはレーベルやアーティストに過少申告し、その金額は$4.5Bに上るとしている。

音楽配信アナリティックス

この問題を解決するためBeatdappは音楽配信アナリティックス技術を開発した。レーベルやアーティストはBeatdappを利用することで、音楽配信情報を把握し、販売金額を正しく掴むことができる(下のグラフィックス)。具体的には、特定アーティストの音楽配信回数がグラフやテーブルで示される。例えば、The Poetというアーティストの曲が今月は1234回配信されたことが分かる。また、DSPごとの配信回数がグラフで表示され、SpotifyやApple Music経由での配信回数を掴むことができる。

出典: Beatdapp  

ブロックチェーン構成

音楽配信回数をカウントするためにはDSPがBeatdappをシステムに組み込む必要がある。DSPとしてはBeatdappを統合することで不正使用を検知でき、また、経理監査プロセスを自動化できるメリットがある。Beatdappはブロックチェーンを使ってシステムを運用している。システム構成は公開されていないが社名(Beat + dapp)にヒントがある。「Dapp」とはブロックチェーン「Ethereum」の上で稼働する分散アプリ「Decentralized Application」を指す。Dappは「Smart Contracts」とも呼ばれ、インテリジェントな契約機能を持つ。Beatdappのケースでは人間の介在無しに(人間がデータ集計でミスすることなく)Dappが契約(事前に設定されたルール)に基づき、音楽配信回数を正確にカウントする。

音楽産業の斜陽化

音楽産業は斜陽化の時代を抜けストリーミングで生まれ変わろうとしている。1980年代にCDが導入され音楽産業が大きく成長した。音楽がデジタルに記録され音質が上がり、1999年には売上金額がピークに達した。しかし、同年、P2Pファイル共用サービス「Napster」の登場で、デジタルに記録された音楽が不正にコピーされ、これ以降、音楽の売り上げが毎年低下することとなった(下のグラフ、Physicalの部分)。

出典: Financial Times  

音楽ダウンロードが転機になる

しかし2001年、AppleがiTunesを投入し、この流れが変わった。iTunesはメディアプレーヤーで音楽やビデオファイルをダウンロードして再生する。iTunes Storeで音楽ファイルを購入することで音楽の売り上げが少しずつ増えてきた(上のグラフ、Digital Downloadsの部分)。ついに、2013年には減少を続けてきた音楽収入が上昇に転じ、音楽産業は底を脱した。

ストリーミングが音楽産業を再生する

更に、この頃から音楽をダウンロードではなくストリーミングで聞く方式が人気となってきた(上のグラフ、Streamingの部分)。この先陣を切ったのはSpotifyで、著作権で管理された音楽を配信する事業を広げていった。2015年にはApple Musicがこの市場に参入し、音楽市場が一気に拡大した。この勢いでストリーミング事業が成長すると2026年には過去最大の売り上げを記録するとの予測もある。

ブロックチェーンはトライアルから実用段階へ

ブロックチェーンはBitcoinなど暗号通貨だけでなく、サプライチェインなどで適用が広がっている。ただ、多くの企業はブロックチェーンを試しに使ってみるだけで、これは「Blockchain Tourism(ブロックチェーン観光)」と揶揄されてきた。しかし、今年からブロックチェーンをアプリに組み込み基幹業務に適用するケースが増えてきた。ブロックチェーンはトライアルの段階を抜け実用段階に進んできた。技術の成熟度に敏感な新興企業はブロックチェーンを使ったアプリの開発を始め、今年はブロックチェーンが開花する予兆を感じた。