月別アーカイブ: 2021年9月

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。

Facebookはお洒落なスマートグラスを発表、Ray-Banサングラスにカメラを実装、ARグラスに向けた第一歩

Facebookはスマートグラス「Ray-Ban Stories」を発表した(下の写真)。これはFacebookが開発した最初のスマートグラスで、お洒落なデザインとなっている。Ray-Banサングラスにテクノロジーを実装したもので、ファッションに軸足を置く構成となっている。スマートグラスは二台のカメラを搭載し、利用者の視点で写真やビデオを撮影する。FacebookはARグラスの開発を進めており、Ray-Ban Storiesがそれに向けた第一歩となる。

出典: Facebook

Ray-Ban Storiesの概要

Ray-Ban Storiesはサングラスに二台のカメラを組み込んだ構造で、写真やビデオを撮影できる。スピーカーとマイクが搭載され、音楽を聴き、また、電話をかけることもできる。価格は299ドルからでRay-Banのサイトで購入する。これはFacebookがEssilorLuxottica(Ray-Banの親会社)と共同開発しもので、米国など六か国で販売が始まった。

カメラと利用方法

スマートグラスはリムの両端に5MPのカメラを搭載している(下の写真)。カメラは利用者の目線で撮影し、日常生活の瞬間(Moments)をとらえるために使われる。撮影するときは右側テンプルに設置されたボタンを押すか、ボイスコマンドを発行する。スマートグラスはAI音声認識機能を備えており、「Hey Facebook, take a video」と語りかけるとビデオ撮影が始まる。写真やビデオを撮影しているときはカメラの隣に搭載されているLEDライトが点灯する。これにより周囲の人はカメラが稼働していることが分かり、プライバシー保護に配慮した設計となっている。

出典: Facebook  

アプリとの連携

スマートグラスは専用アプリ「Facebook View」と連携して利用する。撮影した写真やビデオはアプリに格納され(下の写真左側)、それを編集してオリジナルなコンテンツを生成する(中央)。生成したコンテンツはFacebookやInstagramやWhatsAppなどソーシャルネットワークと共有することができる(右側)。自社ネットワークだけでなく、Twitter、TikTok、Snapchatと共有することができる。

出典: Facebook  

Ray-Banのモデル

スマートグラスはRay-Banのモデル「Wayfarer」、「Round」、「Meteor」から構成される。Wayfarerはクラッシックなデザイン(下の写真)で、オードリーヘップバーン(Audrey Hepburn)が映画「ティファニーで朝食を」(Breakfast at Tiffany’s)で使い有名になった。今では歌手のマドンナ(Madonna)などが愛用し、このスタイルが再びブームになっている。Ray-Banと言えばバイデン大統領が愛用している「Aviator」を連想するが、若い世代にはあまり好まれないようである。

出典: Facebook  

プロセッサなど

スマートグラスは二台のマイクロスピーカーと三台のマイクを搭載している。マイクは特定方向のサウンドをエンハンスする機能(Beamforming Technology)や背景音をキャンセルする機能を持ち、クリアなサウンドを生成することができる。また、テンプルの部分がタッチパネルになっており、指で触って操作する。スマートグラスは専用プロセッサ「Snapdragon」を搭載しており、これらのデバイスをサングラスに組み込んだデザインとなる。

Facebook Reality Labs

スマートグラスはFacebook Reality Labsで開発された。Facebook Reality Labsとは拡張現実(AR)と仮想現実(VR)を研究開発することをミッションとし(下のグラフィックス)、Ray-Ban StoriesはそのAR部門で開発された。VR部門はOculusを核とする組織で、VRヘッドセットを開発している。最新モデルは「Oculus Quest 2」で、PCとの連携を必要としないスタンドアロン型VRヘッドセットとして販売が始まった。

出典: Facebook  

ARグラス

AR部門は既にAR グラスのプロトタイプ「Aria」を開発した。これは研究開発用のAR グラスで、カメラとディスプレイを搭載し、目の前のオブジェクトを把握するだけでなく、そこにテキストやグラフィックスをインポーズし、現実社会と仮想社会を融合させる。Facebook 社員はAria を着装して施設内や市街地を歩き、グラスのカメラで目の前のシーンを記録し、ARグラス向けのマップを制作している。ARグラス商用版に向けた開発が進んでいるが、Ray-Ban Storiesがその第一歩となる。

出典: Facebook  

リモートワークで二社を掛け持ちし給与を倍増する!! シリコンバレーで広がるちょっと危険なワークスタイル

シリコンバレーで多くの企業がリモートワークを導入しているが、二社で勤務し給与を倍増する社員が現れた。テック企業の多くは完全リモートワークを採用しており、社員はオフィスに出社することなく、在宅にて二社掛け持ちで勤務する。会社の就労契約に抵触しており、見つかれば解雇となるが、給与が倍増するというインセンティブは大きい。危険なワークスタイルであるが、リモートワーク時代の働き方として議論を呼んでいる。

出典: Overemployed

リモートワークの実態

シリコンバレーではGoogleやFacebookなどがハイブリッドワークに移り、在宅勤務とオフィス勤務を併用した形態を取る。リモートワークだけを選択するオプションもあり、社員の2割が完全在宅勤務で働いている。一方、DropboxやSpotifyなどはリモートワークを中心とする勤務体系を採用しており、多くの社員はオフィスに出社することなく勤務を続けている。また、Automatticなどはオフィスを持たず全員がリモートで勤務している。

正社員として掛け持ち勤務

このように、テック企業で社員の多くがオフィスに出社することなく在宅で勤務している。このような雇用環境が続く中、二社を掛け持ちして勤務する社員が現れた。ギグワークのような契約社員ではなく、正規社員としてリモートワークで二社を掛け持ちする。パソコンで業務をこなし、打ち合わせはZoomなどテレビ会議で参加する。二社分の仕事をするのは無理と思われていたが、業務内容によりこれが可能であることが分かってきた。サンフランシスコの新興企業Overemployedは二重勤務に関する情報を発信しておりその実態が明らかになってきた。

フィールド・エンジニアのケース

Overemployedによると、エンジニア”sidegigs”はフルタイムで二社を掛け持ちして働いている。ソフトウェア・エンジニアとして20年のキャリアを持ち、現在はフィールド・エンジニアとして二社で勤務している。一社は2020年11月から勤務を始め、もう一社は2021年4月に就職した。二社を掛け持ちして勤務し、年収は67万ドル(7370万円)となる。二社で勤務しているが時間外勤務は少なく、仕事に追われているという様子はない。

出典: Overemployed  

二社で働くためには

二社で働くためにはそれなりのスキルを必要とする。最も重要なポイントは秘密の保持で、二社で勤務していることを口外してはいけない。家族内に情報を留めておき、友人や他の家族に打ち明けないようアドバイスしている。また、仕事に優先順位をつけ、掛け持ちしている2番目の仕事はプライオリティを下げるよう指示している。具体的には、LinkedInなどに仕事の履歴を掲載するときは、メインの会社の職業を掲示し、サブの会社については何も触れない。履歴書も同様で、サブの会社の仕事については何も記載しない。

時間管理のポイント

実際に仕事を始めると、打ち合わせ時間の調整が最大の課題となる。Zoom会議で二社の打ち合わせ時間が重なるときの対応がカギとなる。基本的には、二台のパソコンで業務をこなし、会社ごとに使うマシンを決めておく。会議はできるだけ手短に効率的に運用し、存在感を印象づける行動を取る。どうしても二つの会議が重なるときは、丁寧に断ることを推奨している。

何故こんなことが可能になるのか

ワークスタイルが柔軟なシリコンバレーであるが、二社を掛け持ちする正規社員が出現したことは驚きをもって受け止められている。コロナでリモートワークが始まった当初は緊張感をもって仕事を進めてきたが、このワークスタイルが定着した今は社員の印象が希薄になり、管理職の目が届きにくくなっている。対面で会ったことのない社員が増え、人間関係が疎遠になっていることが原因の一つとされる。

二重勤務できる企業とできない企業

また、二重勤務に向いている企業と避けるべき企業がある。二重勤務が可能となるのは安定した大企業で、厳しいアウトプットが求められないところが多い。更に、仕事の内容が明確に定義されているテック企業が適している。また、銀行など金融関連企業も候補になる。反対に掛け持ちできないのはスタートアップで、社員の数が少なく、仕事の成果が厳しく評価される。また、GAFAMなど大手テックはリモートワークのルールが明確に規定されており、二重勤務することは難しいとしている。

出典: Overemployed  

二重勤務に移行するパターン

実際にどれだけの人が二重就職しているかについての統計情報は無いが、この形態が徐々に増えつつある。いきなり二社に就職するのではなく、転職する際に会社を辞める前に、次の会社の勤務を開始し、トライアルで掛け持ちするケースが増えている。実際にダブルで仕事をしてみて、上手くいくことが分かると、本格的に二重就職するパターンが多い。二重就職が発覚すると、就労規定に抵触するため解雇になり、危険と隣り合わせのワークスタイルといえる。

二重勤務を容認する?

これから企業の管理職は二重就職社員を見抜くスキルが求められる。一方で、労働力不足が深刻なシリコンバレーで、テック企業は優秀なエンジニアを雇い入れることに苦慮している。今後、二社掛け持ちのワークスタイルを容認する企業がでてくるのか動向を注視する必要がある。