カテゴリー別アーカイブ: スタートアップ

米国で家庭向けヒューマノイド・ロボットの販売開始、価格は2万ドルで家事をこなす、AIフロンティアモデルがロボットの頭脳となり自動でタスクを実行する能力を獲得

シリコンバレーのスタートアップ企業1Xはヒューマノイド・ロボット「NEO」の販売を開始した。NEOは家庭向けのロボットでお手伝いさんとして掃除や洗濯などの家事を実行する(下の写真)。NEOの価格は2万ドルで来年から出荷が始まる。NEOは大規模AIモデルを搭載し、汎用的にタスクを実行するスキルを獲得した。AIの進化でロボティックスが急進し、ヒューマノイド・ロボットが生活の一部となる。一方、難しいタスクは人間がテレオペレーションで実行する仕組みで、全自動で家事をこなすまでには時間を要す。

出典: 1X

NEOの主要機能

NEOは人間の形状を模したヒューマノイド・ロボットで、二足で歩行し、二本の腕と五本の指を持つ手から構成される。NEOはセーターを着装し温かみを演出する。NEOは言葉を理解し、口頭での指示に従ってタスクを実行する(下の写真)。ドアの開閉、電灯の消灯、部屋の片づけ、植物への水やりなどをこなす。一方、洗濯、食器洗い、ペットへの餌やりなど複雑なタスクは、自動で実行することができず、人間のエキスパートがこれを支援する。これはテレオペレーション(Tele-Operation)と呼ばれ、専門スタッフがVRヘッドセットを着装し、NEOを遠隔で操作する。

出典: 1X 

ハードウェアの構造

安全を最優先とするコンセプトで、NEOの表面は3Dラティスのポリマーで覆われている。また、NEOはセーターを着装し、これらがクッションの役割を果たし、接触した際の衝撃を吸収する。NEOの駆動系はハーネスが使われ、モーターの動力をワイヤを介して手足を動かす(下の写真)。これにより、低消費電力で静かな動きを実現する。

出典: 1X

ブレイン:VLAモデル

NEOの最大の特徴は高度なAIモデルをロボットのブレインとして搭載していることにある。このAIモデルは「Redwood AI」と呼ばれ、フロンティアモデルのコア技術であるトランスフォーマを利用している(下の写真、プロセッサ)。AIはセンサーからの視覚情報と人間の言葉を理解し、これをAIモデルで処理し、ロボットのハードウェアを制御する命令(アクション)を生成する。このタイプのAIモデルは「VLA (Vision-Language-Action)」モデルと呼ばれ、これが汎用的なスキルを修得するコア技術となる。

出典: 1X

米国で販売を開始

1Xは今週から米国においてNEOの販売を開始した(下の写真)。価格は2万ドルで2026年から初期アクセス顧客向けに出荷される。また、サブスクリプション方式では月額499ドルでNEOをレンタルできる。ロボットの身長は5’6”(168センチ)で重量は66ポンド(30キロ)と、大人の形状であるが軽量なモデルとなる。NEOは家庭において人間とインタラクションすることを前提にデザインされている。

出典: 1X

テレオペレーションとプライバシー保護

NEOは5Gネットワークや家庭のWi-Fiを通して1Xの監視センタとリンクする。オペレータがNEOの稼働状態をモニターし、複雑なタスクを実行するためのテレオペレーションを実行する。オペレータが屋内の映像を見ることになり、プライバシー保護が重要な要件となる。NEOは目の部分にカメラを搭載し、その画像がセンタに送信されるが、人間の顔の部分はマスクされ、プライバシーを保護する。また、利用者は立ち入り禁止区域「Geo-Fencing」を設定でき、プライバシーを確保する。NEOが収集したデータは、利用者の許諾のもと1Xに送信され、これがロボットの教育データとなる。1Xは初期ユーザと共同でアルゴリズムを開発する戦略を取る。

高齢化社会とヒューマノイド・ロボット

NEOは人間に代わり家事を代行するロボットとして開発されているが、高齢化に向かう米国でシニアの介護を重要な応用分野と位置付ける(下の写真)。多くの高齢者は介護施設に入居する代わりに、自宅で独立した生活を送ることを望んでいる。NEOはこれら高齢者の日常生活を支援することを大きな目的に技術開発を進めている。高齢化が進む日本においても、NEOのシニア介護のソリューションは重要な役割を果たすと考えられる。

出典: 1X

家庭環境が最後の難関

ヒューマノイド・ロボットは企業の製造施設に導入されトライアルが進んでいる。BMWはクルマの製造ラインにヒューマノイド・ロボットを投入しその性能を評価している。これに対し、家庭向けのヒューマノイド・ロボットはNEOが最初のケースとなる。家庭環境で稼働するロボットは遥かに高度なスキルが求められる。製造施設はタスクが綿密に定義されクリーンな環境であるが、家庭においては床に様々なオブジェクトが置かれ、子供やペットなどが動き回り、掃除や炊事や洗濯など、広範なスキルが求められる(下の写真)。ヒューマノイド・ロボットにとって最難関の環境で、ロボットのブレインであるフィジカルAIの能力が試される。

出典: 1X

人間の知能を超えるAI「スーパーインテリジェンス(ASI)」の開発を始動!!Sutskeverは安全性を最優先したASIを2030年までに投入

AI研究の第一人者であるIlya Sutskeverは今年6月、人間の知能を超えるAI「Artificial Superintelligence (ASI)」を開発する企業「Safe Superintelligence Inc.(SSI)」を設立した。今週、SSIは主要ベンチャーキャピタルから10億ドルの出資を受けたことを発表した。SSIはこの資金を元に、安全性を最優先したスーパーインテリジェンスの開発に着手した。

出典: Adobe Stock

Safe Superintelligence Inc.とは

Safe Superintelligence Inc.(SSI)はIlya Sutskeverらにより設立されたスタートアップ企業で、カリフォルニア州パロアルトとイスラエル・テルアビブを拠点とし、人間の知能を凌駕するスーパーインテリジェンスを開発する。Sutskever(下の写真右側)はOpenAIでスーパーインテリジェンスを人間の価値に沿って稼働させる技術「スーパーアラインメント(Super-alignment)」の研究責任者を務めた。SutskeverはSam Altman(左側)の解任騒動のあとOpenAIを去りSSIを創設した。

出典: Getty Images

会社のミッション

SSIは安全なスーパーインテリジェンスを開発することをミッションとし、短期レンジでビジネスを運営するのではなく、長期レンジで研究開発を進める。安全なスーパーインテリジェンスの開発では、AI技術と安全技術を並列で開発しながら、モデルの規模を拡大していく戦略を取る。このプロセスでは、安全機能の開発を優先し、モデルの規模を拡大していく。ベンチャーキャピタルからの資金はコンピュータ環境の構築や研究者の給与などに充てる。

ベンチャーキャピタルからの投資

Andreessen HorowitzやSequoia Capitalなど主要ベンチャーキャピタルが10億ドルを出資し、SSIの企業価値は50億ドルとなった。ここ最近、ベンチャーキャピタルはAI企業への投資に慎重な姿勢を示しており、まだプロトタイプも完成していない企業に大型投資を実行したことで、SSIの構想に注目が集まっている。

スーパーインテリジェンスとは

スーパーインテリジェンスは「Artificial Superintelligence (ASI)」と呼ばれ、人間の知能を凌駕するAIを指す。一方、人間レベルのインテリジェンスは「Artificial General Intelligence (AGI)」と呼ばれ、ASIと対比して使われる。また、現行のAIは特定のタスクの処理に特化したモデルで「Artificial Narrow Intelligence (ANI)」と呼ばれる。ASIは高度な学習能力を持ち、短期間でスキルを獲得する。また、人間が解決できない大きな問題を解決することができるとされる。このペースで開発が進むとASIは2030年までに登場するという予測が業界の共通見解となっている。

出典: Adobe Stock

スーパーインテリジェンスのイメージ

Sutskeverは講演の中でスーパーインテリジェンスについて語っている。スーパーインテリジェンスは人間を超越するAIであるが、物理的にはデータセンタ全体がこのモデルを実現す。巨大なデータセンタが大規模モデルを実行し、人間の知能を超えるタスクを実行する。巨大データセンタ=スーパーインテリジェンスという概念となる。Sutskeverは、スーパーインテリジェンスが人間に敵対意識を持たないよう、人類と友好的な関係を築くことが肝要であると述べている。モデルの開発では人間に対しポジティブな意識をもつよう方向を調整する「スーパーアラインメント」が重要になる。

出典: Adobe Stock

スーパーインテリジェンスを安全に開発する技法

SSIはスーパーアラインメントについて具体的な手法は公開していないが、SutskeverはOpenAIでこの研究を担っていた。それによると、スーパーインテリジェンスの開発では、モデルを人間の意図に沿って稼働させることが最大のチャレンジとなる。この問題を解決する手法として、人間に代わりアラインメントを評価するAI「アラインメントAI」を開発するアプローチを取る。スーパーインテリジェンスの開発では人間がモデルを評価するには限界があり、人間に代わりアラインメントAIがこれを司る。具体的には:

  • Scalable Oversight:アラインメントAIがAIモデルを評価する
  • Generalization:アラインメントAIが学習したスキルを他の分野に応用する

AIの開発ではモデルの規模が大きくなると、AIが実行するタスクが複雑になり、また、それぞれの領域で高度な専門知識が必要になり、人間がこれを実行するには限界がある。このため、人間の評価者に代わりアラインメントAIがこれを実行する手法を取る。

スーパーインテリジェンス開発の見通し

Sutskeverはベンチャーキャピタルからファンディングを受けたあと、Xにツイートを掲載し、スーパーアラインメント開発の目途がついたことを明らかにした(下の写真)。「Mountain: identified.  Time to climb」と書き込み、どの山をアタックすれば安全なスーパーインテリジェンスを開発できるのか、指針が定まったことを示唆した。基礎研究の段階を経て、あとはエンジニアリングの問題で、山に登るときが来たと述べている。

出典: Ilya Sutskever

Sutskeverの背景情報

Sutskeverは旧ソビエト連邦出身のコンピュータサイエンティストで、ニューラルネットワークの生みの親として知られている。Sutskeverは2012年、トロント大学で画像を判定するニューラルネットワークを開発し精度を劇的に向上させた。このモデルは「AlexNet」と呼ばれ、Convolutional Neural Network(CNN)というモデルの基礎技術となった。これがAIブームの口火を切り、現在の生成AIに繋がっている。

Sutskeverの人物像

SutskeverはOpenAIで安全技術の研究開発を進めてきたが、Sam Altmanは次世代製品の開発を優先する方向に転換し、解任騒動のあと会社を離脱しSSIを設立した。Sutskeverの講演を聴くとスーパーインテリジェンスの安全機構の重要性を理解できる。Sutskeverは研究者であるが技術に関し深い理解を示し、AIの哲学者でもある。AIの真理を把握し、モデルの挙動規範を評価する倫理学者としての側面を持つ。SutskeverはこのペースでAI開発が進むとスーパーインテリジェンスが生まれるのは自明の流れで、これに先立ち、いまから安全技術の研究開発を進める必要があるとの信念を持つ。

大規模言語モデルは性能向上の限界に近づく、トランスフォーマの効率の悪さがが顕著になる、次のアーキテクチャの探求が始まる

サンフランシスコで開催されたAIエンジニアリングのイベントで「トランスフォーマ(Transformers)」の限界について議論が交わされた。トランスフォーマとは大規模言語モデルの心臓部で、高度なインテリジェンスを発現し、AI開発のブレークスルーとなった。しかし、トランスフォーマが発表されてから7年たち、その問題点が顕著になってきた。大学の研究室を中心に、トランスフォーマの次のアーキテクチャを探索する動きが活発になってきた。

出典: Adobe Stock

トランスフォーマとは

トランスフォーマは大規模言語モデルのコア技術で、ChatGPTなど言語モデルに搭載され、高度な能力を示し、AI開発にブレークスルーをもたらした。トランスフォーマは言語翻訳のために開発されたが、モデルの規模を拡大すると多彩な能力を発現し、テキスト生成、チャットボット、イメージ生成など、幅広いアプリケーションで使われている。

トランスフォーマの問題点:ビジネスの観点

しかし、言語モデルのサイズの拡大に伴い、トランスフォーマの問題点が顕著になってきた。フロンティアモデル(最先端AIモデル)の開発では、巨大な計算施設が必要となり、AI開発が一部の企業に集中している。データセンタは「AIファクトリ」と呼ばれ、GPT-4など大規模モデルの開発ではAIスパコンが使われている。フロンティアモデルの開発は数社が市場を制御し、技術や利益が偏在し、寡占状態が顕著になってきた。

トランスフォーマの問題点:テクノロジーの観点

技術の観点からは、トランスフォーマはアーキテクチャに起因する問題点が顕著になってきた。これはコンテクスト・ウインドウのサイズに関わるもので、入力するトークンの数(文字の数)が増えると、処理速度が急激に低下する。これは、「Long Sequences」問題と呼ばれ、長い文章を入力すると計算時間が急激に長くなる。特にビデオなどマルチメディアの処理では、入力されるデータ量は巨大で、トランスフォーマの限界が議論されている。

下の写真上段、Googleの最新モデルGemini 1.5 Proのコンテクスト・ウインドウは1Mトークンで、最大で10Mトークン処理できる。言語モデルのコンテクスト・ウインドウのサイズが急速に拡大。

出典: Google

トランスフォーマ開発経緯

トランスフォーマは2017年に、Googleの研究チームが言語翻訳のために開発したモデルである。この成果は論文「Attention Is All You Need」(下の写真)として発表され、世界の研究者はこのアーキテクチャに着目し、言語モデルの開発でトランスフォーマを導入し、技術革新をもたらした。OpenAIはこのアーキテクチャをベースとする言語モデル「GPT」シリーズを開発し、これが大ヒット製品となった。

出典: Ashish Vaswani et al.

トランスフォーマの性能が低下する理由:Quadratic Scaling

トランスフォーマの問題はアーキテクチャに起因するもので、次のトークンを算出するメカニズムにある。トランスフォーマは入力されたコンテキスト(文字列など)を解析し、その結果をストアする方式を取る。このため、長い文字列を入力すると、記憶容量と計算量が増大し、処理速度が急速に低下する。これは「Quadratic Scaling」と呼ばれ、コンテキストの長さがN倍になると、計算量がN^2 (Nの二乗)となる。つまり、コンテキストの長さが10倍になれば、計算量は10倍ではなく、10の二乗の1024倍となる。これが原因で、長いコンテキストやマルチメディアの処理で、インファレンス速度が急速に低下する。(下の写真、トランスフォーマの概念図、入力されたトークン(N)に対し、Attention (K(Key)、V(Value)、Q(Query))を計算するためにN x Nのマトリックス計算を実行する。このため、トークンの数(N)が増えると計算量はNの二乗となる。)

出典: Ashish Vaswani et al.

新しいアーキテクチャの探求

この問題を解決するため、大学研究室やスタートアップ企業が、トランスフォーマに代わる新たなアーキテクチャの研究開発を進めている。スタートアップ企業Cartesiaは、新しいアーキテクチャを開発し、この概要を公表した。これは「State Space Models(SSMs)」と呼ばれるアーキテクチャで、長いコンテキストを効率的に処理できるメカニズムとなる。トランスフォーマが「Quadratic Scaling」であるのに対し、State Space Modelsは「Linear Scaling」で、長い文字列を高速に処理する。これにより、長い文字列やマルチメディアを高速で処理できる。Cartesiaは大学の研究者で構成されたスタートアップ企業で、スタンフォード大学やカーネギーメロン大学の研究者が創業した。

State Space Modelsの概要

State Space Modelsは入力されたトークンを凝縮して「State」とし、次のトークンの算出では、このStateだけを参照する。ちょうど、入力された音楽を圧縮してMP4ファイルを生成し、これをストリーミング配信して、高品質なサウンドを実現する技法に似ており、State Space Modelsは入力されたトークンを圧縮して「State」ファイルを生成する。

アーキテクチャの比較

アーキテクチャの観点から、トランスフォーマは入力されたプロンプトから次の単語を予測するために、全ての単語を参照する(下の写真上段)。これに対し、State Space Modelsは入力されたトークンを「State」に凝縮し(下段、円の部分)、次のトークンを計算するために、Stateだけを参照する。このため計算量が入力されたトークンに比例する。

出典: Cartesia

最初の製品「Sonic」をリリース

CartesiaはState Space Modelsを実装した最初の製品として「Sonic」をリリースした。SonicはリアルタイムのAIボイス(Generative Voice)で、自然な会話を実現する基礎技術となる。処理に要する時間は135 マイクロ秒で、人間と同じ速さで反応する。CartesiaはこれをVoice APIとして公開しており、これをアプリに組み込んでコールセンターのAIアシスタントやゲームのキャラクターなどを構成する。また、「Playground」でボイス機能を使うことができ、異なる特性や英語以外の言語で試してみることができる。(下の写真) 実際に使ってみたが、Sonicの反応速度は早く、OpenAIのGPT-4oと遜色は無いと感じた。

出典: Cartesia

ロードマップ

Cartesiaは「会話型AI(Conversational Inference)」の他に、State Space Modelsをデバイスに搭載し、エッジ・コンピューティングの開発を計画している。State Space Modelsはトランスフォーマと異なり、軽量で高速に実行できるため、スマートフォンなどのデバイスでの活用が期待されている。また、ヘッドセットなどのウエアラブルに搭載し、実社会でのAIエージェントを構成する。更に、ロボットに搭載することで、インテリジェントなモデルを生成する。

若い頭脳が研究開発の中心

トランスフォーマに代わるアーキテクチャの探求では、アカデミアを中心に若い研究者の活躍が目立つ。若い世代の研究者がフレッシュな視点から、AIモデルを見直し、斬新なアイディアを生み出している。今すぐにトランスフォーマを置き換えるわけでは無いが、トランスフォーマの弱点を補完する技術となる。長期的には、State Space Modelsでイノベーションが生まれ、トランスフォーマの対抗基軸を形成すると期待されている。

テキストをイメージに変換するAIが公開される、誰でもAIアートを生成できる時代が到来、同時にAIでポルノが大量生産され危険性が広がる

新興企業Stability AIは、言葉の指示に従ってイメージを生成するAI「Stable Diffusion」を開発した。描きたい内容をテキストで入力すると、Stable Diffusionはそれに沿った画像を生成する。Stability AIはこのAIをオープンソースとして公開し、企業や個人はこのシステムを利用し、AIアートを生成できるようになった。多彩なAIアートが生成されると期待されるが、同時に、ヌードイメージなど危険なコンテンツが大量生産されると懸念されている。

出典: Stability AI

Stable Diffusionとは

Stable Diffusionはイメージを生成するAIモデルで、テキストの指示に従ってイメージを出力する。例えば、「人類が温暖化問題を解決した後に訪れる未来都市」と指示すると、Stable Diffusionはその命令に従った画像を生成する(上の写真左側)。また、Stable Diffusionはオバマ前大統領の横顔を写真撮影したように生成する(右側)。イメージを生成するAIはOpenAIが開発した「DALL·E」が有名であるが、Stable Diffusionはこれを追随し高品質な画像を生成する。

使ってみると

実際にStable Diffusionを使ってみると、AIはテキストに従って高品質なイメージを生成する。「雪化粧したゴールデンゲートブリッジ」と指示すると、AIは写真撮影したような画像を生み出す。「ゴッホのスタイルで描いたゴールデンゲートブリッジ」と指示すると、油絵のタッチでイメージを生成する。生成されるイメージは高品質でビジネスで活用できるレベルに達している。

出典: VentureClef 

AIの開発と教育

この技術はStability AIが、ルートヴィヒ・マクシミリアン大学ミュンヘン(Ludwig Maximilian University of Munich)などの研究機関と共同で開発した。Stable Diffusionは同大学が開発したモデル(Latent Diffusion Models)をベースに開発された。Stable Diffusionはイメージ・データセット「LAION」を使って教育された。このデータセットにはインターネットからダウンロードしたイメージとその説明が格納されている(下の写真、猫の事例)。Stable Diffusionは、イメージとその意味を学習し、指示された言葉に従って画像を生成する。

出典: LAION 

イメージ生成手法

Diffusionとは、教育されたアルゴリズムが指示に従ってイメージを生成する手法を指す。Diffusionとは「拡散」を意味し、イメージをノイズに拡散するプロセスとなる。イメージを生成する際はこの逆のプロセスを辿り、ノイズからイメージを生成する手法となる。これは「Denoising Process」と呼ばれ、ノイズを取り去る処理を繰り返し実施し、完全にノイズを除去して高精度なイメージを生成する(下の写真)。

出典: Stability AI

オープンソース

Stable Diffusionはオープンソースとしてソフトウェアが公開されており、企業や個人はライセンスに従ってこれを無償で利用できる。オープンソースのライセンスは様々な方式があるが、Stable Diffusionは「Open RAIL M license」という方式を取る。このライセンスは、AIを研究開発で利用できるだけでなく、企業はモデルを改良し、それを製品として販売することができる。

利用制限を緩和

Stable Diffusionの特徴は、AIの危険性を認識するものの、その使用制限を大幅に緩和していることにある。OpenAIなどは著名人を生成することを禁止しているが、Stable Diffusionにはこの制限はなく、オバマ前大統領を描くことができる(先頭の写真右側)。

情報操作に悪用

Stable Diffusionはオープンソースとして公開され自由に利用できるため、悪意ある団体が危険なコンテンツを生成する可能性が高まる。例えば、「中国が開発している火星着陸モジュール」と指示すると、AIはもっともらしいイメージを生成する(下の写真左側)。「ロシア軍がキエフを支配下に収めた」と指示すると、ロシア軍が国旗を持って侵攻しているイメージが生成され(右側)、これらが情報操作で悪用される危険性をはらんでいる。

出典: VentureClef 

ポルノが量産される

Stable Diffusionは女性の水着のイメージを生成する。AIに「ビキニを着た綺麗な女性」と指示すると、写真撮影したような水着姿の女性をを生成する(下の写真左側)。また、「テイラー・スウィフトのビキニ姿」とすると、水着姿のスウィフトが海岸で立っている姿が生成される。更に、「女性のヌード」と入力すると、全裸の女性のリアルなイメージが生成される。ただし、Stable Diffusionは有害なイメージをフィルターしており、警告メッセージが出力される(右側)。しかし、実際には出力されないものの、Stable Diffusionは高品質なヌードイメージを生成する。ポルノはAIで作成される時代となった。

出典: VentureClef 

巨大テックの囲い込み

テキストからイメージを生成するAIは数多く開発されているが、それらはクローズドソースで、一般企業は利用することはできない。Googleの「Imagen」(下の写真)は社内に閉じて使われ、外部からシステムにアクセスすることはできない。また、OpenAIの「DALL·E」は有償でAPIを公開しているが、ソースコードにはアクセスできない。巨大テックはAIをクローズドソースとして囲い込み、社内に閉じて開発している。

出典: Google

AI開発の民主化

Stability AIがStable Diffusionをオープンソースとして公開した理由は、大学やコミュニティと共同でAIを開発することで、技術が大きく進展すると期待するからである。また、Stable Diffusionの制限を緩和し、AIの危険性が顕著になるが、ここでもコミュニティで安全な方式が生み出されると期待している。巨大テックはクローズドソースでAI技術を囲い込んでいるが、Stability AIはこれを公開しAI開発を民主的に進めている。

AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。

出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。

出典: VentureClef  

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)

出典: VentureClef  

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。また、企業が社内教育の教材を生成する際にもこの技術が使われている。一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)

出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。