IBM Watsonがロボットと結びつく、情緒的な会話ができるAIへの挑戦

AIスピーカーの進化は目覚ましく、Amazon Echoはほぼ完全にこちらの言葉を理解し、会話が成立する。これだけで十分であるが、いつも同じ調子で応答するEchoは機械的であるとも感じる。次のステップは利用者の感情を理解して、それに応じた対応をする会話技術の開発となる。ベンチャー企業で情緒的な会話ができるAIの開発が進んでいる。

出典: Soul Machines

AIで人間を表現する

この研究を進めているのはニュージーランドに拠点を置くベンチャー企業Soul Machinesで、AIで人間を表現する「Human Computing」を目指している。人間のようにパーソナリティを持ち、固有の性格を備えた「Digital Humans」を開発している (上の写真)。言葉による会話に加え、感情を表現してコミュニケーションするAIを目指している。会話するAIはIBM WatsonのConversation機能を使い、Soul Machinesは感情表現の部分を開発している。

相手の感情を読み取り自分の感情を表現

Digital Humansは人間と同じように、知性と感性でコミュニケーションする。相手の言葉を理解し、同時に、相手の感情を読み取ることができる。発せられた言葉に込められたメッセージをリアルタイムに把握し、インタラクティブに反応する。更に、Digital Humansは多彩な感情を表現することができる。つまり、Digital Humansは相手の感情を読み取り、それに応じて自身の感情を表しコミュニケーションするAIとなる。

3D Facesで感情表現

Digital Humansの顔は「3D Faces」と呼ばれる。3D Facesは文字通り三次元の顔で、人間の顔を精細に再現する。 顔の表情は筋肉をベースにして生成され、目は見たものに対して反応して動く。Digital Humansは身体全体を表現するもので、3D Facesはその顔の部分となる。但し、Digital Humansはロボットではなくソフトウェアとして生成される。通常のディスプレイに表示されるほかARやVRで使われる。次のステップでヒューマノイドとして開発することが計画されている。

パーソナリティを持つ

Digital Humansは企業の仮想アシスタントとして利用され、固有のパーソナリティを持っている。パーソナリティは業務内容によって設定される。例えば、Digital Humansがコールセンターのエージェントとなる場合、その会社を代表するにふさわしいパーソナリティを持つ。具体的には、顧客への応対方法が設定され、感情表現や挙動振る舞いまでも規定される。

出典: Soul Machines

人間の脳を模して感情を持つ

Digital HumansはNeural Network Modelsに基づき、センサーで収集した情報を解析し挙動を決定する。Neural Network Modelsとは人間の脳をモデルにしたもので、Digital Humansは人間の反応や感情を模倣する。脳のニューロンを構成し、神経伝達物質 (Neurotransmitter) とホルモン (Dopamineなど) が主要機能を制御する。これらの挙動がDigital Humansの生理学的機能 (フィーリングや動き) を決める。

表情を学習する

相手の表情と言葉はカメラとマイクで読み込む。入力された音声は自然言語解析 (Natural Language Processing) で解析され、意味を理解しそれに返答する。言葉を喋るときは、顔の表情が変化し唇が動く。これらの動きは上述のNeural Network Modelsで表現する。このネットワークのアルゴリズムを教育して人間の表情に近づける。唇の動きでLip Reading(読唇術)できる精度を持つ。

コールセンターの仮想エージェント

Soul Machinesは2017年11月、ソフトウエア企業Autodeskと共同でAva (Autodesk’s Virtual Agent) を開発した (上の写真)。Avaはコールセンターの仮想エージェントで、顧客の質問に答え、必要な情報を提供する。AvaはDigital Humansの基本機能を実装したもので、パーソナリティを持ち、感情を表現することができる。また、相手の言葉を理解するだけでなく、顔の表情やボディーランゲージを把握できる。人間のエージェントのようにAvaは理性と感性でコミュニケーションする。

なぜ感情表現が必要か

Digital Humanは本物とそっくりで、人間かソフトウェアか見分けがつかない。対話においても感情豊かにコミュニケーションする。対話では相手の顔が見えることで、信頼感が格段に向上する。そもそも、人間は顔を見ながら会話することを好む。人間のエージェントに代わりAvaが顧客と応対しても、顧客との信頼関係を築くことができると期待される。顧客は音声だけのチャットボットではなく、表情と感情を持った仮想エージェントと会話することで親近感が醸し出され絆が強くなる。

ロードマップ

Soul Machinesは相手の表情を読み取り、会話時の感情を生成するAI技法を開発している。今はディスプレイやAR・VRで顔を3Dで表現するが、将来は物理的な顔や人体を生成するとしている。表情豊かなヒューマノイドの開発が次のステップとなる。

3D映画として大ヒットしたAvatarは、James Cameron監督のSFファンタジー映画で、三次元空間でストーリーが展開される。映画の画像の6割はコンピューターグラフィックスで、これをニュージーランドの企業が開発した。Soul Machinesもここに拠点を置き、ニュージーランドは伝統的にコンピューターグラフィックスで高い技術を持っている。