カテゴリー別アーカイブ: 人工知能

Deepfakesが急速に進化、米国は完璧なフェイクビデオの登場に警戒感を強める

Deepfakesとは、AIを使って人物のイメージを生成する技術を指し、被写体の人物の顔を別人の顔に置き換える機能を持つ。このためDeepfakesは「Face Swapping」とも呼ばれ、顔をスワップするために使われる。映画や広告で往年のスターを再現する特撮として使われるが、Deepfakesの殆どがポルノで使われ多くの女優が被害にあっている。また、米国では大統領選挙がフェイクイメージで混乱すると恐れられている。Deepfakesの技術進化は速く、ネット上には高度なフェイクビデオが掲載され、何が真実なのか判別がつかない社会に向かっている。

出典: The Dali Museum

ポルノ映画

Deepfakesで生成されたフェイクビデオの数が急増しているが、その96%がポルノ映画で使われてるという報告もある。Deepfakesはビデオで登場するポルノ女優の顔を有名女優や歌手の顔で置き換える。女優や歌手は顔が無断で使われ、イメージが傷つき、Deepfakesの最大の被害者となってる。被害を受けている女優や歌手は米国だけでなく英国や韓国など世界に広がっている。

大統領選挙

2020年は米国大統領選挙の年で、候補者を攻撃するためにDeepfakesが使われると懸念される。既に、民主党大統領候補エリザベス・ウォーレン(Elizabeth Warren)のフェイクビデオが登場した(下の写真右側)。テレビ女優ケイト・マッキノン(Kate McKinnon)の顔(下の写真左側)がウォーレンの顔(右側)で置き換えられた。これは大学が研究目的で生成したものであるが、大統領選挙で先頭を走るウォーレンはこれから様々な攻撃を受けることが予測される。特に、米国政府はロシアや中国がDeepfakesを使って世論を操作することを警戒している。

出典: Stephen McNally

テレビ難組

人気トークショーに出演したビル・ヘイダー(Bill Hader、下の写真右側)の顔がアル・パチーノ(Al Pacino)の顔で置き換えられた(下の写真左側)。このビデオはCtrl Shift Faceにより生成されたもので、番組でヘイダーが演じたシーンをDeepfakesで顔を置き換えた。多くのDeepfakesを見たがこのビデオが一番完成度が高い。目の前で顔が陽気なヘイダーからストイックなパチーノに移り変わり、見ていて気味悪さを感じる。

出典: Ctrl Shift Face / Wikipedia

映画スター

映画会社はAIを使って若き日のスターの姿を蘇らせ、亡くなった俳優が最新の映画に登場する。映画「ローグ・ワン(Rogue One: A Star Wars Story)」で、ピーター・カッシング(Peter Cushing)が演じる軍人グランド・モフ・ターキン(Grand Moff Tarkin)の姿がAIで再現された(下の写真右側)。これは特殊効果制作会社Industrial Light & Magicが生成したもので、俳優(Guy Henry)の表情や演技をヘッドカメラなどで捉え、これをAIでPeter Cushingに変換した。高精度な光学機器と大規模な編集システムが使われ、往年のスター(下の写真左側、オリジナルの映画)が完全な形で蘇った。一方、亡くなった俳優を高度なAIで再生することについては意見が分かれる。本人の了解なくスクリーンで演技をさせることは倫理的に問題である、という意見も少なくない。

出典: Lucasfilm

美術館

フロリダ州のダリ美術館「The Dali Museum」はDeepfakesを使って作家ダリを蘇らせた(先頭の写真)。機知に富むダリはビデオ「Dalí Lives」に登場し、「死んではいなかった」と語る。これは広告会社GS&Pにより制作されたもので、過去に撮影された6000枚のフレームを使ってこのビデオが作られた。ダリは観客の言葉に応じて様々な動きをするが、これら異なるシーンはDeepfakesを使って生成された。最後に、ダリは観客に「一緒に自撮りをしませんか」と尋ね、撮影した写真を示してビデオが終わる。

スマホアプリ

スマホアプリ「Zao」を使うと誰でも簡単に映画スターになれる。Zaoは中国企業が開発したもので、Deepfakesのモバイル版となり、映画スターの顔を自撮り写真で置き換える。例えば人気テレビドラマ「ゲーム・オブ・スローンズ(Game of Thrones)」を選ぶと、ジョン・スノー(Jon Snow)の顔(下の写真左側)を自分の顔で置き換えることができる(下の写真右側)。ハンサムだが少し影があるスノーに代わって自分が映画の中で演技するフェイクビデオができる。このアプリが絶大な人気を博している理由は、少ない数の写真でリアルなフェイクビデオができことにある。Zaoの事例はDeepfakesが急速に進化している確かな証拠となる。

出典: Newsbeezer

カリフォルニア州の法令

このようにDeepfakesは急速に進化しており、来年の大統領選挙を前に、全米で危機感が広がっている。カリフォルニア州は2019年10月、選挙に関連してDeepfakesを使うことを禁止する法令を制定した。この法令は選挙に限定して適用され、投票日まで60日以内に、候補者のフェイクイメージやフェイクボイスを配布することが禁じられる。ただし、報道各社に対しては適用が除外され、また、風刺や娯楽を目的としたDeepfakesも対象外となる。Deepfakesを生み出しているカリフォルニア州は技術の悪用に対し厳しく対処する姿勢を示している。

米国連邦政府の法案

米国連邦議会もDeepfakesを規制する法案の制定を進めている。これは「DEEPFAKES Accountability Act」と呼ばれ、下院議員Yvette Clarkeにより提案された。この法案はソーシャルメディア企業にDeepfakesを検知する技術の開発を義務付けるもので、また、悪意あるDeepfakesをウェブサイトに掲載することを禁じる。2016年の大統領選挙で有権者はフェイクニュースで混乱し、米国政府はその対応が後手に回った。2020年はフェイクビデオが世論をかく乱するとして対応を進めている。

フェイクビデオを検知するAI

Deepfakesの生成ではGoogleのTensorFlowが使われ、生成されたフェイクビデオはFacebookのソーシャルネットワークで拡散する。GoogleとFacebookは間接的であるがDeepfakes開発に関与している。このため、両社はDeepfakesを検知する技術の開発を進めている。Deepfakes検知技法の研究は大学などが進めているが、AIを使ってフェイクビデオを特定する方式が主流になっている。このため、AIを教育するために大量のフェイクビデオが必要となる。GoogleとFacebookはこの教育データを生成することで検知技術開発に寄与している。高度な検知技術が登場しているがDeepfakesの技術進化は速く、半年から一年以内に完璧なDeepfakesが登場すると懸念されている。

民間企業が顔認識技術を乱用、米国社会でAIへの不信感が広がる

サンフランシスコやオークランドで顔認識技術を規制する法令が相次いで成立し、警察が犯罪捜査でこの技術を使うことが禁止され、この流れが全米に広がっている。一方、米国市民は警察ではなく民間企業が顔認識技術を使うことを懸念している。民間企業が顔認識技術を乱用するケースが増えており、米国社会でAIへの不信感が広がっている。

出典: John Kim

世論調査

調査会社Pew Researchによると、米国市民の56%は警察が顔認識技術を使うことを容認していることが分かった。特に、警察がテロ対策など治安維持のため公共の場で顔認識技術を使うことに対しては59%の人が賛成している。これに対し、民間企業が顔認識技術を使うことに対しては36%の人が容認している。米国の消費者は顔認識技術活用について警察ではなく民間企業を信用していないという事実が明らかになった。

コンサート会場

こうした世論の背後には民間企業が顔認識技術を乱用している事実がある。人気歌手Taylor Swiftのセキュリティチームはコンサートツアー「Reputation Stadium Tour」で観客を撮影し、顔認識技術を使い、特定の人物を把握していたことが明らかになった。観客の中からストーカーを特定するために顔認識技術が使われ、Swiftが被害にあうのを未然に防止するための措置であった。また、Rose Bowlでのコンサートにおいても(上の写真)、キオスクに設置されたカメラでファンを撮影しストーカーを特定した。これらの措置は観客に通知されておらず、ファンの中にはこの行為をプライバシー侵害と捉える人も少なくなかった。

イベント入場システム

イベントチケット販売会社「Ticketmaster」は顔認証技術を使ったイベント入場システムを開発している。同社は「Ticketmaster Presence」というデジタルチケットを提供しており、利用者はスマホにチケットを格納し、会場ゲートでスマホをリーダーにかざすだけで入場できる(下の写真)。格納したチケットから人間には聞こえない音が発せられ、これをマイクで読み取り本人を確認する仕組みとなる。

出典: Ticketmaster

顔パスで入場

Ticketmasterは次期システムとして顔認証技術に注目している。チケット購入者はスマホを使う必要はなく顔パスで会場に入場できる。事前に顔写真を自撮りしこれをTicketmasterに登録しておくと、会場ゲートではカメラで撮影した顔写真とこれを比較することで顔認証が実行される。手ぶらで入場できるため便利な仕組みであるが、ファンやアーティストから反対の声が上がっている。顔の形状という生体情報が採取されることが懸念の原因で、Ticketmasterがこれら生体情報をどう管理するのかが問われている。また、警察当局からこれら生体情報の提供を求められた際、Ticketmasterは拒み切れるのかについても疑問視されている。

アパートのセキュリティ

ニューヨークの低所得者向けアパート「The Atlantic Plaza Towers」(下の写真)に顔認証システムが導入される計画が明らかになり、入居者が一斉に反対している。このアパートは二重のセキュリティがしかれ、ビルに入るときと部屋に入るときに二種類のキー(Key Fob)を使う。このうち、ビルに入るキーを顔認証システムに置き換え、ビル入り口で専用デバイスにより顔認証を受ける仕組みとなる。しかし、アパートの住人はキーを顔認証技術に置き換えることに反対し、意見書を管理会社に提出した。住民は顔データを使って監視されることに対し強い懸念を示している。住人の多くは黒人で、アパート管理会社は黒人の住人を監視し、白人や他の人種に置き換えるためと疑っている。顔認証技術を使って人種選別が行われることを恐れている。

出典: CityRealty

コンビニの入店管理

コンビニなどの小売店舗が顔認証技術を導入する動きが目立ってきた。セキュリティを強化するのが目的で、店舗入り口にカメラを設置し、顔認証技術で顧客を確認する(下の写真)。問題がなければ入口のロックが開錠され顧客は店内に入ることができる。しかし、犯罪者を特定すると入口のロックは開錠されず、店員にアラートが発信される。万引き常習犯や犯罪者を店舗内に入れないためのシステムで、ポートランドのコンビニ「Jackson Store」などが採用している。しかし、消費者からは顔認証技術の乱用であるとの声が上がっている。消費者は入店するために顔データが採取され、犯罪者データセットと付き合わされる。この方式はプライバシーの侵害で法的な規制を求める声が多い。

出典: Blue Line Technology

妥当性について意見が分かれる

民間企業が顔認証技術を使いセキュリティを強化しているが、それらが妥当かどうかについては意見が分かれている。Taylor SwiftやTicketmasterのケースでは安全性や利便性を勘案すると容認できるとの意見もあるが、著名コンサートイベント「Austin City Limit」などは会場で顔認識技術の使用を禁止すべきとしている。アパート入室管理で顔認証技術を使うことは違法ではないが、このケースでも規制を求める声が高まっている。

民間企業向けの規制

一方、コンビニに入店するために顔認証を受けることは一線を超えているとして、市民が強く反対している。民間企業のケースでは顔認証技術を制限する法令はなく、各社の自主規制に任されている。このため、技術の乱用と思われるケースも少なくなく、統一したルール作りが求められている。ポートランド市などが規制案を検討しており、警察の次は民間企業向けの顔認証技術運用ルールが審議されている。

全米主要都市で顔認識技術が禁止される、AI監視社会への漠然とした恐怖が広がる

サンフランシスコ市は警察が顔認識技術を使うことを禁止した。これがトリガーとなり、対岸のオークランド市も顔認識技術の使用を禁止し、バークレー市も同様な法令を審議している。この背後には政府がAIで市民を監視することへの漠然とした恐怖心があり、使用禁止が全米に広がる勢いとなってきた。

出典: VentureClef

サンフランシスコの規制

サンフランシスコ市は2019年5月、全米に先駆けて顔認識技術の使用を禁止する法案を可決した(上の写真、市庁舎)。これにより警察と市関係機関は顔認識技術を使うことができなくなった。顔認識技術を支えるAIを生み出しているサンフランシスコがこれを禁止したことの意味は重大で、規制の波が全米に広がっている。ただ、サンフランシスコ警察は顔認識技術を使っておらず、この法令は警察捜査に影響を及ぼすものではなく、市民の自由を守る宣言として受け止められている。

主要都市で規制が広がる

これに続き、マサチューセッツ州サマービル市は2019年6月、顔認識技術の使用を禁止する法案を可決した。この法案は成立する見込みで、これにより警察が捜査や監視で顔認識技術を使うことが禁じられる。また、オークランド市は2019年7月、両市に続き顔認識技術の使用を禁止する法案を可決し、バークレー市は類似の法案を審議している。

禁止する理由

顔認識技術の使用を禁止する理由は市民のプライバシーを守ることにある。多くの市民は、顔認識技術をAI監視システムと捉え、政府により監視されるとへの懸念を抱いている。また、顔認識技術が性別や人種による差別を助長することも問題視されている。AIの認識精度は不十分で誤検知が少なくない。特に、黒人や女性のケースで認識精度が大きく低下し、いわゆるバイアスの問題を抱えている(下の写真)。また、顔認識技術が特定団体を追跡するために使われると、言論の自由も脅かされる。

出典: MIT Media Lab

民間企業は規制なし

政府機関の顔認識技術利用が禁止されるが、民間企業がこれを使うことに関しては制約はない。事実、Appleの「Face ID」は顔認識方式でiPhoneをアンロックする。また、GoogleのAIドアベル「 Nest Hello」は顔認識技術で来訪者の氏名を告げる。民間企業は法令の制約を受けることなく、顔認識技術を製品差別化の武器として導入している。しかし、GAFAによる個人データ管理が問題となる中、この流れが変わってきた。

イリノイ州のケース

イリノイ州は2008年に「Biometric Information Privacy Act」という法令を定め、企業が指紋や顔などの生体情報を収集する際に、利用者の同意を義務付けている。これは民間企業に対する規制で、顔認識技術を使ったビジネスを事実上禁止するものとなる。Facebookは顔認識技術による写真タグ機能「Tag Suggestions」を公開しており、これが法令に抵触するとして提訴され、控訴審で敗訴した。

Facebookへの判決

米国連邦裁判所(9th Circuit U.S. Court of Appeals)は2019年8月、イリノイ州の利用者は顔認識技術に関しFacebookを訴訟できるとの判決を下した。Facebookが運用している顔認識技術はBiometric Information Privacy Actに違反するとの判断が示された。これによりイリノイ州でFacebook利用者による集団訴訟が認められたことになる。

Amazonのポジション

Amazonはクラウドで顔認識技術「Amazon Rekognition」を提供しており(下の写真)、オレゴン州の警察はこの技術で犯罪捜査を進めている。人権団体はAmazonに対しRekognitionの警察への提供を中止するよう圧力を強めている。また、Amazon社員は、顔認識技術が乱用される恐れがあるとして、Rekognitionを警察に提供しないよう求めている。これに対し、Amazonクラウド部門の社長Andy Jassyは規制の必要性を認めたうえで、顔認識技術について連邦政府が統一したルールを制定すべきとの見解を示した。連邦政府が主導しないと全米で50の異なる規制が生まれることになると警告した。

出典: Amazon Web Services

Microsoftのポジション

Microsoftは既に顔認識技術に対する会社のポジションを明らかにしている。これは社長のBrad Smithがブログで公開したもので、連邦議会にAIによる顔認識技術の運用ルールを設定するよう求めている。顔認識技術は社会に大きな恩恵をもたらすがその危険性も大きい。このため、政府の規制がないと重大な社会問題を引き起こすと警告している。自動運転車やロボットと同じように、顔認識技術についても消費者のコンセンサス形成が求められ、統一したルール作りが急務となる。

【顔認識技術とは】

顔認識のプロセス

顔認識は次のプロセスで構成される(下の写真)。①Face Detection:入力イメージの中で顔の部分を検出する。②Face Alignment:イメージから顔の部分を取り出し正面に向ける。③Feature Extraction:顔のLandmark(目、鼻、口など)を抽出する。④Classification:AIアルゴリズムで判定プロセスを実行する。このプロセスは「Face Identification」と呼ばれ、顔データセットを検索しマッチするレコードを見つける(「1 : N Matching」と呼ばれる)。警察の捜査では被疑者の顔写真で犯罪者データセットを検索し被疑者のIDを特定する。

出典: Technical University of Munich

AIをかく乱させる技術

監視カメラの導入が進む中、市民は独自の手法でプライバシーを自衛している。特殊パターンがプリントされたトップスを着るとAIは顔を認識できない(下の写真、左側)。AIはプリントされたパターンを顔と誤認識する。回路がプリントされたTシャツを着てクルマを運転すると、自動車ナンバー自動読取装置(Automatic Number-Plate Recognition)が誤作動する(下の写真、右側)。AIはTシャツにプリントされたパターンを自動車のナンバープレートと誤認して読み込む。

出典: Redbubble / Adversarial Fashion  

ベンチャーキャピタルの技術発表イベントに参加してみると、スタートアップのレベルが格段に向上

ベンチャーキャピタル「500 Startups」は生まれたてのスタートアップに出資し事業立ち上げを支援する。この種のベンチャーキャピタルはアクセラレータ(Accelerator)と呼ばれ、資金を投資するだけでなく、若い起業家に技術を事業に結び付けるプロセスを教育する。起業家は500 Startupsでプロトタイプを開発し、最後にそれを投資家の前で披露する。このイベントは「Demo Day」と呼ばれ、若い起業家が開発した旬のテクノロジーが勢ぞろいした(下の写真)。

出典: 500 Startups

500 Startupsとは

500 Startupsはサンフランシスコに拠点を置くアクセラレータで、起業家にシードファンディングを行ない、技術開発と事業化を支援する。500 Startupsは2010年に創設され、今年で9周年を迎え、ポートフォリオが拡大している。今までに、74か国の2200社に投資し、3000人の起業家が巣立った。Y Combinatorと並びシリコンバレーを代表するアクセラレータで、ここから次のElon Muskの登場が期待されている(下の写真、オフィス内の様子、新興企業は長テーブルで隣り合って技術を開発)。

出典: VentureClef

Demo Day開催

Demo Dayは起業家が開発した製品プロトタイプをベンチャーキャピタリストの前でデモするイベントで、技術開発の締めくくりとなり、アクセラレータ卒業試験の色合いもある。起業家はプロトタイプを3分程度でピッチし、ベンチャーキャピタルから次のフェイズの投資を引き出す。Demo Dayは2019年8月、サンフランシスコのカンファレンス施設「Bespoke」で開催され、会場は立見席も一杯になる盛況で技術発表が進んだ(下の写真)。

Batch 25のデモ

Demo Dayは年間二回開催され、今回のイベントは通算で25回目となり、そのメンバーは「Batch 25」と呼ばれる。定期的にDemo Dayをフォローしているが、今回の特徴は新興企業のレベルが大きく向上したことにある。デモされる技術は完成度が高く、ビジネスに直結するものが多いとの印象を持った。また、新興企業はインターナショナルで米国以外の企業が3割を占めた。更に、女性ファウンダーが目立ち、スタートアップは男性の領域という考え方は崩れつつある。また、技術分野ではAIを使ったプロトタイプが多く、AI人気の高さを裏付けている。

出典: VentureClef

Visionfulという企業

イベントで一番目立ったのが「Visionful」という新興企業だ。Visionfulはサンディエゴに拠点を置き「Autonomous Parking」を開発している。これは自動運転車からヒントを得たソリューションで、AIが駐車場の維持管理を自動運転する。駐車場に設置したカメラの画像をAIが解析し、停められたクルマのIDを把握し、駐車許可証を持っていないクルマがあれば管理者にアラートを発信する。また、これらのデータを解析し駐車場の込み具合を予測する。

ドライバー向け機能

Visionfulはドライバー向けにもソリューションを提供する。ドライバーは専用アプリで近隣の駐車場の空き状況をみることができる。スマホアプリに駐車許可証の種類ごとに空きスロットの数を示す。例えば、一般向け駐車ゾーンの空き状況は39%で、5台分の空きスペースがあるなどと表示される。ドライバーは空きスポットを探して走り回る必要はなく、アプリが示すゾーンに直行してクルマを止める。

管理者向け機能

駐車場管理者向けには駐車場運用状況をリアルタイムで表示する(下の写真)。駐車許可証の種類ごとに込み具合を示し、「B Permit」のエリアでは「80台のスペースに61台駐車」しているなどと表示される。また、駐車許可証を持っていないクルマや制限時間を超えて駐車しているクルマを検知しアラートを発信する。駐車場管理者はこれに従い現場に出向きチケット発行などの措置を取る。

出典: Visionful

カメラとニューラルネットワーク

このシステムの背後でコンピュータビジョンが使われている。駐車場に設置されたカメラの映像をニューラルネットワーク(Convolutional Neural Network)で解析し、駐車スポットを把握(parking space classification)する。更に、スポットにクルマが駐車されていることを認識し、そのナンバープレートを読む(license plate recognition)。そして、登録車両データベースでナンバープレートをキーに検索し、駐車許可証の種類を把握する。駐車許可証を有しているクルマは緑色で、許可なく駐車しているクルマは赤色で表示される(下の写真)。

出典: Visionful

Edge IoT構成

駐車場にはカメラ「Visionful Edge」が設置される(下の写真、ポールに設置された白色のデバイス)。Visionful Edgeは360度の範囲を撮影できるカメラとプロセッサから構成される。プロセッサはGPUを搭載し、撮影したイメージをニューラルネットワークで解析する。解析したデータは携帯電話回線でクラウドに送信される。これはEdge IoT構成で、デバイス上でAIが画像を解析するので、クラウドへの送信データ量が大幅に低下する。Visionfulは既にカリフォルニア大学サンディエゴ校のキャンパスに導入され実証試験が始まっている。

出典: Visionful

ベンチャーキャピタルの戦略

Visionfulが示すように、Demo Dayに登場した新興企業は確実に進化しており、事業に結び付くプロトタイプの発表が多かった。投資家の視点からは、いかに早い段階で優秀な起業家を掘り出すかの競争が激化している。Y Combinatorや500 Startupsは早い段階で数多くの新興企業に出資し、その多くは失敗するものの、ここから有望な新人の掘り起こしに注力している。ただ、このステージの投資はアクセラレータの独壇場ではなく、今では大手ベンチャーキャピタルも早い段階での投資を始め、次世代を担う技術を探している。投資家たちは競い合って次に来る大きな波を掴もうとしている。

AIで音楽を作曲してみると、アルゴリズムが感動的なオリジナルミュージックを生成

人気歌手Taryn SouthernはAIで作曲した音楽を発表し話題となっている。AIが作曲した音楽にSouthernが歌詞を付け歌っている(下の写真)。実は、我々が聴いている音楽の多くはAIが作曲している。実際に、AIで作曲してみたが、簡単に感動的な音楽を生成することができた。ビジネスで使える高品質な音楽で、AIミュージックの進化を肌で感じた。

出典: Taryn Southern

Amper Scoreをトライアル

作曲で使ったAIは「Amper Score」で、ニューヨークに拠点を置くベンチャー企業「Amper Music」が開発した。Amper ScoreはAI作曲プラットフォームでクラウドとして提供される。音楽のスタイルやムードを指定するとAmper Scoreがそれに沿った音楽を生成する。プロ歌手が使うだけでなく、ビデオの背景音楽を生成する利用方法が広がっている。メディア企業は映像にマッチする音楽をAmper Scoreで生成する。

Amper Scoreの使い方

Amper Scoreは設定に沿った音楽をアルゴリズムが生成する。音楽のスタイル、情景、ムードなど指定すると、これに沿ったサンプル音楽が生成される。例えば、音楽のスタイルを「Cinematic」に、情景を「Ambient」に、ムードを「Confident」と指定すると、「Soap Opera Drama」という音楽が生成された(下の写真)。お昼のメロドラマの背景音楽にピッタリの甘くて危険な感じのする曲が生成された。

出典: VentureClef / Amper Music

楽器の設定など

生成された音楽をそのまま使うこともできるが、更に、演奏する楽器などを設定することができる。ここでは背景音、ギター、パーカッション、弦楽器などを指定できる。弦楽器ではバイオリン、ビオラ、チェロなどを指定でき、更に、それらの音質を指定できる(下の写真)。「Robust」と指定すると歯切れのいい音に、「Sweet」とすると柔らかい音になる。

出典: VentureClef / Amper Music

全体の構成など

事前に音楽の構成として、全体の長さ、イントロ(Intro)、メインテーマ (Climax)、エンディング(Outro)の長さを指定しておく。設定が完了し再生ボタンを押すと、AIが生成した音楽を聴くことができる。出来栄えを把握し、必要に応じて設定を変更し、求めているイメージに合った音楽に仕上げていく。

プロモーションビデオ

実際に上述の手順でサンフランシスコの観光案内ビデオをAmper Scoreで作成した(下の写真)。Union Squareをケーブルカーが走るビデオをアップロードし、設定画面で「Hip Hop」スタイルと「Heroic」ムードを選択。これだけの操作で、テンポのいいリズムに合わせ弦楽器がスタンドプレーする華やかな音楽ができた。更に、バイオリンやハイハットなどの音色を調整し10分程度でプロモーションビデオが完成した。商用コマーシャルとして使える高品質な出来栄えとなった。

出典: VentureClef / Amper Music

大手企業で利用が始まる

AIで音楽を生成する手法は大企業で採用が進んでいる。大手ニュース配信会社Reutersはコンテンツ生成プラットフォーム「Reuters Connect」を発表した。これはニュースコンテンツの販売サイトで、世界のジャーナリストはここでビデオを購入し、それを編集し、自社の記事で利用する。Reuters ConnectでAmper Scoreが使われており、利用企業はこのサイトでニュース映像にマッチする音楽を生成する。

AIが音楽産業を変える

AIミュージックの技術進歩は激しく、このペースで進化するとアルゴリズムが人間の作曲家の技量を上回る時代が来るのは間違いない。トップチャートの20%から30%はAIが作曲するとの予測もある。一方、AIが生成する音楽はフェイクミュージックで、人間が創り出した音楽の模倣で、創造性は認められないという意見も少なくない。議論は分かれるが、メディア産業はAIによりその構造が激変している。

AIが音楽を生成する仕組み】

GoogleのAI音楽プロジェクト

音楽生成と自然言語解析はメカニズムがよく似ており背後で稼働するニューラルネットワークは同じものが使われる。Googleは音楽を生成するAI技法「Music Transformer」を開発した。Music Transformerは文字通り「Transformer」という高度なニューラルネットワークで音楽を生成する。

AIが音楽を生成するメカニズム

Transformerは自然言語解析で使われ、入力された文章に続く言葉を推測する機能を持つ。Transformerは機械翻訳で威力を発揮し「Google Translate」の背後で稼働している。Music Transformerはこの仕組みを音楽に応用したもので、アルゴリズムが次の音を予測する。つまり、AIが音楽を生成するとはTransferが音を読み込み、それに続く音を予測する処理に他ならない。

作曲を可視化すると

実際に、AIが音楽を生成する過程(下のグラフィックス)を見るとMusic Transformerの機能を理解しやすい。音楽は左から順に生成され、ピンクの縦軸がMusic Transformerが音を生成している個所を指す。その左側の黒色のバーは生成された音楽で、円弧はMusic Transformerとの依存関係を示している。Music Transformerは特定のHidden State(円弧がポイントする部分)を参照し音を生成する。つまり、Music Transformerは直近に生成した音だけでなく、遠い過去に生成した音を参照して音楽を生成していることが分かる。

出典: Cheng-Zhi Anna Huang et al.

作曲が難しい理由とMusic Transformerの成果

音楽を生成するのが難しい理由は、音楽は異なるスケールの時間軸で構成されているため。音はすぐ前の音と繋がりを持ち(モチーフの繰り返しなど)、また、遠い過去の音との繋がりを持つ(複数小節の繰り返しなど)。従来手法(Recurrent Neural Networkを使う手法)は長期依存の機能は無く(遠い過去の音は参照できない)、最初に登場するモチーフは繰り返されない。これに対し、Music Transformerは短期と長期の依存があり、最初に登場するモチーフを繰り返し、ここから独自に音楽を展開できるため、高品質な音楽が生成される。上述のTaryn SouthernはAmper ScoreやGoogle Music Transformerを使って作曲している。新世代の歌手は芸術性だけでなくデータサイエンティストとしての技量も求められる。