Facebook利用者の個人情報が不正に使われ、情報管理の責任が厳しく問われている。この疑惑の中心は英国のCambridge Analyticaというベンチャー企業で、5000万人の個人情報を不正に入手した疑いがもたれている。Cambridge Analyticaはこれら個人情報をAIの手法で解析し、米国大統領選挙に影響を与えたとされる。

出典: Google |
Cambridge Analyticaとは
Cambridge Analyticaはロンドンに拠点を置くベンチャー企業で、データサイエンスの手法で消費者や有権者のパーソナリティを把握する技術を開発 (上の写真、本社ビル)。二つのソリューションを提供しており、広告企業には消費者を対象としたターゲティング広告を、選挙関係者には有権者を解析する選挙ツールを提供する。Facebook個人情報が有権者の政治指向を把握するために使われたと疑われている。
Psychographic Analysisという技法
消費者や有権者を解析する際に「Psychographic Analysis (心理解析)」と呼ばれる技法が使われる。これは、個人の性格を把握しグループ化する手法で、Facebookプロフィール情報を使って、利用者の性格特性を導き出す。具体的には、利用者がLike Button (いいね!ボタン) を押した情報でパーソナリティを把握することができる。
モデルを応用すると
このモデルを使うとアルゴリズムは、画家のダリ (Salvador Dalí) が好きな人は開放的な性格で、ジョギングを趣味とする人は几帳面な性格と判定する。また、アニメや漫画が好きな人は社交的でないと診断する。これを選挙に応用すると様々な知見を得ることができる。このモデルは共和党支持者と民主党支持者を正確に判定できる。更に、共和党支持者のなかで、閉鎖的で心配性な有権者を特定することができる。アルゴリズムはこのグループが低学歴で高齢の男性の共和党支持者と推定する (トランプ大統領のコア支持者層を示す)。Psychographic Analysis はLike Buttonを押すパターンとパーソナリティの間には強い相関関係があることを示している。
【Psychographic Analysisとは】
ベースとなる研究論文
この技法のベースとなる理論は、ケンブリッジ大学心理学部 (Department of Psychology, University of Cambridge) とスタンフォード大学コンピューターサイエンス学部 (Department of Computer Science, Stanford University) が共同で開発した。この手法を使うとLike Buttonデータをアルゴリズムに入力すると、被験者のパーソナリティを5つの要素で推定する。人間のパーソナリティは五つの要素で構成され、それぞれ、Openness(開放性)、Conscientiousness(良心的)、Extraversion(外交的)、Agreeableness(協調性)、Neuroticism(不安感) となる。これらがどんな比重で構成されるかで人の性格が決定づけられる。

出典: Michal Kosinski et al. |
Personality Test
両大学はPsychographic Analysisについて論文「Computer-based personality judgments are more accurate than those made by humans」でその手法を発表した。この手法は被験者のパーソナリティをFacebookのLike Buttonから判定する。最初に、被験者 (70,520人) がPersonality Test (性格診断テスト) を受け、性格を判定する。性格は上述の五つの要素で構成され、Personality Testによりそれぞれの重みが決まる (上のグラフィック、左端)。
Facebook Likes
次に、これら被験者の Facebook個人プロフィール情報を参照する。Like Buttonを押した対象 (例えばRunning、Ford Explorer、Barak Obamaなど) を把握し、被験者がどの項目に興味を示しているかを掴む (上のグラフィック、左から二番目)。
情報収集方法
これら個人情報を収集するためにアプリ「myPersonality」が開発された。利用者はこのアプリでPersonality Testを受け自分の性格を知ることができる。また、利用者の許諾のもと、アプリはLike Buttonが押された情報を収集する。これらの情報は学術研究のためだけに利用された。
機械学習の手法
Personality TestとLike Buttonの情報が集まると、次に、これらデータ間の関連性を機械学習 (Linear Regression) の手法で導き出す。パーソナリティといいね!ボタンの関連性を定義する変数を導き出す。例えば、外向性が強い人は、Running、Ford Explorer、Barak Obamaなどの項目をどんなパターンで好むかを算定する (上のグラフィック、左から三番目)。
モデルで判定
決定したモデルを使って実際の判定を実施する。Personality Testを受けていない被験者のLike Button情報をこのモデルに入力すると、個人のパーソナリティを判定する。上述の五つの構成要素がどの割合であるかを推定する (上のグラフィック、右端)。このモデルはLike Button情報だけで、その人物の性格を推定できることを示している。
モデル開発を開始
Cambridge Analyticaは米国大統領選挙に先立ち、モデルを開発するために、Psychographic Analysisを開発したケンブリッジ大学にコンタクトし協力を求めた。しかし、賛同をえることができず、この研究に詳しい同大学のAleksandr Kogan教授に支援を求めた。Kogan教授は上述の手法をベースにモデルを開発した。
5000万人の個人情報を収集
Kogan教授は上述「myPersonality」を模した性格診断テストアプリ「thisisyourdigitallife」を開発し、Facebook利用者27万人がこれを利用した。利用者はこのアプリで自分のパーソナリティを知ることができる。同時に、アプリは個人情報にアクセスすることを求め、プロフィールデータが収集された。更に、アプリは利用者の友人のプロフィール情報にもアクセスし、Kogan教授は5000万人分の個人情報を入手した。このデータに対しPsychographic Analysisの手法で解析を実行し、3000万人のパーソナリティを推定した。
個人情報を不正に提供
Kogan教授はこれらの情報をCambridge Analyticaに提供したとされる。その当時、Facebookは利用者の許諾を得ると、第三者が個人情報を収集することを認めていた。しかし、収集した情報を他人に渡すことは禁じていた。ここが問題の核心部分で、Facebookの規定を逸脱し、Cambridge Analyticaは個人情報を不正に受け取った。Cambridge Analyticaはこれを否定しているが、英国政府はデータ不正使用の容疑で捜査を開始した。
個人情報はどう使われた
Cambridge Analyticaに渡された個人情報がどのように使われたかについては明らかになっていない。Psychographic Analysisを選挙戦に適用すると、Like Buttonが押された情報から、有権者のパーソナリティを把握できる。ひいては、有権者の政治的指向を把握でき、最適なキャンペーンを展開できる。

出典: Reuters |
有権者の弱点を突く
この問題を告発した元社員Chris Wylie (上の写真、英国議会での公聴会) は、このモデルを米国大統領選挙にどう適用したかについて証言した。このモデルは有権者の精神的な弱点を洗い出すことを目的としていた。更に、この弱点を刺激するフェイクニュースをターゲティング送信することで、有権者を特定方向に向かわせ、トランプ候補への投票を促すとしている。ただ、Wylieは、モデルを運用するプロセスには関与しておらず、実際にどう活用されたかは分からないとも述べている。
効果を疑問視する声も
Psychographic Analysisは既にターゲティング広告で使われており、消費者のパーソナリティを把握し最適な広告メッセージが配信されている。Netflixは視聴者が好むであろう映画を推奨するためにこのモデルを使っている。一方、この手法が有権者にどれだけインパクトを与えるかについては疑問視する声が多い。有権者の心を動かすのは難しく、Cambridge Analyticaが大統領選挙に及ぼした影響は限定的であるとの見方が大勢を占めている。
Facebookの責任は重大
大統領選挙への影響のあるなしにかかわらず、Facebookは個人データ管理の責任を厳しく問われている。Facebookは個人情報保護対応を進めており、プロフィール設定方式を分かりやすくした。今までは、個人情報設定は20画面に分散していたが、これを1つの画面に集約し、情報管理を容易にした。また、Facebookは第三者機関が生成する解析データの提供を中止した。データ解析企業ExperianやAcxiomなどがオフラインデータを解析し、これを広告主に提供しているが、これを停止すると発表した。
真相究明
Cambridge Analyticaは米国大統領選挙だけでなく、英国Brexit国民投票で離脱派の解析ツールとしても使われた。多くの識者は同社の影響力を疑問視するが、国民世論がデータ解析で操作されているとの感触はぬぐい切れない。Cambridge Analyticaが不正にデータを受け取り、大統領選挙に影響したのか、真相解明は今後の捜査を待つことになる。