AI・機械学習の最大の学会であるInternational Conference on Machine Learning(ICML)が開催され、ワークショップでは研究テーマごとに最新技法が議論された。今年はAIのブラックボックスを解明する技法の研究が進み、フェイクイメージが生成されるメカニズムが見えてきた。

出典: Bolei Zhou et al. |
Explainable AI
AIはブラックボックスでアルゴリズムの判定ロジックが分からないという問題を抱えている。AIが判定理由を説明する機能は「Explainable AI」と呼ばれ重要な研究テーマとなっている。イメージ判定の分野で研究が進み、AIは判定理由をヒートマップで示す。(下の写真左側:AIは写真を歯磨きをしているシーンと判定したが、その根拠をヒートマップで示している。歯ブラシとそれを持つ手から歯磨きと判定した。右側:木を切っているシーンではチェーンソーと人間の頭部が決め手となった。)

出典: Bolei Zhou et al. |
Extending Explainable AI
今年のテーマはこれを拡張した技法の研究で「Extending Explainable AI(XXAI)」と呼ばれる。ワークショップでExtending Explainable AIの研究成果が発表され、Chinese University of Hong KongのBolei Zhou助教授が、GAN(Generative Adversarial Networks)がフェイクイメージを生成する仕組みについて講演した。
GANとは
GANとは二つのAIが競い合ってフェイクイメージを生成する技法を指す。作画AI(Generator)がフェイクイメージを生成し、これを判定AI(Discriminator)が真偽を判定する。作画AIの技量が上がると、完璧なフェイクイメージを生成し、判定AIは騙され、これを本物と認定する。今では高解像度のフェイクイメージが生成され、本物との見分けはつかない(下の写真、BigGANという手法で生成された高精度イメージ)。

出典: Andrew Brocket al. |
GANがフェイクイメージを生成する仕組み
GANはGeneratorが生成したイメージをDiscriminatorが真偽を判定し精度を上げるが、この研究ではGeneratorに着目し、入力データをイメージに変換するプロセスを解明した。GANは入力されたデータ(ランダムな値)を各ノードで処理して最終イメージを生成するが、各ノードはイメージ生成で特定の役割を担っている。
(下の写真、GANのGenerator(左側のネットワーク)のノードは役割が決まっている。黄色のノードは雲を生成する。青色のノードは草を、肌色のノードはドアを生成する。生成されたイメージ(右側:generated image)は教会の周りに草木が茂り背後には空が見える写真となる。)

出典: Bolei Zhou |
入力データとイメージの関係
今年は、上述の研究をもう一歩進め、入力データがイメージ生成にどのように関わっているかを解析した。入力データはランダムなベクトルで構成されLatent Spaceと呼ばれる。つまり、教育済みのGANにランダムな数字を入力すると寝室などを描き出す(先頭の写真)。ここで、入力する数字を変えると、寝室の内容が変わる。(先頭の写真上段:寝室を見る視点が変わる。下段:寝室のランプの輝度が変わる)。
データの役割を見つけ出す手法
入力データの数字を変えることで寝室のランプの輝度が増し部屋が明るくなるが、どのデータがこれに関与しているかは、生成されたイメージを分類することで特定する(下の写真)。具体的には、イメージフィルター(attribute classifier、F()の部分)で生成したイメージを区分けし、更に、イメージフィルターを入力データ(Latent Space Zの部分)で教育することで、どのデータがイメージ特性に寄与しているかが分かる。

出典: Bolei Zhou et al. |
InterFace GAN
この仕組みを人の顔に適用すると入力データを操作することで顔の特性を変えることができる。この手法はInterFaceGANと呼ばれ、入力データの意味(Latent Space Semantic)を理解して、データを操作し、顔写真を編集することができる。Latent Space Semanticは年齢、メガネの着装、性別、顔の向き、表情などの意味を持ち、これらのデータを編集することで、顔写真を編集できる。(下の写真:左端の人物が、年を取り、メガネをかけ、性別を転換し、顔の向きを変えたケース。)

出典: Bolei Zhou et al. |
GANのメカニズムの解明が進む
今年のメインテーマは説明責任のあるAIの拡張版Extending Explainable AIで、イメージ判定(Convolutional Neural Networks)だけでなく、ランダムフォレスト(Random Forrest)や強化学習(Reinforcement Learning)やGANなどに対象が拡張された。上述の事例がGANのケースでアルゴリズムがイメージを生成するメカニズムが分かってきた。これにより、データを操作するだけでイメージを編集できGANの応用分野が広がってきた。