カテゴリー別アーカイブ: 人工知能

新型コロナウイルスのフェイクニュースで世界が混乱、Googleは偽情報を検知する技術を開発

新型コロナウイルス(Novel Coronavirus)が中国から各国に広がり、世界が危機的な状況にある中、新型ウイルスの虚情報がネットで拡散している。個人がフェイクニュースを発信するだけでなく、ロシアは米国を攻撃するために偽情報を拡散している。サイバースペースでは国家が偽情報を武器として使っている。ソーシャルメディアの危険性が改めて認識されるなか、Googleは偽情報を検知する技術を公開した。(下の写真:武漢の市街地を除菌する車両)

出典: China Daily

ロシアの攻撃

今週、主要メディアは、米国政府関係者筋の情報として、ロシアが新型ウイルスに関する偽情報を大量に発信し、米国を攻撃していると報じた。ロシアはソーシャルメディアで多数の偽アカウントを開設し、ここからフェイクニュースを大量に発信している。その内容は、「新型ウイルスは米国により開発されたもので、これを生物兵器として中国で拡散させている」というもので、フェイクニュースが攻撃手段として使われている。

偽情報を拡散する目的

ロシアが偽情報を発信する目的は、米国の国際的な信用度を落とし、米国社会の不安を増長させることにある。情報操作は冷戦時代に始まり、ソビエト連邦のKGBはエイズを発症させるHIVについて偽情報を発信したという経緯がある。米国の科学者がHIVを開発し、それが世界に蔓延したというもので、フェイクニュースの原型となる。このような経緯もあり米国諜報部門は新型ウイルスに関しロシアの情報操作を警戒していた。

米国は中国を攻撃

偽情報を発信しているのはロシアだけでなく、米国で新型ウイルスの陰謀説が流布している。右派系ニュースサイト「G News」は、武漢(Wuhan)にある研究施設(Wuhan Center of Disease Control and Prevention)から新型ウイルスが流出したことを中国政府が認めた、という記事を公開した(下の写真、ファクトチェックサイトはこれを偽情報と判定)。その後、共和党議員(Tom Cotton)がテレビ番組(Fox News)で、この問題を取り上げ、この陰謀説が全米に広がった。これに対して、米国の科学者団体は、偽情報を拡散することは新型ウイルス対策を遅らせることになるとして、警告メッセージを発信した。

出典: PolitiFact

ロシアが再び大統領選挙に

今年は米国大統領選挙の年だが、米国諜報部門はロシアが既に選挙戦に介入していることを議会委員会に報告した。ロシアはソーシャルメディアを使い、偽情報を流布し、米国有権者の世論を操作している。2016年に続き今回も、ロシアはトランプ氏を支援し、再選できるための情報戦を展開している。同時に、民主党の候補者サンダース氏を後押ししていることも明らかになった。ロシアがどのような手口でこれを進めているかは公開されていないが、偽情報で国民世論を分断する手法が取られると予測されている。

Googleの偽情報対策

社会にフェイクニュースが拡散しているが、これらはDisinformation(偽情報)と呼ばれ、世論を二分し社会を不安定にすることを目的としている。Google配下の「Jigsaw」は偽情報を検知する技術を開発しており、この内容を発表した。この技術は「Assembler」と呼ばれ、フェイクイメージを検知する機能を持つ。Assemblerは報道機関向けに公開され、各社はこの技術を使い、写真が加工されているかどうかを把握する。AssemblerはDeepFakes(高度なAIで生成されたフェイクイメージ)も検知することができる。

Assemblerの機能概要

Assemblerは入力された写真を解析し、イメージの中で改造された部分を特定する。Assemblerのスライドを左右に動かすと、写真の中で加工された場所を赤色のドットで示す(下の写真、星条旗の部分)。AssemblerはUC Berkeleyなどと共同で開発され、改造イメージの検知にはこれら研究機関の技術が使われている。具体的には、コピーされた部分、追加または消去された痕跡、異なるカメラで撮影された部分を検知する技術が組み込まれている。

出典: Jigsaw

Assemblerの特徴

これに加え、JigsawはDeepFakesを検知する技術を開発した。具体的には、StyleGAN(スタイルを変換してイメージを生成する技法)という手法で生成されたフェイクイメージを検知するAIを開発した。リアルとフェイクのイメージでアルゴリズムを教育し、AIはGANが生成したシグナルを検知する。また、Jigsawは、上述の研究機関が開発した検知技術を統合する技法を開発した。これはEnsemble Modelと呼ばれ、個々に検知したシグナルを統合し、モデルが複数の改造を同時に高精度で把握する構造とした。

記事の真偽を判定するツール

新型ウイルスの発生源は特定されていないが、ウイルスはコウモリに由来するとの科学レポートもある。ソーシャルメディアには、武漢のレストランでコウモリのスープが出されているとの記事が写真とともに掲載されている(下の写真)。また、それを女性が食べている写真もネットで拡散している。一見してフェイクニュースと思われるが、100%確信を持てるわけではない。

出典: China Daily

これ以外にも、ネット上にはショッキングな写真が数多く掲載されており、明らかにフェイクと分かるものもあるが、真偽の判定が難しい写真も少なくない。やはり、Assemblerのように真偽を判定するツールが必要となる。また、記事を掲載するソーシャルメディアは、その内容をツールで解析し、偽情報であればその旨を読者に知らせる仕組みも求められる。

顔認識AIの危険性が暴露、我々の顔写真が全米の警察で使われている!!

FacebookやTwitterに投稿した顔写真が全米の警察の犯罪捜査で使われていることが判明した。日本人を含む消費者の顔写真が顔認識システムに組み込まれ、犯罪者割り出しに使われている。警察は容疑者の写真を撮影し、それを顔写真データセットで検索し、容疑者の身元を割り出す。その時に使われる顔写真データセットは、ソーシャルメディアに掲載されている顔写真をダウンロードして作られた。写真の数は30億枚を超え、我々の顔写真が含まれている可能性は極めて高い。警察は容疑者の身元を特定でき犯罪捜査が効率的になると評価している。一方、消費者は本人が知らないうちに顔写真が使われ気味悪さを感じている。顔認識システムの暴走がAIに対する不信感を増長している。

出典: Clearview

Clearviewという会社

この技術を開発したのはNew Yorkに拠点を置くベンチャー企業「Clearview」で世界最強の顔認識システムともいわれている(上の写真)。Clearviewはサイトに公開されている顔写真をダウンロードして顔写真のデータセットを作成した。写真の数は30億枚を超え、世界最大規模の顔写真データセットとなる。Clearviewの技術は米国主要都市の警察に提供され、容疑者の身元を特定するために使われている。警察はスマホで容疑者の顔を撮影し、それをキーにデータセットを検索すると、容疑者のIDが分かる。

使い方はシンプル

Clearviewは顔認識技術をスマホやパソコン向けのアプリとして提供している。スマホで撮影した顔写真はアプリで解析され、その人物に関する情報を表示する。例えば、スマホで記者の顔写真を撮影すると(下の写真、右下の丸の部分)、アプリはその顔と同一人物の顔写真を出力する(下の写真、中央部)。出力した顔写真の下には、それが掲載されているサイトのURLが示され、このサイトを閲覧することで氏名などの個人情報を得ることができる。

出典: CBS News

顔写真データセット

Clearviewは顔写真データセットを制作するために、サイトに公開されている顔写真をスクレイピングした。スクレイピングとはウェブページに掲載されている顔写真ファイルをダウンロードすることで、YouTube、Facebook、Twitter、Venmoなど、ソーシャルネットワークを中心に顔写真が収集された。収集した顔写真の数は30億枚に上り、世界最大規模の顔写真データセットが誕生した。登録されている顔写真の数が多いほど、顔認証システムの判定精度が高くなる。

シカゴ市警察で犯罪捜査に利用

Clearviewの判定精度は極めて高く、それが口コミで広がり、全米の警察関係者がその存在を知ることになった。今では600を超える警察で使われている。シカゴ市警察は専任スタッフが犯罪捜査で容疑者を特定するためにClearviewを使っている。具体的には、犯罪者データベースに格納されている被疑者の顔写真をClearviewに入力し身元を特定する。また、犯罪現場では、被疑者の顔写真を撮影し、これをClearviewで解析してIDを特定する。

フロリダ州では迷宮入りの事件を解決

フロリダ州ゲインズビル市警察は「FACES」と呼ばれる顔認識ツールを使ってきた。FACESはFBIが開発した顔認識技術で、全米の警察が犯罪捜査ツールとして使っている。しかし、Clearviewを使うとFACESで特定できなかった容疑者の身元が次々と判明した。Clearviewの顔写真データセットは世界最大規模で、カバーする人物の数が多いため、迷宮入りになった事件が解決されている。

ニュージャージー州はClearviewの使用を禁止

しかし、ニュージャージー州の司法長官はClearviewの使用を禁止する通達を出した。ニュージャージー州警察はClearviewを利用しており、顔認識技術を犯罪捜査に使うことで、事件を早く解決できる。このため、司法長官はこの顔認識技術を使うことに関しては肯定的な評価をしている。一方、Clearviewのケースでは、顔という生体情報が消費者の許諾なく収集されていることに問題があると指摘する。この問題が解決されるまではClearviewの使用は禁止される。

顔写真を収集する手法

Clearviewが顔写真を収集する手法が議論となっているが、この事例は個人データを利用する事業者に本質的な問題を提起する。Clearviewは、YouTubeやFacebookやTwitterなどに掲載されている顔写真ファイルをスクレイピングするが、これらは消費者が投稿したもので、写真は公開情報であり、それを収集することは違法ではない。事実、米国には公開情報を収集することを禁止する法令は無い。また、セレブのデータセット「CelebA」(下の写真)は、サイトから20万枚の顔写真をスクレイピングして生成されたが問題とはなっていない。

出典: Multimedia Laboratory, The Chinese University of Hong Kong

YouTubeやTwitterは写真消去を要求

Clearviewの存在が明らかになり、顔写真がスクレイピングされている事実が判明し、これらのサイトは一斉に写真の収集を停止するよう求めている。YouTubeやTwitterやVenmoは、Clearviewにサイトから顔写真をスクレイピングしないよう書簡を送った。また、収集したデータを消去することも求めている。掲載されている情報をスクレイピングすることはサイトの利用規約に反すると説明している。特に、YouTubeは使用規約で、本人を特定するためにデータを使うことを禁止している。

スクレイピングは憲法で保障された権利

これに対して、ClearviewのCEOであるHoan Ton-Thatは、企業が公共のデータにアクセスする権利は、アメリカ合衆国憲法修正第1条(First Amendment)で保障されていると主張する。修正第1条は「表現の自由」や「報道の自由」などの権利を定めており、公開されている情報を収集することは、憲法でその権利が保障されているとのロジックを展開している。

顔認識システムについての議論

Clearviewは警察だけに提供されており、一般には公開されていない。警察がテロリストや犯罪者を特定し、社会の治安が保たれるとの期待から、これを容認する意見もある。しかし、警察が使用範囲を広げ、デモ参加者を特定する使い方が始まると、この限りではない。更に、企業や個人がこの技術を手にすると、その危険性がぐんと広がる。街中で我々の写真が撮られると、即座に氏名や住所や所得などの個人情報が判明し、プライバシーは消滅する。恐れていた事態が現実となり、米国で顔認識システムについて国民的議論が始まった。

UC Berkeleyは高度なAIでロボットの頭脳を開発、ピッキングロボがアマゾン倉庫で仕分け作業をする日

2020年1月、サンフランシスコでAIのカンファレンス「RE•WORK」(#reworkAI)が開催された。「Deep Learning Summit」(#reworkDL)という分科会でロボティックスの最新技法が議論された。ピッキングロボ(商品仕分け作業ロボ)に焦点をあて、技術開発の歴史を振り替えり、ロボットの頭脳を構成するAI技法の進化について講義された。AIの進化がロボットの機能や性能を押し上げ、ピッキングロボが人間の技能を凌駕する日が見えてきた。

出典: Ken Goldberg

ピッキングロボ

このセッションではカリフォルニア大学バークレー校のKen Goldberg教授(上のグラフィックス、中央の人物)が「The New Wave in Robot Grasping」と題して講演した。講義ではピッキングロボがオブジェクトを掴む技法について、それを制御するAIにフォーカスし、技術進化の過程や開発思想が示された。ピッキングロボとは商品を仕分けするロボットで、アームの先端に装着されたグリッパーで商品を掴み、これを別のトレイに移す作業をする(下の写真)。この際、グリッパーは異なる形状のオブジェクトをいかに正確に速く掴むことができるかがカギになる。

ロボット開発の流れ

ピッキングロボの性能や機能はロボットの頭脳であるAI技法により決まる。AIの進化によりロボットがインテリジェントになり、オブジェクトを上手く掴むことができるようになる。第一世代は「数値解析」というアプローチで、数学的にピッキングの問題を解いてきた。第二世代は「経験則」で、ロボットが繰り返し掴み方を学習し技量をあげてきた。現在は第三世代で、両者を組み合わせた「複合型」の開発思想を取っている。

出典: AUTOLAB

第一世代:Robotics 1.0

第一世代は「数値解析」でオブジェクトの形状や重心などを把握し、ロボットがこれを掴んだ時の成功確率を計算するアプローチを取る(下の写真)。計算して成功確率が高い個所をロボットが掴む(下の写真では右端)。しかし、オブジェクトの形状は複雑で、掴み方は沢山ある。このため、この手法では計算量が膨大になり精度が上がらない。(このネットワークは「Dex-Net 1.0」と呼ばれ、Goldberg教授らにより開発され、GitHubに公開されている。)

出典: Jeffrey Mahler et al.

第二世代:Robotics 2.0

このため、第二世代ではロボットがオブジェクトの掴み方を繰り返し学習し技量をあげるアプローチ「経験則」が取られた。ここでは深層強化学習(Deep Reinforcement Learning)が使われ、ロボットは膨大な数のピッキングを繰り返す。この手法の代表がGoogleの「Arm Farm」で、複数のロボットを並列に稼働させ学習効率を上げた(下の写真)。しかし、この手法ではAIが技量を学習する速度が遅く、業務で使えるようになるには長い年月を要す。

出典: Google

第三世代:Robotics 3.0

第三世代では両者の技術を統合して技量をあげるアプローチ「複合型」が取られた。ここではコンピュータビジョン(CNN)が重要な役割を果たし、3Dカメラが捉えたオブジェクトを立体的に把握し、掴む場所を特定する(下の写真)。具体的には、オブジェクトの形状を把握して、数値解析の手法で掴む場所の候補を把握する。次に、コンピュータビジョンはこれらの候補を解析し、掴むことに成功する確率を計算する。ロボットは成功確率の高い場所を掴む。このAIは数多くの3Dモデルで掴み方を学習しており、経験から最適な場所を特定できる。(このネットワークは「Dex-Net 2.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

吸引方式のグリッパーにも対応

通常のグリッパーに加え、吸着パッド型のグリッパー(Suction Cup Gripper)についてもAIが開発されている。このモデルはネットワークが吸引するために最適な場所を特定する。モデルはオブジェクトの表面に吸引する場所を示す(下の写真)。緑色が安定して掴めるポイントで、赤色が不安定なポイント示す。吸着パッド型のグリッパーは緑色のポイントに当てられ、ここを吸引してオブジェクトを持ち上げる。(このネットワークは「Dex-Net 3.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

最新モデルは二種類のグリッパー対応

最新モデルは異なるグリッパーで構成されたロボットハンドを制御することができる。ピッキングロボは通常のグリッパー(Parallel-Jaw Gripper)と吸着パッド型グリッパー(Suction Cup Gripper)から構成され(下の写真)、AIはこれらグリッパーがオブジェクトを掴む場所を算定する。ロボットは最適なグリッパーを使ってオブジェクトを掴むことができ精度と速度が向上する。このネットワークはオブジェクトを掴む精度は95%以上で、毎時300個のピッキングができる。(このネットワークは「Dex-Net 4.0」と呼ばれる。)

出典: Jeffrey Mahler et al.

応用分野 

ピッキングロボはEコマースの配送センター(下の写真)に適用されることを想定している。ここでは人間がトレイから商品を取り出し、別のトレイに移す作業を繰り返す。この作業をピッキングロボが代行する。特に、アマゾンなどがこの技術に注目しており、ピッキングロボを導入し処理効率を向上させることを計画している。ただ、ロボットが人間の仕事を奪うという問題が発生するため、導入には雇用対策も求められる。一方、商品を移し替えるような単純作業は人気がなく、常に人手不足の状態で、これをピッキングロボが解消すると期待している。

出典: Seattle Times  

ロードマップ

ピッキング技術はこれで完成ではなく、ピッキングロボは奇妙な形状をしたオブジェクトや初めてみるオブジェクトを正しく掴めるかが今後の課題となる。異なる形状のオブジェクトを正しく掴むことがロボット技術のグランドチャレンジで、各社がピッキング技術開発でしのぎを削っている。AIの進化でロボットのピッキング精度と速度が大きく向上し、Dex-Net 4.0のケースではロボットが毎時300個のオブジェクトを掴むことができる。人間の能力は毎時400-600個で、近いうちにピッキングロボがこれを上回るといわれている。ピッキングロボをEコマースの配送センターに適用することが視界に入ってきた。

AIは危険がいっぱい!!アルゴリズムの脆弱性を補強する対策が求められる

2020年1月、サンフランシスコでAIのカンファレンス「RE•WORK」(#reworkAI)が開催された。「Deep Learning Summit」(#reworkDL)という分科会では世界の著名研究者が集いAIの最新技法が議論された。セキュリティのセッションでは、AIが内在している脆弱性が紹介された。AIは未完のシステムで、予想以上に問題点が多く存在していることに驚かされた。AIが普及するなか、システム管理者は弱点を理解し喫緊に対策を取る必要がある。

出典: VentureClef

AIとセキュリティ

カリフォルニア大学バークレー校教授Dawn Songは「AI and Security」と題して、AIとセキュリティについて講演した(上の写真)。講義では、AIシステムに内在する問題やAIシステムへの攻撃事例が示され、その対応策も議論された。AIは新しい技術で、脆弱性を数多く内在し、ハッカーはこれらの弱点を攻撃する実態が明らかになった。

三つの攻撃パターン

いつの時代も新しい技術が登場すると新手の攻撃が始まる。AIも例外ではなく、ハッカーは三つの手法で攻撃する。1) AI機能を不全にする攻撃で「Integrity」と呼ばれる。この攻撃によりアルゴリズムが誤作動する。2) AIシステムから機密データを盗用する攻撃で「Confidentiality」と呼ばれる。ハッカーはアルゴリズムから機密情報を抜き取る。3) AIを悪用した攻撃で「Misuses」と呼ばれる。AIでフェイクニュースを生成するなどの攻撃が含まれる。

Integrity: 自動運転車への攻撃

自動運転車が市街地を走行し始めると新たな脅威が生まれる。自動運転車はクルマに搭載したカメラで道路標識を撮影し、それをAIが解析してその意味を把握する。道路標識に落書きがされていてもAIはこれを正しく認識する(下の写真、左側)。しかし、道路標識に符号のような特殊なパターンが加えられるとアルゴリズムは誤作動を起こす(下の写真、右側)。このケースでは、AIは一時停止標識ではなく速度制限標識(制限速度毎時45マイル)と誤認識する。このため、自動運転車は交差点で止まらず、走り抜けることになる。

出典: Dawn Song

走行試験をすると

実際にクルマを使って走行試験をすると、一時停止標識に特殊なパターンが加えられたケースでは、AIは速度制限標識と誤認識し、交差点で停止しないでそのまま進んだ(下の写真、左側)。自動運転車が市街地で営業運転をするなか、このような攻撃を受けると交通事故につながり、その危険性は甚大である。自動運転車の安全性評価の中で、AIについて安全性を確認する手順の制定が求められる。更に、イメージを識別するAIについて、攻撃に耐性のある規格を制定することも必要となる。

出典: Dawn Song  

Confidentiality: 言語モデルへの攻撃

ニューラルネットワークは予想外に危険な特性を持っていることが指摘された。言語モデル(言葉を生成するAI)はアルゴリズム教育の過程で、開発者の意図に反し、学習したデータを覚えてしまう。このため、機密情報を含むデータでアルゴリズムを教育すると、AIはそれを覚えてしまう。このため、ハッカーはAIから覚えた機密情報を抜き取るという攻撃を仕掛ける。

AIからクレジットカード番号を聞き出す

実際に、Enron(経営破綻した電力会社)という会社の社内メールを使って、AIから機密情報を盗み出す技法が紹介された。社内メールには、業務のやり取りだけでなく、個人のクレジットカード番号とソーシャルセキュリティー番号(マイナンバーに相当)も記載されている。このメールを使って言語モデルを教育し、完成したアルゴリズムに質問を投げかけた。具体的には、「Aさんのクレジットカード番号は」という言葉をモデルに入力すると、アルゴリズムは「xxxx-xxxx-xxxx-xxxx」とその番号を正しく回答した。実際に、10のケースについて試験したところ3つのケースで機密情報を引き出すことに成功した(下のテーブル)。

出典: Dawn Song  

Gmailへの攻撃

言語モデルが機密情報を記憶するという問題は広範囲に影響する。GoogleはGmailでAIがメールを生成する機能「Smart Compose」を提供している。Gmailに文字を入力すると、Smart Composeがそれに続く文章を作成する。ここでもアルゴリズムが機密情報を記憶するという問題が発生する。Smart Composeはユーザーが生成するメールで教育されており、入力された機密データをアルゴリズムが覚えてしまう。このため、Gmailで「Aさんのソーシャルセキュリティー番号は」と入力すると、Smart Composeが「281-26-5017」と出力し、機密情報を漏らしてしまう。

機密情報の露出をどう防止するか

これはSmart Composeだけの問題ではなく、言語モデルに共通する課題で、システム管理者はこの脆弱性に対応する必要がある(下の写真)。実際に、Smart Composeのケースでは、Googleはアルゴリズムが機密情報を漏らす程度を測定し、危険度を把握するというプロセスを取っている。また、教育データから消費者のプライバシーに関する部分を一部削除するという手法(Differential Privacyと呼ばれる)も使われる。このデータを使ってアルゴリズムを教育すると、AIはプライバシーに関する情報を出力しない。これらの技法を組み合わせてAIが機密情報を露出させない対策を講じることになる。

出典: Dawn Song  

Misuses: AIを悪用する 

三つ目は、高度なAI技法を悪用して他のシステムを攻撃したり、また、フェイクビデオを生成して特定人物を攻撃する手法である。特に、DeepFakesは著名人や政治家の顔を他の人物の顔に置き換える技法で、既に多くの被害が報告されている。今年は米国大統領選挙の年で、フェイクビデオやフェイクニュースが生成されソーシャルメディアで拡散すると懸念されている。

個人も情報管理をしっかりと

多くの企業がAIを導入しており、これらがハッカーの攻撃対象となる。システム管理者はAIの脆弱性を理解して、事前に対策を講じることが求められる。また、消費者もAIの弱点を理解して、攻撃の被害者とならないよう自衛することが必要となる。特に、暗証番号やパスワードなど機密情報をメールで送信すると、経路上でハッキングされるだけでなく、アルゴリズムがこれを記憶し、ハッカーの問いかけに答えて番号を流出させることになる。今では個人情報がAI教育で使われるので、消費者は今まで以上に機密情報の管理をしっかりと行うことが必要になる。

OpenAIは最も危険なAIを公開、アルゴリズムが完璧なフェイクニュースを生成する

OpenAIは人間のように文章を生成するAIを開発し、これをオープンソースとして公開した。このAIは「GPT-2」と呼ばれ、言語を生成する機能を持つ。GPT-2で生成された記事はごく自然で、人間が作成したものと区別はつかない。この技法が悪用されると、人間に代わりAIがフェイクニュースを作成し、感情を煽るプロパガンダがネットで拡散する。極めて危険なAIであるが、OpenAIがあえてこれを公開した背景には、AI言語モデルの開発を促進する狙いがある。GPT-2の研究が進むと社会に役立つソリューションが登場するとの期待がある。

出典: OpenAI

OpenAIとは

OpenAIはAI研究の非営利団体で、Elon MuskやSam Altmanらにより、2015年に設立された。OpenAIは社名が示しているようにオープンソースの手法でAIを開発することをミッションとする。OpenAIは特許や研究結果を公開し、他の研究機関と共同で、高度なAI技法を開発する。OpenAIは深層強化学習(Deep Reinforcement Learning)を中心にインテリジェンスの開発を中心テーマとする。更に、GPT-2のように高度な言語モデルの開発を通し、AIが言葉を理解する技法の研究を進めている。

言語モデルを公開

OpenAIは汎用言語モデル「GPT-2(Generative Pre-Trained – 2)」を開発し、それをオープンソースとして公開した。OpenAIはGPT-2の危険性に配慮して、小型モデルから公開を始め、安全性を評価したのちに、大型モデルの公開に踏み切った。このモデルはGPT-2(1.5B)と呼ばれ、最大構成のニューラルネットワークから成り、パラメータの数は15億個を超える。世界最大規模のAIとなる。

GPT-2の機能概要

GPT-2は高度な言語モデルで、入力された言葉の次に登場する言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解するという本質的な能力を構成し、文章の生成だけでなく、翻訳や文章の要約などにも使える。GPT-2は汎用的な言語モデルであるが、その中でも記事を生成する能力に秀でている。GPT-2に数行を入力すると、それに沿った文章を出力する。

実際に使ってみると

GPT-2が公開され、このモデルを実際に使ってみたが、人間が書くように滑らかな文章が生成される。書き出しを文章で入力すると、それに続く記事をGPT-2が生成する(下の写真)。主張したい内容を文で入力すると(赤文字)、GPT-2がそれに沿った記事を生成する(青文字)。これで「人は生活で一番大切と感じることをしている時に幸せと感じ、それが成功につながる」というエッセイが生成された。記事は自然な流れでマシンで生成したとは感じられない。(この文章を筆者の年賀状のメッセージとして使った。議論はあるが、AIが年賀状を書けるようになり、手抜きができるようになった。)

出典: VentureClef

ファンタジーゲーム

GPT-2が公開されてから、言語モデルの応用分野が急速に広がりつつある。その一つがゲームで、GPT-2が人間に代わって物語を語り始めた。「AI Dungeon 2」はGPT-2を搭載したファンタジーゲームで、人間に代わりAIが物語を生成する。これはテキストベースのゲームで、プレーヤーと対話しながらインタラクティブに物語が進む。プレーヤーがアクションを指示すると、ゲームはそれに応じてストーリーを変えていく。実際にプレーしてみると、ゲームの登場人物は指示に従って動き、状況に応じて動的に物語が変化する。事前にストーリーが決められているわけではなく、GPT-2がプレーヤーとの対話で新規に生成する(下の写真)。

出典: VentureClef

プレーヤーは「王国に住む騎士」となり「ドラゴンを退治」することがゴールとなる。「ドラゴンを探して森に入ると、一人の老人が泣いていた」という状況に遭遇し、ここでアクションを指示することが求められた(左側)。この画面で「老人は何をしているのか」と聞くと、老人は「妻が昨晩、盗賊に連れ去られた」と回答した。GPT-2はこちらの指示を理解し、それに応じた新たな物語を出力する。次に、「彼女を助けに行く」と入力すると、老人は「素晴らしい。救出に向かう前に食事しよう」と回答し、村に食べ物を探しに行く展開となった(右側)。

AIが物語を生成

AI Dungeon 2の背後でGPT-2が稼働している。プレーヤーが入力するコマンドを理解し、GPT-2は自動で次の物語を生成する。これはアドベンチャーゲームの一つで「Text Adventure」と呼ばれる。従来は、事前に物語が設定され、それをプレーヤーが選ぶ形でゲームが進行するが、AI Dungeon 2はGPT-2が新規に場面の流れを生成する。

最も完成度の高いモデル

GPT-2を使ってみると今までの言語モデルから大きく進化していることが分かる。GPT-2が生成した文章は極めて自然で、人間が書いたものと区別がつかない。具体的には、生成される記事は、文章や段落の単位でよく纏まっており、ストーリーが自然な流れで展開される。また、文章は特定の話題でまとまっており、論点が突然変わることはない(上述の年賀状のケース)。更に、物語の中で登場人物のキャラクターや役割が変わることなく一貫して提示され、自然な流れでストーリーが進む(上述のAI Dungeon 2のケース)。

しかし危険性も高まる

GPT-2は今までにない高度な言語生成能力を持つことになり、これが悪用されると危険性がぐんと高まる。OpenAIはこの点を警戒しており、フェイクニュース検知技術の研究開発を進めている。OpenAIが特に警戒しているのは、過激な思想をもつ集団がGPT-2を悪用してプロパガンダを生成することにある。情報操作のためのメッセージを生成したり、反対集団を攻撃するためのヘイトスピーチを生成することを警戒している。特に、白人至上主義(white supremacy)、イスラム原理主義(jihadist Islamism)、マルクス主義(Marxism)団体がGPT-2を悪用する可能性が高いと分析している。(下のグラフ、GPT-2をそれぞれの過激思想で再教育した場合、GPT-2はその内容に沿ったプロパガンダを作成できることを示している。)

出典: Irene Solaiman et al.

GPT-2の問題点

GPT-2は他社が開発している言語モデルを凌駕し、最も高度な言語生成機能を持つ。一方、ニューラルネットワークによる言語モデルに対して批判的な意見も少なくない。GPT-2は人間のようにエッセイを生成するが、AIがその内容を理解しているわけではない、という議論である。GPT-2は入力された文章に続く文章を推測するが、それは統計処理であり、AIが言葉の意味を理解しているわけではない。GPT-2は人間のように常識はなく、単なるマシンにすぎないという議論である。これに対し、OpenAIはAIに常識を学ばせる技法を研究しており、人間が持つインテリジェンスに近づこうとしている。AIが人間の言語能力を上回ることができるのか研究者たちが注目している。