月別アーカイブ: 2020年3月

AIが新型コロナウイルスによる肺炎を検知、オープンソースとして公開され医療技術の進化に寄与

世界で新型コロナウイルスの感染が爆発的に広がっているが、その中心は欧州から米国に移ってきた。ニューヨーク州が危機的な状況にあるが、その次はカリフォルニア州といわれ、州知事はロックダウン(shelter-in-place)命令を発令した。会社や小売店やレストランは休止状態で、住民は自宅に留まることを求められ、街は静まり返っている。

出典: Linda Wang et al.

COVID-Net

新型コロナウイルスが広がる中、研究機関は病気(COVID-19)を検知するためのAIを公開した。これは「COVID-Net」と呼ばれ、患者のレントゲン写真から、新型コロナウイルスによる肺炎を検知する。病気検知のために多くのAIが開発されているが、これらはクローズドソースで一般の研究は使うことができない。これに対して、COVID-Netはオープンソースとして公開され、だれでも自由に利用できる。

データセットも公開

COVID-Netはカナダ・ウォータールー大学(University of Waterloo)とDarwinAIにより開発された。同時に、COVID-Netを教育するためのデータセット「COVIDx」も公開された。ここには13,645人の患者の16,756枚のレントゲン写真が格納されている。アルゴリズムとデータセットが公開され、これらをテンプレート(Reference Model)として研究が進み、COVID-19治療技術の確立に寄与することが期待されている。

病気の早期発見

いま、新型コロナウイルスにより病気を発症した患者を早期に特定する技術が求められているが、胸部のレントゲン写真がその手掛かりになる。COVID-19を発症した患者の肺のレントゲン写真にはこの病気に特有な形状が現れる。この特性をAIが学習しCOVID-19による肺炎を検知する。

ニューラルネットワーク構造

COVID-Net(下の写真)は胸部のレントゲン写真を読み込み(左端)、それを解析して判定を出力する(右端)。AIが下す判定は三種類で、1)感染していない(正常)、2)COVID-19肺炎、3)それ以外の肺炎となる。ネットワークのアーキテクチャは、人間がモデルの原型を決め、これをAIで最適化する手法が取られた。つまり、人間とAIがコラボしてCOVID-Netが生成された。最適化の条件として、精度は80%以上で、演算(multiply–accumulate operation、掛け算と保存の演算)の量は25億回以下とした。演算量を抑えるが、そこそこの精度がでる構成とした。

出典: Linda Wang et al.  

判定精度

実際に、データセットを使ってCOVID-19の性能を検証すると、判定精度(Accuracy)は92.4%となった。具体的な検証結果は下記のグラフィックスの通りで、縦軸が基準値(Ground Truth)で横軸が検証精度(Precision)で、箱の中の数字は件数を示す。COVID-19患者10人について検証すると、COVID-Netは8人を正しく判定し、もう一人は通常の肺炎と、もう一人は感染なしと判定していることが分かる。COVID-Netは早期にCOVID-19感染者を見つけるために使われ、また、通常の肺炎とCOVID-19肺炎を見分けるためにも活用される。

出典: Linda Wang et al.  

アルゴリズムの判定理由

この研究ではCOVID-Netは何を根拠に病気を特定したのか、その理由を説明する機能が導入された。これは「GSInquire」と呼ばれる技法で、ニューラルネットワークがオブジェクトを判定した根拠を表示する。このケースでは、COVID-Netがレントゲン写真で肺炎と判定した根拠となる部分をピンクのシェイドで示している(先頭の写真)。この部分にCOVID-19肺炎に特有なパターンがみられる。これにより、AIのブラックボックスが開かれ、医師は判定の理由を理解できる。また、COVID-Netは医師が認識していない肺炎のパターンを検知でき、新たな知見が生まれることが期待されている。また、COVID-Netのデバッグにも利用でき、アルゴリズムが誤検知する理由を把握する。

研究者のツール

COVID-Netの判定精度は92.4%とあまり高くはなく、まだ、医療ツールとして病院で使える品質とは言えない。一方、COVID-Netは研究者コミュニティにより改良が進み、精度や機能が向上し、医療ツールとして使えるよう進化する。今は研究のためのプロトタイプであるが、これをベースに新型コロナウイルスの治療技術が進むと期待される。

GoogleはAIで新型コロナウイルスの3D形状を解明、この情報が治療薬開発を加速する

新型コロナウイルスの感染者数が30万人を超え世界は危機的な状況となった。病気を防ぐワクチンや治療薬がないため、感染が拡大し病気が重篤化している。世界の研究機関はワクチンや治療薬の開発を急いでいる。Google系DeepMindはAIを使い新型コロナウイルスの3D形状を推定した。医薬品開発では病気を引き起こすたんぱく質の形状が決定的に重要で、AIがワクチンや治療薬の開発を加速するのか期待が寄せられている。

出典: DeepMind

AlphaFold

DeepMindはたんぱく質の形状をニューラルネットワークで推定する研究を早くから進めている。このAIは「AlphaFold」と呼ばれ、遺伝子情報を解析し、たんぱく質の3D形状を推定する。つまり、たんぱく質を生成する遺伝子配列を読み込むと、たんぱく質の形が分かるというもの。DeepMindはAlphaFoldを新型コロナウイルス(SARS-CoV-2)に適用し、その形状を推定した(上の写真)。これは新型コロナウイルスの「Membrane Protein」(下の写真、ウイルスの膜に付着しているたんぱく質)といわれる部分で、治療薬の開発には不可欠な情報となる。

たんぱく質の形状が持つ意味

たんぱく質の形状が注目されるのは、その形が機能を決めるからである。細胞内のたんぱく質の形状を見ることで、その役割が推定される。これにより、対象とするたんぱく質(例えばがん細胞)の形に作用する薬の開発に繋がる。新型コロナウイルスも同様で、ワクチンや治療薬を開発するにはウイルスの形状が決めてとなる。しかし、従来の手法(低温電子顕微鏡など)では形状を特定するまでに数か月かかり、この緊急事態に対応できない。このため、DeepMindは既に開発を進めていたAlphaFoldを新型コロナウイルスに適用し、その形状を推定した。

出典: Nature

Protein Folding Problem

たんぱく質はアミノ酸の配列で構成される(下の写真)。アミノ酸と別のアミノ酸が結合するとき、両者の距離や結合角度が決まる。これにより、アミノ酸結合は、らせん配列(Alpha Helix)とシート配列(Pleated Sheet)という構造を取る。更に、これらが絡み合い3D構造のたんぱく質ができる。たんぱく質がどのように折り畳まれているかを解明する研究を「Protein Folding Problem」と呼び、過去数十年にわたり研究が続いている。

出典: DeepMind

ニューラルネットワークの技法

AlphaFoldは三つのニューラルネットワークを使ってたんぱく質の形状を推定した(下の写真)。最初のネットワークはアミノ酸の配列から、それぞれのアミノ酸の間隔と結合角度を推定する。ここでは教育データとして実際のたんぱく質とその距離や角度のデータが使われた。二つ目のネットワークは推定されたたんぱく質の形状がどれだけ正確かを算定する。三つ目のネットワークは、これらの情報からたんぱく質の3D形状を描き出す。

出典: DeepMind

出力結果の検証

このプロセスを新型コロナウイルスに適用し、その形状を推定したのが先頭の写真となる。ただし、これはAlphaFoldによる推定で、実際にこの形状が正しいかどうかは検証されていない。実験で新型コロナウイルスの形状を決定するまでには時間を要し、DeepMindはこの確認を待たないで解析結果を公表した。未確認の情報であるがこれを研究開発に役立てほしいとしている。

体内で生成されるたんぱく質

AlphaFoldは新型コロナウイルスだけでなく、他の病気の治療薬を開発するために開発が続いている。医学分野では、人間の体内で生成されるたんぱく質の構造についての研究が進んでいる。既に、体内で生成されるたんぱく質の中で、その半分について構造が分かっている。これらの情報はProtein Data Bankに登録され一般に公開されている。世界の研究者はこれらたんぱく質の形状を理解し新薬の開発を進めている。

AIを創薬に応用

しかし、遺伝子変異により人間のたんぱく質の構造が変わり、これが原因で病気を引き起こす。これらの病気を治療するためには、変異したたんぱく質の構造を理解する必要がある。この分野でAlphaFoldが活躍し、難病の治療に繋がると期待されている。また、新型コロナウイルスのように新しい種類のウイルスの形状を解析するためにも有益なツールとなる。

医療以外の応用分野

AlphaFoldは医療だけでなく環境問題を解決するツールとしても期待されている。いまプラスチックが海に流れ出て環境汚染が深刻化している。AlphaFoldはプラスチックを生物学的に分解する(Biodegradable)技法の開発を目指している。プラスチックを分解する酵素の発見がゴールとなりAIでその形状を推定する。

遺伝子変異から新型コロナウイルスの感染経路を解明、中国での感染拡大と同時に世界に拡散

新型コロナウイルスが世界各国で広がり世界保健機関(WHO)はパンデミックを宣言した。トランプ大統領は、国家非常事態宣言を発令し、新型ウイルス対策に500億ドル支出する。新型コロナウイルスはどのように広がったのか、ウイルスの遺伝子解析でその経路が見えてきた。

出典: Nextstrain

Nextstrain

これはNextstrainが開発したソフトウェアによるもので、新型コロナウイルスの感染経路をグラフィカルに表示する(上の写真)。これを見ると世界でどのように感染が進んだのかを時系列に把握できる。新型コロナウイルスの遺伝子解析の結果をもとに経路を推定した。Nextstrainは非営利団体の研究機関でオープンソースの手法でウイルスの感染をリアルタイムに把握する技術を開発している。過去にもインフルエンザ、エボラ出血熱、ジカウイルスの感染経路の解析を実施している。

新型コロナウイルスの発祥地

新型コロナウイルスの遺伝子は頻繁に変異を起こし、それを手掛かりに感染経路を特定する。遺伝子が変異し多くの種別が生まれるが、それを「家系図」で示している(下の写真)。ウイルスの遺伝子は左から右に向かって変異していく。左側が先祖で右側が子供となる。丸印は感染者を表わし、丸印と丸印の間で遺伝子が変異している。左右の実線は遺伝子の世代関係を示す。

ウイルスは発生場所により色分けされている。紫色の部分が武漢で検出されたウイルスで、これらは左端に集中している。これらが新型コロナウイルスの初期の患者となる。更に、世界各国で検知されたウイルスはこの子孫にあたり、新型コロナウイルスの最初の感染は武漢で起こり、それが各国に拡大したと推定される。(緑色系は欧州各国で、赤色は米国を示す。日本は薄い青色で示されている。)

出典: Nextstrain

ウイルスが拡大したルート

Nextstrainはウイルスが広がった経路をマップ上にアニメーションで示している。武漢で新型コロナウイルスが急拡大すると同時に、2020年1月中旬には、これが世界に蔓延した(下の写真)。米国では主要都市に、欧州ではイギリス、フランス、ドイツ、イタリアなどに広がった。この時期に、日本にもウイルスが持ち込まれた。

出典: Nextstrain

武漢での新型コロナウイルスの急拡大を受け、各国は中国からの入国を禁止する措置を取り、2月中旬にはウイルスの移動は止まった(下の写真)。

出典: Nextstrain

中国からの感染は止まったものの、この時点では既に手遅れで、欧州と米国で感染者数が急増した。3月上旬には欧州域内で感染が広がるとともに、今度は、欧州から他の地域へウイルスの移動が始まった(下の写真)。米国は3月13日、欧州からの入国を制限したが、既に米国内で感染者が急増している。

出典: Nextstrain

欧州内での感染経路

今では欧州が新型コロナウイルスの発生場所となっている。欧州では同じグループの遺伝子が多数の国で検出され、欧州ではウイルスが国を跨って循環していると推定される(下の写真)。特に、イギリス・ドイツ・オランダ間で同じタイプのウイルスが循環している。

出典: Nextstrain

米国の感染経路

米国には異なるルートで中国からウイルスが持ち込まれた(下の写真)。米中間は人の行き来が多く、多くの都市で感染が広がった。いまワシントン州で市中感染が大規模に発生しているが、これらのウイルスを解析すると、武漢から持ち込まれたウイルスの子孫にあたる。

出典: Nextstrain

イランからの感染が広がる

イランで感染者が急増しているが、これが世界に広がっている。イランを訪問した人が世界各地にウイルスを持ち込んでいる。特に、オーストラリア、ニュージーランド、英国、米国などに広がっている。イラン国内の感染者の遺伝子情報はないが、各国にもたらされた遺伝子は極めて類似性が高く、イランでは一種類のウイルスが国内に蔓延していると推定できる。

出典: Nextstrain

日本の感染経路

日本には数回にわたり新型コロナウイルスが持ち込まれた。これらはすべて武漢からで、これ以外の国からの感染は無い。1月下旬に、大阪、奈良、京都でウイルスが検知され、その直後、静岡と東京でウイルスが検知されている。日本には1月下旬に集中的にウイルスが武漢から流入している。ただし、日本のサンプル数は11と少なく、2月以降のデータはなく、武漢以外の感染経路は特定されていない。

出典: Nextstrain

感染を防ぐには

これらのグラフを見ると武漢で新型コロナウイルスが蔓延し、このウイルスが世界各地に持ち込まれたことが分かる。多くの国で中国からの入国を制限したが、その時点では既に多くの感染者が入国している。米国では最初の感染者は1月15日に武漢からワシントン州に帰国した人物に特定された。いまシアトル近郊で大規模な集団感染が発生しているが、遺伝子解析の結果、そのルーツは最初の感染者にあることが分かっている。

ウイルスのアウトブレークを監視

米国政府は2月初旬に中国からの入国を制限したが、その時には既に米国内で感染が広がっていた。いかに早くウイルスのアウトブレークを検知し、移動を制限するかが決め手となる。米国では新しいタイプのウイルスのアウトブレークを監視する団体が活動しているが、この役割の重要性が改めて認識されている。

経路推定のメカニズム

新型コロナウイルスはRNAタイプのウイルスで、RNAは約3万対の塩基から構成されている。ウイルスが増殖するときにRNAが複製されるが、エラーチェック機能がなく、頻繁に複製の間違い(変異)が起きる。平均して、ウイルスが二回感染すると、RNAは一回変異を起こす。多くの種類のRNAが生成されることになり、これを手掛かりに遺伝子の成長の過程を解析する。この手法は「Pathogen Phylogenies」と呼ばれる。実際には、世界各地でウイルスの遺伝子解析が行われ、その情報はGISAIDに集約される。NextstrainはGISAIDの遺伝子情報を使い、その配列を解析してウイルスが感染した経路を推定した。GISAIDはドイツ・ミュンヘンに拠点を置く非営利団体で医療技術の研究を推進している。

AIが業務メールを読んで詐欺を検知、自然言語解析をセキュリティに応用

先週、サンフランシスコでセキュリティのカンファレンス「RSA Conference (#RSAC2020)」が開催された。今年のテーマは「Human Element」で、技術が人々にどう役立つかのを見直そうというもの(下の写真)。技術進化が著しいが、セキュリティの目的は人間を攻撃から守ることにある。会場にはAIをセキュリティに応用したツールが数多く展示され、アルゴリズムが攻撃を防御する方向が鮮明になってきた。

出典: VentureClef

ビジネスEメール詐欺が急増

いま、米国を中心にビジネスEメール詐欺(Business Email Compromise、BEC)が急増している。ビジネスEメール詐欺とは、業務用メールを使って相手を欺き、お金を盗み取る詐欺行為を指す。サイバースペースだけでなく、実社会でも行われている詐欺行為で、誰でも攻撃者になれることから米国を中心に被害件数が急増している。

FBIレポート

アメリカ連邦捜査局(FBI)はインターネット上の詐欺行為を分析し、その結果を報告書「Internet Crime Report」として公開している。このレポートによると、2019年度の米国での被害件数は46万件で、被害総額は35億ドルとなっている(下のテーブル)。この中でビジネスEメール詐欺(BEC/EAC)の被害額がトップで、その金額は18億ドルと全体の半分を占めている(下のテーブル、最上段)。

2019年のインターネット犯罪動向

FBIレポートによると、ビジネスEメール詐欺は2013年ころから始まり、犯罪者は企業のCEOになりすまし、偽のEメールでお金を送金させる手口を取った(「CEO Fraud」と呼ばれる)。その後、詐欺の手口は広がり、社員や取引先になりすまし、偽のメールで送金を求めたり、ギフトカードを買わせる攻撃が広がった。2019年の特徴は給与振り込み詐欺で、社員になりすまし偽のメールで経理部から給与を指定口座に振り込ませる詐欺が広がった(「Payroll Fraud」と呼ばれる)。

出典: Federal Bureau of Investigation

給与振り込み詐欺の実例

ビジネスEメール詐欺では、まず、攻撃者がフィッシングなどの手法で社員の認証情報(IDとパスワード)を奪う。次に、攻撃者は社員になりすまし、偽のメールを社内や社外のターゲットに送り、犯罪者の口座にお金を送金させる。

出典: Symantec

給与振り込み詐欺のケースでは、会社の社員になりすまし、経理担当者に偽のメールを送り、指定口座に給与を振り込ませる(上の写真)。会社の社員になりすました攻撃者が、偽のメールを経理部門に送り、「給与振り込み先について、銀行口座を変更したので情報をアップデートしてほしい」と依頼。これにより、次回の給与は攻撃者が指定する銀行口座に振り込まれる。

Armorbloxというベンチャー企業

ビジネスEメール詐欺をAIで検知するソリューションの開発が進んでいる。その先頭を走るのはArmorbloxというベンチャー企業で、シリコンバレーに拠点を置きAIや自然言語解析をベースにしたEメールセキュリティ技術を開発している。業務用メールの内容をAIで解析して問題点を検知する手法を取り、Microsoft Office 365やGoogle G Suitなどをサポートしている。

AIがメールの内容を理解

ArmorbloxはAIがメールの内容を解析し、そこから攻撃の手口を検知する手法に特徴がある。AIが不正を検知すると警告メッセージを表示して注意を促す(下の写真)。具体的には、AIは「(メール発信者である)Jack Dorseyはこのアドレスからメールを発信しない」と警告。また、AIがメール本文を読み、そこには「カードを紛失したので別のカード情報を今晩までに送ってほしい」と書かれていることを理解し、AIは「今晩までという急な要請は不正の手口」と解析し、これは詐欺メールであると判定する。

出典: Armorblox

システム構成

Armorbloxは機械学習(Machine Learning)や深層学習(Deep Learning)の技法を使ってEメールを解析する。特に、自然言語解析(Natural Language Understanding)に特徴があり、メールに書かれていることを理解して、詐欺や問題点を検知する。この手法でビジネスEメール詐欺を検知するが、それ以外にも、機密情報の流出を検知する機能 (Data Loss Prevention)も備えている。

AIを教育するプロセス

Armorbloxのブース(下の写真、左側)でAIを教育する手法について説明を受けた。AIは基本教育ができており、企業はそれをそのまま使うことができる。一方、AIの検知精度を上げるため、企業は保有しているEメールのログを使ってAIを再教育する。これにより、AIは利用者の特性(名前や職務、上司関係、メールを書くスタイル)を理解し、アルゴリズムは検知精度を上げる。また、利用者がArmorbloxの判定結果を見て、それにコメントすることもできる。AIはこれらのフィードバックを学習し、更に判定精度を上げる。

出典: VentureClef

Armorbloxの特徴

市場にはビジネスEメール詐欺を検知するソフトウェアは数多く登場している。これらは、ルールベースでシステム管理者がマニュアルで特定の単語や規則を指定する。しかし、これらシステムの判定精度は高くなく、誤検知(False Positive)が多く、管理者が手作業でここから詐欺メールを選び出す作業が必要となる。これに対して、ArmorbloxはAIや自然言語解析が人間に代わりこのプロセスを実行する。

新型コロナウイルス

サンフランシスコ市は新型コロナウイルスの蔓延で非常事態宣言を発令した。展示会やイベントの中止が相次ぐ中、RSA Conferenceは予定通り開催された。会場やブースにはアルコール消毒液が置かれ (上の写真、右側)、厳戒体制での開催となった。米疾病予防管理センターは感染予防策としてSocial Distance(相手と1メートル以上離れる)とElbow Bump(握手の代わりに肘タッチ)を推奨するが、会場ではこれを励行する様子はなかった。こまめに手洗いしながらの面談となり危険を感じながらのカンファレンスとなった。