タンパク質フォールディングでブレークスルー!!DeepMindはアミノ酸配列からたんぱく質3D構造を予測するAIで50年に渡るチャレンジに解を出す

アミノ酸の配列からタンパク質の3D形状を推定する技法は「タンパク質フォールディング」と呼ばれ、生物学のグランドチャレンジとして、50年にわたり研究が続いてきた。DeepMindは高度なAI「AlphaFold」でこの問題に挑戦し、ついにこれを解くことに成功した。これは生物学の革命と称賛され、医療や製薬が大きく進展すると期待されている。(下の写真:タンパク質フォールディングの事例で、タンパク質の3D形状をイラストで示している。緑色の形状が実測値で、青色の形状がAlphaFoldの予測。)

出典: DeepMind

生物学のグランドチャレンジ

タンパク質はヒトや他の生物を構成する基本単位で、その数は2億種類にのぼる。ヒトは2万種類のタンパク質で構成され、これらが生命の源となる。タンパク質は3D構造が重要で、その形状が機能を決定し、また、他のタンパク質との相互作用を司る。このため、タンパク質は「structure is function」といわれ、その3D構造の解明が続いてきた。しかし、構造を解明できたタンパク質の数はわずかで、3D構造解析が生物学のグランドチャレンジとされてきた。

タンパク質フォールディング

タンパク質はアミノ酸の配列で構成され、ヒトのタンパク質は20種類のアミノ酸で構成される。DNA情報を元にアミノ酸の配列が生成され、それが折り畳まれて3D構造のタンパク質となる。アミノ酸とアミノ酸が結合するとき、両者の距離や結合角度が決まり、らせん配列(Alpha Helix)やシート配列(Pleated Sheet)の構造となる。更に、これらが絡み合い、3D構造のタンパク質ができる。タンパク質がどのように折り畳まれているかを解明する研究を「Protein Folding Problem」と呼び、過去50年にわたり研究が続いてきた。

実験による3D構造の解明

タンパク質の形状を実測するために様々な手法が使われている。主なものは、低温電子顕微鏡法(cryo-electron microscopy)、 核磁気共鳴(nuclear magnetic resonance)、X線回折(X-ray crystallography)などで、実験的手法でその形状を把握する。これらが標準手法(Gold standard)で高精度に形状を把握できるが、測定には時間と経験と費用がかかる。

AlphaFold2の概要

DeepMindはタンパク質の実測に代わり、ニューラルネットワークで形状を推定する研究を進めている。このAIは「AlphaFold」と呼ばれ、アミノ酸の配列からタンパク質の3D形状を推定する。AlphaFoldは既に形状が判明しているタンパク質のデータを使って教育された。AlphaFoldは10万のタンパク質のアミノ酸配列と3D形状を学習し、新たなタンパク質の形状を推定できるようになった。その最新版「AlphaFold2」は高精度に3D形状を推定できる。

出典: DeepMind

タンパク質フォールディングのコミュニティ

DeepMindはタンパク質フォールディングのコミュニティCASP (Critical Assessment of protein Structure Prediction)でずば抜けた性能を示した。CASPはアミノ酸の配列からタンパク質の3D形状を予測するコンペティションで二年ごとに実施される。DeepMindは2018年にはAlphaFoldで、今年は最新モデルAlphaFold2で参戦し、破格の成績を示した(上のグラフ)。

ベンチマーク結果

タンパク質フォールディングの性能はGDT(Global distance test)という指標で示される。これは実験で得られたタンパク質3D構造と予測した3D構造がどれだけ重なるかを査定し、100点満点で示される。AlphaFold2のスコアは90点を超え(上のグラフ右端)、これはタンパク質フォールディングの解を示したと解釈される。つまり、AlphaFold2は実測と同じ精度でタンパク質の3D形状を推定できることを意味する。

新型コロナウイルスの解析

DeepMindはAlphaFoldを新型コロナウイルス(SARS-CoV-2)に応用し治療法の研究に貢献している。新型コロナウイルスは30種類のタンパク質から成り、それらの3D構造の解析が進んでいる。しかし、その中で6種類のタンパク質についてはその形状が分からず、DeepMindはその中の「ORF3a」の形状を特定することに成功した(下の写真)。青色の形状がAlphaFoldによる推定で、緑色の形状がUC Berkeley Brohawn Labによる実測値で、推定結果は実測値に極めて近いことが示された。その後、AlphaFoldはもう一つのタンパク質「ORF8」の3D構造を解明した。

出典: DeepMind

医療への応用

AlphaFoldがタンパク質の3D形状を推定することで、医療技術が大きく進化すると期待されている。その一つが感染症対策で、アフリカなどの途上国で蔓延している感染症「睡眠病(sleeping sickness)」の治療法開発に役立つとされる。睡眠病はツェツェバエが媒介する感染症で、タンパク質の形状が分からないことが病気治療の妨げとなっている。これらは「neglected tropical diseases」と呼ばれ、医療の手が届かず放置された状態の病気で、緊急の対策が求められている。

新薬開発

また、製薬会社はAlphaFoldで分子構造を把握することで、新薬開発が大きく進展すると見ている。新薬開発では複数の候補分子を選び、そこから効果のあるものを絞り込み、完成までに10年の歳月と25億ドルの費用が掛かるとされる。AlphaFoldで病気に関与する人体のタンパク質の形状が分かると、それに効果のある分子を特定でき、新薬開発が大きく進化する。

出典: DeepMind

DeepMindの苦戦と成果

DeepMindは「AlphaGo」を開発し、高度なAIが囲碁の世界チャンピオンを破り、社会に衝撃を与えた。その後、DeepMindは研究開発を進めるが、社会に役立つAIが登場せず、その開発戦略が問われていた。AlphaGoから5年が経過するが、AlphaFoldはタンパク質フォールディングで画期的な成果を示し、今度は社会に役立つAIで世界を驚かせた。(上の写真、AlphaFold開発チーム、今年は在宅勤務で研究を続行。)