カテゴリー別アーカイブ: Microsoft

大規模言語モデルGPT-3は人間の能力に到達、しかしAIは重大な危険性を内包し開発したアルゴリズムを制御できない状態が続く

スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。

出典: OpenAI

GPT-3とは

GPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。

自然な文章を生成

GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 

出典: Tom B. Brown et al.

言語モデルの限界1:常識が無い

これほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。

言語モデルの限界2:人種差別

GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。

出典: James Zou et al.

バイアスの原因

GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。この他にデジタル化された書籍やウィキペディアも使われた。GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。

アルゴリズムの機能が未知

GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。

ビジネスモデル

このように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。

出典: OpenAI    

Googleの大規模言語モデル開発

Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。

Microsoftの大規模言語モデル戦略

Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。

Microsoftは話し言葉でプログラミングできる技法を公開、OpenAIと共同で大規模AIの開発を加速

Microsoftは2021年5月、話し言葉でプログラミングできる技術を公開した。エンジニアが言葉で指示すると、AIはこれをプログラム言語に変換する。このAIは「GPT-3」と呼ばれ、言葉を理解する言語モデルで、OpenAIにより開発された。OpenAIはGPT-3をMicrosoftに独占的にライセンスしており、これが最初の商用モデルとなる。

出典: Microsoft

自然言語でプログラミング

Microsoftは開発環境「Power Apps」に言語モデル「GPT-3」を組み込み、話し言葉でプログラミングできる技術を開発した。アプリケーション開発ではプログラム言語を使ってコーディングするが、このシステムは自然言語でプログラミングできる(上のグラフィックス)。例えば、「Show me the Customers from U.S whose subscription is expired(サブスクリプションが切れた顧客を表示)」と指示すると(右上の枠)、システムはこれをプログラムに変換する(右下の部分)。プログラム言語は「Power Fx」で、ここでは二つのモデルが示され、開発者はこれをクリックするだけでコーディングが終了する。

ノーコード開発プラットフォーム

このシステムを使うと、プログラミングの知識がなくても誰でもアプリをコーディングできる。Microsoftはこの開発モデルを「Citizen Developers」と呼び、誰もがコーディングできるようになり、プログラム開発者の数が増えると期待している。一般に、コマンドではなくグラフィカル・ユーザインターフェイスでプログラミングする方式は「No-Code Development」と呼ばれているが、MicrosoftはこれをAIによる自然言語の変換で実現した。

Microsoft Power Appとは

MicrosoftはNo Code方式をPower Appsに実装した。Power Appsは簡単にアプリ開発できるフレームワークで、最小限のプログラミング技術でコーディングが可能となる。Visual Studioはプロ開発者向けの開発環境であるが、Power Appsは万人が使えるシステムとなる。

開発方式の進化

Power Appsの投入で開発方式が大きく変わっている。従来は、アプリを設計・開発・試験・運用の順序で行う方式「Waterfall Development」が主流であったが、今ではアジャイル方式「Agile Development」(下のグラフィックス)に移っている。この方式は、短期間でこのサイクルを繰り返し、プロトタイプ(minimum viable product)を開発する。

出典: Microsoft  

新型アジャイル方式

これに対して、MicrosoftはPower Appsを使い、プログラミングと同時にユーザインターフェイスを開発できる「WYSIWYG (what you see is what you get)」方式を提唱した。この方式では、即座にプロトタイプが完成し、これをベースに新機能を追加しバージョンアップを繰り返す(下のグラフィックス)。Microsoftはこの方式を新型アジャイル方式「Agile V2 Development」と呼んでいる。

出典: Microsoft  

Low CodeからNo Codeへ

Power Appsのプログラミング技法は前述の通り「Low-Code Development」と呼ばれ、最小のコーディングでプログラムできる。Power Appsのプログラム言語は「Power Fx」と呼ばれ、Microsoft Excelでマクロを書くように最小限のコーディングでアプリを開発する。(下のグラフィックス)。

出典: Microsoft  

更に、Power AppsにGPT-3が統合され、今度は、コーディングすることなくアプリを開発できるようになった。言葉で指示すると(下のグラフィックス)上述のPower Fxコードが生成される。この方式は「No-Code Development」と呼ばれ、幅広い普及が期待されている。

出典: VentureClef  

MicrosoftとOpenAIとの提携

MicrosoftはOpenAIと共同開発を進めてきたが、2020年9月、GPT-3を独占的にライセンスを受けることで合意した。その対価として、MicrosoftはOpenAIにGPT-3開発のためのAIスパコン環境を提供する。MicrosoftのAIスパコンは世界ランキング5位の性能を持つ。GPT-3のニューラルネットワークは巨大で、大規模AIを開発するためにはスパコンが必要となる。

GPT-3とは

GPT-3は言語モデル「Autoregressive Language Model」で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成や言語の翻訳や文章の要約ができる。MicrosoftはGPT-3で言葉をプログラム言語に翻訳する技術を開発した。GPT-3は世界最大規模のニューラルネットワークで構成されたAIで、けた違いに高度な言語能力を示す。

Microsoftはコロナ終息後の勤務形態をハイブリッドと予想する、多くの企業はこれに対応できないと警告

米国でワクチン接種が進み、多くの企業がオフィスを再開し、社員が職場に戻りつつある。Microsoftはリモートワークの実態を調査し、コロナ終息後の勤務形態について提言した。これによると、企業も社員もハイブリッド勤務を望んでおり、これが標準勤務形態となるとの見通しを示した。同時に、会社幹部と社員の間でリモートワークに関する認識のギャップが大きく、これがハイブリッド勤務の最大の課題になると警告した。

出典: VentureClef

リモートワーク評価レポート

Microsoftは2021年3月、勤務実態の動向を分析した報告書「The Next Great Disruption Is Hybrid Work – Are We Ready?」を公開した。コロナの感染拡大で企業がリモートワークに移行したが、3万人を対象に、コラボレーションツール(Microsoft 365やLinkedIn)のデータを元に、遠隔勤務の実態について分析した。更に、コロナ終息後の勤務体形について提言を行った。

報告書の要旨

このレポートによると、オフィスが再開されると勤務形態はハイブリッドになり、これが標準形態として定着する。ハイブリッド勤務になると、社員は勤務時間が柔軟になり、居住地の制約がなくなる。その一方で、社員やチームが孤立し、仕事における人的ネットワークを構築することが難しくなる。特に、若い社員はリモートワークに上手く対応できてなく、今年は転職者の数が激増するとしている。会社はこの環境の変化に迅速に対処する必要があり、人事管理の手法が劇的に変わる。

会社も社員もハイブリッド勤務を好む

調査した社員の73%がハイブリッド勤務を希望しており、また、企業の66%がこの形態に移行すると答えている。社員も企業もハイブリッドを好み、コロナ終息後はこの方式が定着すると予想する。ハイブリッド勤務となると、企業はオフィス環境を整備する必要があると考える。従来のオフィスは仕事の効率を追求した構造となっているが、これからは社員が快適に過ごせるスペースとしてデザインする必要がある。

管理職は社員の苦労を理解していない

社員は1年近くリモートワークを続け、仕事の重圧や孤立感を感じている。また、遠隔勤務に必要なネットワーク環境が整っていない社員も少なくない。更に、社員の多くが、仕事が順調に進んでいないとプレッシャーを感じている(下のグラフ)。特に、独身社員の67%が、また新入社員の64%が、仕事が順調ではないと答え、若い世代でこの傾向が顕著に表れている。これに対し、幹部社員の61%は、リモートワークはうまくいき、仕事の効率があがっていると評価している。また、多くの幹部社員は在宅勤務の社員は会社に多くを求めすぎると思っている。幹部社員は在宅勤務社員の困窮の状況を正しく認識していない実態が明らかになった。

出典: Microsoft

仕事の効率が上がっているのは社員の残業による

幹部社員はリモートワークで仕事の効率が上がっていると評価するが、これは社員の”残業”によるものであるとの実態が明らかになった。多くの社員はリモートワークで生産性が同じか、または、向上したと答えている。同時に、出社勤務に比べて仕事時間が増えたと答えている。これを裏付けるデータとして、Microsoftはコラボレーションツールのデータ量を公開した(下のグラフ)。これによると、都市のロックダウンで仕事が在宅勤務になると、出社勤務に比べ、会議の時間が148%増加し(グラフ上段)、チャット件数が45%増加した(グラフ下段)。リモートワークで仕事の量が増えていることがデータで示された。このため、社員の54%が過労であると感じており、生産性が上がった理由は社員の仕事時間の増加によることが明らかとなった。

出典: Microsoft

人のネットワークがしぼむ

リモートワークのもう一つの問題点は、社員やグループが孤立し、人的ネットワークが縮小したことにある(下のグラフ、社員同士のつながりの強さを示したもの)。遠隔勤務ではコラボレーションツールを使って仕事をするが、同じ部門内ではコミュニケーションの量が増え、メンバー同士のつながりが強くなった(緑色のグラフ)。しかし、部門を超えたコミュニケーションは低下し、人のネットワークが縮小した(青色のグラフ)。これにより、部門間の協調性が低下し、生産性やイノベーションの創出に影響が出る。しかし、ハイブリッド勤務に移行すると社員が出社する機会が増え、部門間のコミュニケーションが増え、再び人的ネットワークが広がると期待している。

出典: Microsoft

企業がなすべきこと

Microsoftはハイブリッド勤務では企業のカルチャーが重要になると指摘する。職場は仕事をするためのスペースだけでなく、社員が交流するための場となる。このため、オフィス空間は社員が快適に過ごせるようリモデルする。また、社員同士の交流を促進するプログラムの導入が必要となる。リモートワークでの孤立感を職場で解消することに加え、社員にとって会社が魅力的な環境となるよう企業カルチャーを育むことが求められる。

ポストコロナの勤務形態

実際に、シリコンバレーの企業は在宅勤務で無人となったオフィスのリモデルを進めている。あちこちで工事が行われ、ポストコロナのオフィス勤務に備えている。また、スタートアップを中心に社員の交流イベントが実施されてきたが、ハイブリッド勤務ではこれがより重要となる。夏を過ぎるとオフィスを再開する企業が多く、社員は今までとは全く異なる環境で仕事をすることになる。

マイクロソフトは量子クラウド「Azure Quantum」を発表、量子コンピュータ登場前に量子アプリの開発が進む

Microsoftは2019年11月、開発者会議「Ignite」で量子クラウド「Azure Quantum」を発表した(下の写真)。Azure Quantumは量子技術を統合したクラウドで、量子アプリケーションの開発環境とそれを実行する量子コンピュータから構成される。CEOのSatya Nadellaは、量子コンピュータで未解決の問題を解決し、食の安全、気候変動、エネルギー伝送の分野でブレークスルーを起こすと表明した。

出典: Microsoft

Azure Quantumとは

Azure Quantumは量子コンピュータから開発環境からソリューションまでを提供する量子技術のフルスタックとして位置付けられる。Microsoftは既に、量子開発環境「Quantum Development Kit」や量子プログラム言語「Q#」などを発表しているが、これらがAzure Quantumの中に組み込まれた。エンジニアはAzure Quantumで量子アルゴリズムを開発し、それらを量子コンピュータや量子シミュレータで実行することができる。商用量子コンピュータが登場するまでには時間がかかるが、Azure Quantumで先行して量子アプリケーションを開発し、来るべき時代に備えておく。

量子コンピュータの種類

Azure Quantumは実行環境として開発中の量子コンピュータを利用する。対象となるマシンは、Microsoft、IonQ、Honeywell、Quantum Circuitsで、この中でプロトタイプが稼働しているのはIonQだけとなる。他の量子コンピュータは開発中で、マシンが稼働すると順次、Azure Quantumで使われる。

量子コンピュータの概要

Microsoftは「Topological Quantum Computer」という方式の量子コンピュータを開発している(下の写真)。二次元平面で動く特殊な粒子の特性を利用し、その位相変化を情報単位とする方式で、極めて信頼性が高いが、開発には時間を要す。IonQとHoneywellは「Trapped Ions」という手法の量子コンピュータを開発している。電荷を帯びた原子(イオン)の電子のエネルギー状態でQubitを構成する。Quantum Circuitsは超電導回路を使ってQubitを生成するが、量子コンピュータを多数のモジュールで構成する。GoogleやIBMは複数の超電導回路を一つのチップに搭載するが、Quantum Circuitsはこれを多数のモジュールに分けて搭載する。量子プロセッサを多重化することで信頼性を高めるアプローチを取る。

出典: Microsoft

量子アプリケーション開発環境

Microsoftは量子アプリケーション開発環境「Quantum Development Kit」と量子プログラム言語「Q#」を2017年12月に投入している。しかし、2019年7月には、これら開発環境をオープンソースとしてGitHubに公開した。Microsoftはオープンソースの手法で、開発者コミュニティと連携して、量子アプリケーションを開発する方針とした。今回の発表でこれら開発環境をAzure Quantumに組み込み、エコシステムの拡大を目指している。

量子プログラム事例

GitHubには量子アルゴリズムのサンプルが掲載されており、これらを利用して新しい量子アプリケーションを開発することができる。GitHubには代表的なアルゴリズムとして、検索(Grover’s Algorithm)、素因数分解(Shor’s Algorithm)、量子化学、シミュレーションなどが掲載されている。また、量子アルゴリズムを学習するためのサンプルも豊富に揃っており、ここでスキルを身につけ、量子アルゴリズム開発を始める。

量子テレポーテーション

GitHubにサンプルコードとして「量子テレポーテーション(Quantum Teleportation)」が掲載されている。量子テレポーテーションとは、ある場所から別の場所に情報(Qubitの状態)を送信する技術であるが、物質(電子や光子など)を送ることなく、情報を伝える技術である。SF映画に登場するテレポーテーションのように、情報を遠く離れた場所に移動させる技術である。電気シグナルで情報を伝達しないので経路上で盗聴されることはない。極めて奇妙な物理現象であるが、Quantum Teleportationを量子ゲートで示すと下の写真上段の通りとなる。左上のQubitの情報を右下のQubitに送るのであるが、簡単なゲート操作を経て、右下のQubitの状態を読み出すだけで情報が伝わる。この量子ゲートをQ#でコーディングすると下の写真下段のようになる。

出典: GitHub

量子テレポーテーションを実行すると

サンプルコードはJupyter Notebook(オープンソース開発・シミュレーション環境)の上に展開されており、コードをそのまま実行できる。ここでは「TeleportRandomMessage」という命令(Operation)を定義し、Qubitの状態をテレポートするコードを作成し、それをMicrosoftの量子シミュレータで実行させた。その結果、送信側のQubitの状態「|->」が、受信側のQubitにテレポートし、正しく「|->」と出力された(下の写真)。(「|->」とはBlock Sphere(先頭の写真左側の球体)でQubitが-Y軸方向に向いている状態。)

出典: GitHub

量子アプリケーション事例

既に、先進企業はMicrosoftの量子アプリケーション開発環境を使って事業を進めている。OTI Lumionicsはカナダ・トロントに拠点を置く企業で、量子技術を使って新素材を開発している。この手法は「Computational Materials Discovery」といわれ、量子化学と機械学習の手法で有機EL(OLED)を開発している。OTI Lumionicsは量子アルゴリズムを開発し、新素材のシミュレーションを実行し、その物理特性を予測する(下の写真)。

出典: OTI Lumionics

開発者コミュニティ拡大

量子コンピュータの商用機が登場する前に、既に量子アルゴリズム開発が始まっている。開発した量子アルゴリズムはシミュレータで実行する。しかし、量子シミュレーションでは大量のメモリが必要となり、Qubitの数が増えるとパソコンやサーバでは実行できなくなる。このため、大規模構成のQubitのシミュレーションはAzureに展開して量子アプリケーションを実行する。Microsoftとしては量子アルゴリズム開発環境を提供することで、多くのエンジニアがQ#などに慣れ親しみ、開発者コミュニティを拡大する狙いもある。量子コンピュータが登場する前に、既に、量子エンジニアの囲い込みが始まった。

シュレーディンガーの猫

Azure Quantumのシンボルは「シュレーディンガーの猫(Schrödinger’s Cat)」である(先頭の写真右端)。この猫はオーストリアの物理学者シュレーディンガーが量子力学を説明する思考実験として使われた。量子力学ではQubitの状態(Block Sphereの青丸の位置)を特定することはできず、0である確率は50%で、1である確率は50%となる。Qubitを計測することで初めて0か1かに決まる。これを猫に例えると、箱に入った猫は蓋を開けるまで、その生死は分からない。つまり、箱の中で、猫は50%の確率で生きており50%の確率で死んでいる、ということになる。

MicrosoftはDNAで記憶素子を生成、遺伝子にデータを保存する仕組みとは

Microsoft Researchは記憶素子としてDNAを使う研究を進めている。DNAで記憶装置を作りここにデータベースやビデオ映像を記録する。DNAを記憶装置に利用する理由はデータを高密度に格納できるため。MicrosoftはDNA記憶装置をデータセンターに設置する計画も明らかにした。

出典: Microsoft  

DNA素子にデータを格納することに成功

Microsoft ResearchはDNAを単位とする記憶素子にデータを格納しそれを読みだすことに成功したと発表した。DNAにビデオ映像などを格納し、それをエラー無く読み出しビデオを再生することができた。データ容量は200MBでビデオ映像の他にデータベースなどが含まれている。この実験は昨年実施されたが、今年に入り研究詳細が論文「Scaling up DNA data storage and random access retrieval」として発表された。

DNAが注目される理由

記憶素子としてDNAが注目されているのはその記憶密度にある。DNAに高密度でデータを格納でき、インターネット上のすべての情報を広辞苑一冊程度の大きさに収納できるとされる。Microsoftは研究成果を元にDNA記憶装置を開発し、数年後にはデータセンターに設置して運用する計画だ。これはプロトタイプとして位置づけられ、Microsoftが自ら次世代ストレージ開発に乗り出すことになる。

現在の記憶媒体が物理限界に近づいている

記憶素子としてDNAが注目されるもう一つの理由は現在の記憶媒体が物理限界に近づいていることがある。長期保存の記憶媒体には光学ディスクやハードディスクなどが使われる。またフラッシュメモリ(SSD)なども使われる。しかし記憶密度は1平方ミリメートルあたり10GB (10^10 B) で物理的な限界に近付きつつある (ハードディスクの場合)。これに対しMicrosoftが開発したDNAは記憶密度が1平方ミリメートルあたり10の18乗バイト (10^18 B) で1億倍高い。記憶密度が格段に高くなり次世代の記憶素子として注目を集めている。

長期の保存が可能になる

また、DNAを記憶素子として使うことで長期の保存が可能になる。DNAはシリコンと異なり柔らかく崩れやすいイメージがあるが、DNAを低温・低湿度で保存すると経年劣化が極めて小さい。事実、マンモスの化石からDNAを取り出し遺伝子配列を読み出すことができるように、数十万年前の情報が正確に保持される。(下の写真、マンモスのDNAからマンモスを再生するプロジェクトが進んでいる。) また、フロッピーディスクやカセットテープは読み出し装置の製造が中止さると使えなくなる。しかし、DNAの読み出し装置 (DNA Sequencer) は人間が存在する限り必要で長期レンジで利用できる。

出典: Wikipedia / Royal BC Museum  

DNAメモリー素子の仕組み

DNAを記憶媒体にするロジックはシンプルである。しかし、それを実際に実行するには高度な技術を必要とする。DNAをメモリーとして使うには情報2ビットをDNAを構成する塩基 (A, G, T, C) にエンコードする:

          00 ➡ A

          01 ➡ G

          10 ➡ T

          11 ➡ C

つまりA (adenine) は00を意味し、G (guanine)は01を意味し、AGは0001となる。ビデオ映像などのデータは0と1で構成されるが、これをAとGとTとCの組み合わせに置き換える。現在の記憶装置は2ビットで稼働するがDNA素子は4ビットで構成されるメモリ素子となる。

ランダムアクセス・メモリ

DNA記憶素子は論理的にはランダムアクセス・メモリ (Random Access Memory) として機能する。パソコンで使われるSRAMやDRAMに相当する。記憶する情報の基本単位(レコード)を定義し、ここにIDやアドレスやペイロードを設定する。情報を書き込むときこの構成のDNAを生成する。このプロセスはDNA Synthesisと呼ばれ、DNAの塩基を特定の配列に組み上げる。今では多くのベンチャー企業が登場しDNA Synthesis技術が高度に進化している。

データ読み出し方法

生成されたDNAは容器 (DNA Pool、下の写真) に入れて保存される。DNAを読み出す際にはDNA読み出し装置 ( DNA Sequencer) を使う。遺伝子解析の時と同じ要領で、容器の中のDNA配列を読み出す。これはSRAMに記録されたデータを読み出す方式に似ており、データにランダムにアクセスし、IDやアドレスをキーに論理ファイルを組み上げていく。

出典: Lee Organick et al.  

DNA生成速度とコストが課題

遺伝子解析の進化でDNA読み出し技術は急成長し、Illumina社などから製品が提供されている。かつては人の全遺伝子解析ではコストが27億ドルとされたが、今ではこれが1000ドル程度でできる。一方、課題はDNA生成のプロセスで、如何に高速でDNAを生成できるかがカギになる。DNAという生物体を生成するため時間がかかりコストも大きい。現在、DNA生成速度は毎秒400 バイトで200MB生成するためには80万ドルかかると推定される。商用化にはDNA生成の速度を上げ価格を下げるためのブレークスルーが必要となる。

合成生物学の進化

DNAを編集して記憶素子を生成するだけでなく、編集したDNAを微生物に組み込んで新しいマテリアルを生成する技術が急速に進化している。これはSynthetic Biology (合成生物学) と呼ばれ、新薬の開発や新素材の合成に応用されている。従来のBiologyと最新のITが融合し新しい産業が生まれている。