月別アーカイブ: 2023年12月

欧州連合はAI規制法「AI Act」で最終合意に至る、生成AIは技術情報の公開が求められる、顔認識技術の運用は厳しく制限される

欧州連合(European Union)は域内のAIを規制する法令「AI Act」の最終調整を続けてきたが、難航の末、今月最終合意に達した。2021年に創案された法案が二年の歳月を経て法令として成立する。AI Actの成立に時間を要した理由は、二年間でAIの機能が劇的に進化したことにある。昨年末、ChatGPTという新しいタイプのAIが登場し、この生成AIをどう規制するかで議論が続いた。EUは当初、生成AIに厳しい制限を設けることを主張したが、OpenAIやGoogleはこれに強く反発し交渉が続いてきた。最終的に、生成AIの技術内容を公開するなど、透明性を高めることを義務付ける内容で決着した。

出典: European Parliament

AI Actとは

「AI Act (Artificial Intelligence Act)」とは欧州員会(European Commission)によるAI規制法で、EU内でAIを安全に運用するためのフレームワークとなる。欧州委員会はAIの危険度を四段階に分けて定義し、それぞれの利用法を規定した。危険なAI (Unacceptable Risk AI)はその使用を禁止する。ハイリスクなAI(High-risk AI)については、規定された対策を適用することを条件に使用が認められる。ローリスクなAI(Limited Risk AI)は表示義務を条件に使用が認められる。その他のAI(Minimal Risk AI)は無条件で利用できる。また、これらの規定に違反すると制裁金として、最大3500万ユーロか売上高の7%が課される。AI Actの特徴はAIの危険度を定義し、それに応じた運用条件を定めたことにある。

出典: European Commission

AI Actの最終合意概要

AI Actは最終合意に達したが、法令のテキストはまだ公開されておらず、その詳細は分かっていない。欧州議会は、AI Actの最終合意内容に関しニュースリリースを発表し、法令の骨子を明らかにした。それによると、AI Act最終合意概要は：

生成AI：生成AIは「General-Purpose AI (GPAI)、汎用AI」と呼ばれ、それを安全に運用するためのセーフガードが制定された
生体情報：顔認識システムを警察などが使うことを制限
ソーシャルスコアリング：消費者を格付けするAIや心情を操作するAIは使用禁止
説明責任： AIの判定理由を消費者に説明することを求める
制裁金：最大3500万ユーロか売上高の7%に増額された

生成AIに関する規制

生成AIは「General-Purpose AI (GPAI)、汎用AI」と呼ばれ、安全に運用するためのセーフガード(Safeguard)が制定された。生成AIは幅広いタスクに適用されるため、汎用AIとして定義され、その開発や運用において透明性に関する要件が制定された。システムに関する情報公開を義務付けるもので、下記の項目が規定された：

技術ドキュメントの公開
EUの著作権に準拠すること
教育で使用したコンテンツの公開

ハイリスクな生成AIに関する規制

ハイリスクな生成AI「High-Impact (GPAI)」については、更に厳しい条件が付加された。ハイリスクな生成AIとは、社会インフラや教育や医療など危険性が高い領域に適用される生成AIを指す。ハイリスク生成AIは、モデルが安全に運用されていることを報告する義務が課された。具体的には、下記の条項が義務付けられた：

モデルの評価
システムのリスクを検証し対策を実施
Red-teamingによる安全試験
重大なインシデントを報告
サイバーセキュリティ対策
モデル開発に関するエネルギー効率を報告

出典: GPT-4

顔認識システムに関する規制

AI Actは顔認識システム(Biometric Categorisation Systems)の使用を全面的に禁止した。顔認識システムを政治や宗教の目的で使うことで、個人の権利や民主主義が侵害される。また、この技術のベースとなる、顔イメージをスクレイピングして、データセットを構築することも禁止された。米国企業Clearviewは、ソーシャルメディアから顔イメージを収集し、世界最大規模の顔データセットを開発したが、この手法が明確に禁止された。

警察の使用に関する規定

一方、警察など治安当局が顔認識システムを使うことについては、特定の条件の下で、これを認める内容となった。顔認識システムは犯罪を抑止する効果があり、警察は裁判所の認可の元で、特定の犯罪に限って利用できる。リアルタイムでの顔認識システムについても、誘拐犯人の捜査など、特定の条件に限り使用が認められた。

AI Actの適用スケジュール

AI Actは最終合意に至ったが、適用計画については公表されていない。法令の施行時期は2024年と予想され、これをベースに準備が進められている。危険なAI(顔認識システムなど)については施行日の6か月後に適用され、生成AIについては1年後の2025年に適用される。その他のAIについては、2年後の2026年からの適用となる。AIの機能や性能は短期間で大きく変わり、生成AIが適用される時期に、規定の見直しが必要との意見もある。

出典: The White House

欧州と米国のAI規制のアプローチ

EU AI Actは、バイデン政権のAI規制に関する大統領令と比較して、厳しい内容となっている。EUは、AI Actや「一般データ保護規則(General Data Protection Regulation、GDPR)」など、テクノロジーから国民の権利を守る政策を取る。一方、米国は法令による規制ではなく、業界標準を定め、企業に自主規制を求める政策を取る。但し、生成AIは例外で、その危険性が甚大で、国家安全保障を脅かすため、米国政府は法令による規制を模索している。

人間の知能を遥かに上回るAIをどう制御するか、OpenAIは“スーパーアラインメント”の研究を開始し最初の成果を発表

人間の知能を遥かに上回るAIは「スーパーインテリジェンス(Superintelligence)」と呼ばれ、社会に多大な恩恵をもたらすとともに、人類存続の脅威になると考えられている。OpenAIは、10年以内にスーパーインテリジェンスが開発されると予測しており、その安全性を研究する専任部門を設立し、制御技法の研究を進めている。4年計画のプロジェクトで、その最初の成果を発表した。

出典: OpenAI

スーパーインテリジェンスとは

スーパーインテリジェンスは一般に、「Artificial Superintelligence (ASI)」と呼ばれ、人間の知能を遥かに上回るAIと理解される。厳密な定義は無いが、知的能力が高く、幅広い分野で難解な問題を解決すると期待されている。例えば、地球温暖化問題やがんなどの難病の治療法などで解法が期待されている。一方、スーパーインテリジェンスは人間の制御を逃れ、人類の弱体化や滅亡に繋がると強く危惧されている。

スーパーアラインメント

スーパーインテリジェンスは映画で登場するAIで、技術概要や開発時期について統一した見解は無い。しかし、OpenAIは、スーパーインテリジェンスは10年以内に開発されると予測しており、その安全性に関する研究を開始した。スーパーインテリジェンスを安全に制御する技法は「スーパーアラインメント(Superalignment)」と呼ばれ、AIを人間の価値観に沿うように改良する技法となる。現行の生成AIを安全に運用する技術は「アラインメント(Alignment)」と呼ばれるが、これを拡張したコンセプトとなる。

どう制御するか

GPT-4など生成AIを改良し安全性を強化する際は、人間が教師となりAIを指導する(下のグラフィックス左側)。教師である人間の知能はAIより高く、人間の常識などをアルゴリズムに教える。その代表手法が「Reinforcement Learning from Human Feedback」で、人間が正しい答えをモデルにフィードバックする。しかし、人間の知能を遥かに上回るスーパーインテリジェンスが登場すると、このモデルの安全性を如何に担保するかが重大な課題となる(下のグラフィックス中央)。超人的な知能を持つAIを人間が教育できるかが問われる。

出典: OpenAI

OpenAIの手法

OpenAIは、スーパーアラインメントの専任研究組織で、このテーマに関する研究を進めている。この組織は3月に設立され、今週その最初の研究成果を発表した。スーパーインテリジェンスは登場しておらず、実際のモデルを使って技法を開発することはできない。このため、OpenAIはスーパーアラインメントの論理モデルを構築し、その成果を計測した。小さなモデル(Weak Model)が教師となる、大きなモデル(Strong Model)の生徒を教育し、安全性を強化できるかが試験された。

試験の結果

この研究では小さなモデル(教師)として「GPT-2」(下のグラフ最上段)が、大きなモデル(生徒)として「GPT-4」(最下段)が使われた。GPT-2は生成AIの初期のモデルで、その機能は限られている。GPT-4は最も高度な生成AIで、GPT-2がGPT-4を制御できるかが試験された。GPT-2が生成するコンテンツでGPT-4の安全機能を再教育した。このアラインメントでGPT-4の安全性は向上するが、その性能は劣化する(下のグラフ、緑色)。しかし、特別な技法(Auxiliary Confidence Loss)を導入することで、本来の性能に近づけることができる(下のグラフ、紫色、GPT-3.5程度の性能を示した)。

出典: OpenAI

研究の意義

この研究では小さなモデル(GPT-2)が大きなモデル(GPT-4)を制御できる筋道が示された。これは「Weak-to-strong generalization」と呼ばれ、人間(小さなモデル)がスーパーインテリジェンス(大きなモデル)を教育する際に、この方式が適用できるかが問われる。スーパーアラインメントに関する研究の第一歩で、OpenAIはスーパーインテリジェンスが開発される間に、この課題を解く計画である。

スーパーアラインメント研究

スーパーインテリジェンスに関しては統一した定義はなく、その登場時期も様々な議論がある。しかし、OpenAIはスーパーインテリジェンス開発で大きなブレークスルーがあった、という憶測がソーシャルメディアで交わされている。CEOのSam Altmanの解任はスーパーインテリジェンスに関連すると噂されている。OpenAIは超人的なAI開発を進めており、スーパーアラインメントに関する研究が極めて重要な位置を占める。この研究に会社のリソースの20％を充てると述べており、AI開発は安全開発でもある。

Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

Googleは12月6日、生成AI次世代モデル「Gemini」を発表した。GeminiはベンチマークでOpenAIのGPT-4を上回り最先端の言語モデルとなる。Geminiは複雑なタスクをステップごとに思考する「推論機能」が強化され回答の精度が向上した。また、Geminiはテキストの他に、イメージやビデオやオーディオを理解する「マルチモダル」が導入され、視覚や聴覚を備えたモデルとなる。一方、Googleが満を持して投入したGeminiであるが、GPT-4を上回るもののその差は僅かで、生成AI開発で苦戦していることが窺われる。

出典: Google

Geminiの概要

GeminiはGoogleが開発した最大規模の言語モデルで高度な機能を持つ。Geminiの特徴は、データセンターからスマホで稼働できる構成で、三つのサイズから構成される。

Gemini Ultra：最大構成のモデルでデータセンターで使われ複雑なタスクを実行する。このモデルがGPT-4対抗機種となる。ただし、リリースは2024年1月を予定。
Gemini Pro：中規模構成のモデルで幅広いレンジのタスクを実行する。Googleのチャットボット「Bard」のエンジンとして稼働している。
Gemini Nano：最小構成のモデルでモバイルデバイスの上で稼働する。Googleのスマホ「Pixel 8 Pro」に搭載されている。

出典: Google

ベンチマーク結果

GoogleはGemini Ultraのベンチマーク結果を公開し、GPT-4の性能を上回ったことをアピールしている。標準的な32のベンチマークで、Geminiが30部門でGPT-4をうわまわり、この市場でトップの機能を持つモデルとなる。ベンチマーク結果のサマリーは下記の通り(いずれもGemini Ultraの性能)：

MMLU (massive multitask language understanding)：言語モデルの総合性能を評価するベンチマーク(下のテーブル最上段)。GPT-4を上回ったことに加え、人間の言語能力を初めて超えた。
Big-Bench Hard：言語モデルの推論機能を評価するベンチマーク(上から二段目)。GPT-4の性能をわずかに上回る。
MATH：数学の問題を解く能力を評価するベンチマーク(上から六段目)。推論機能を評価するもので、試験の中で最難関の分野。

出典: Google

推論機能

Geminiは推論機能が強化され、複雑なタスクを正確に実行することができる。推論機能とは、与えられた指示をステップごとに考察し、最終ゴールに到達するための基礎技術となる。推論機能を使うと、複雑な検索を正確に実行できる。研究者は過去の論文から、特定のテーマに関するものを検索するが、その数は膨大で選別には時間を要する。ここでGeminiを使うと、このプロセスを高速で実行できる。Geminiに、特定のテーマ(例えば非コードゲノム変異(Non-Coding Variants))に関する論文を検索するよう指示すると、推論機能を使ってプロセスを検証しながらこれを実行する。Geminiは20万件の論文を読み、指示されたテーマが書かれているものを250点選び出す(下の写真)。実行結果を表示させる指示では、過去の研究成果のグラフを入力すると、Geminiは新しい情報を反映したグラフを生成する。

出典: Google

マルチモダル

Geminiはマルチモダル機能が導入され、テキストに加え、イメージ、ビデオ、オーディオなどのモードを理解することができる。Geminiは手書きの文字を理解することができ、生徒が提出した算数の答案を採点することができる。生徒の手書きの回答(下の写真左側)を読み、正解かそうでないかを判定する。更に、間違っている個所を特定(左側赤色の枠)し、なぜ間違っているかを説明し、問題の正解を示す(右側)。このケースではマルチモダルの他に、推論機能を使って物理の問題の解法を説明する。

出典: Google

アーキテクチャ

Geminiは大規模言語モデルであるが、そのアーキテクチャはGPT-4とは大きく異なる。従来のモデルは、メディアの種類によってそれを処理するための専用ネットワークを備える。テキストを処理するネットワークや、イメージを処理するネットワークが構築され、最終的にそれを統合してマルチモダルの処理を実行する。これに対しGeminiは、単一のネットワークで異なるメディアを処理する構造となる。テキスト、オーディオ、イメージ、ビデオを単一のネットワーク(Transformer)で処理する(下の写真)。このため、Geminiはマルチモダル・ネイティブのネットワークという位置づけになる。

出典: Google

次世代モデルの開発競争

GoogleはGeminiを11月に発表すると噂されていたが、この予定が一か月延伸された形となった。しかし、Geminiのハイエンドモデル「Gemini Ultra」について製品は投入されず、製品発表に留まった。リリースは2024年1月に予定されている。GeminiはGPT-4の性能を上回るがその差は僅かで、製品開発が難航していることをうかがわせる。Geminiはマルチモダルの中でビデオを強化し、ここでGPT-4に大きく先行するといわれてきたが、発表ではその新機能は登場しなかった。OpenAIは次世代モデル「GPT-5」を開発しており、生成AIの開発競争が一段と激化する。

OpenAIはAGIに到達するブレークスルーを達成？ネットで飛び交う##未確認情報##

OpenAIは11月29日、Sam AltmanがCEOに復帰し、取締役会が新体制で始動したことを発表した。これで一連の騒乱が正式に決着したが、ソーシャルメディアで、OpenAIがAGI(人間レベルのAIエージェント)に到達する革新技術を掴んだとの情報が飛び交っている。これは「Q*(Q-Star、キュースター)」と呼ばれ、大規模言語モデルが推論機能を備え、人間のように思考するAGIに繋がるとしている。OpenAIは何もコメントしておらず、これらは未確認情報であるが、AGIの発表が目の前に迫っていると噂されている。(下の写真、OpenAIのAGI発表イベントのイメージ、GPT-4で生成。)

出典: VentureClef

Q*とは

複数のメディアは、Sam Altmanが解任される前に、OpenAIの研究者が取締役会に、「AI開発で画期的な進展があった」ことを報告した、と報道した。この革新技術が「Q* (Q-Star)」で、AI開発のブレークスルーとなる。Q*は大規模言語モデルの知能を格段に向上させ、人間レベルのAIエージェント「AGI (Artificial General Intelligence)」に繋がる技術となる。取締役会は、OpenAIがAGIを生み出すことで、人類が重大な危機にされされ、これを懸念してAltmanを解任した。

Q*と数学の問題

Q＊は推論機能(Reasoning)を持つ大規模言語モデルで、数学の問題を解く能力が格段に向上したとの解釈がある。数学の問題を解くことが、AGIにむけたブレークスルーになる。数学の問題を解くには、与えられた問題をステップごとに考察し、解法を導き出すプロセスとなる。「数学は推論のベンチマーク」といわれ、AIがステップごとに推論を重ね、最終的に解を導き出す能力が試される。更に、推論機能を拡張することで、数学の問題だけでなく、その他のタスクを実行する。例えば、AIが独自でプログラムを作成し、また、ドキュメントを読んで、そこから結論を引き出すなど、知的なプロセスを実行する。

GPT-4は数学の問題を解けない

AIにとって数学の問題を解くのが難しい理由は、ここに統一した解法は無く、個々の問題に応じて、推論機能を使い、解を導き出す必要があるため。実際に、数学の問題をGPT-4に入力すると、殆ど解を見つけることができない。司法試験にはトップ10％の成績で合格するが、数学に関しては高校生に及ばない。

GPT-4に数学の問題を入力すると

実際に、GPT-4に数学の問題「Simplify tan 100°+ 4sin 100°」を入力すると(下の写真左側)、「approximately −1.73205080756888, which is the negative square root of 3, or −√3」と回答した(右側)。これは、正解であるが、解を導いたステップを読むと、GPT-4はPythonのコードを生成し、ライブラリで数値を計算している。これは、”電卓”で問題を解く方法と同じで、スマートな思考回路とは言えない。

出典: VentureClef

同じ問題を次世代のGPT-4で解くと

OpenAIはGPT-4の機能強化を進めており、問われたことに正しく回答するための新たな技法を開発している。(OpenAIはブログ「Improving mathematical reasoning with process supervision」でこの技法を発表)。この技術は「Process Supervision」と呼ばれ、GPT-4が解を正しく導き出すために、思考回路を人間が検証する手法となる。GPT-4は問われたことに対し、ステップごとに考察し、それぞれのステップを人間が検証し、その結果をモデルフィードバックする。因みに、現在の手法は「Outcome Supervision」といわれ、最終解を人間が検証する手法を取るが、Process Supervisionは思考回路の各ステップで検証結果をフィードバックする。Process Supervisionは数学の問題を解くことに適しており、OpenAIはその結果を公開した(下のグラフィックス)。上述の問題「Simplify tan 100°+ 4sin 100°」を入力すると、GPT-4はステップごと(緑色の部分、26ステップから構成される)に推論を重ね、結論を導き出す。ここでは”電卓”は使わず、人間のような思考方法で解答を導きだした。

出典: OpenAI

ネットで飛び交う未確認情報

ソーシャルメディアで、Q*とは何か、憶測が飛び交っている。その一つが、上述の「Process Supervision」で、この技術開発でブレークスルーがあり、高度な推論機能を持つ大規模言語モデルがQ*であるとしている。Q*により、モデルは数学の問題を解くだけでなく、幅広いタスクを実行でき、これがAGIの基礎機能になるという解釈である。

Yann LeCunの解釈

MetaのチーフサイエンティストであるYann LeCunもQ*に関してコメントしている(下の写真)。『Q*の信ぴょう性とは別に、大規模言語モデルの次のゴールは「言葉の推測機能」を「プランニング機能」で置き換えること』と述べている。言葉の推測機能は「Auto Regressive Token Predction」と呼ばれ、GPT-4など大規模言語モデルは、入力された言葉に続く次の言葉を予想する機能を備えている。このシンプルな予想機能が現在のブレークスルーに繋がった。この次のステップは、大規模言語モデルが人間のように、タスクを完遂するために必要なステップを計画「Planning」する機能の開発となる。これがグランドチャレンジで、OpenAIやMetaやGoogleは、次世代モデルの開発で、このテーマにフォーカスしている。

出典: Yann LeCun @ X

AGIのリリースが迫る

OpenAIは取締役会のメンバーを入れ替え、新たな体制でAI開発を進めているが、AGIの危険性を過度に危惧する役員が退任したことで、次世代モデルの開発が加速されると予想されている。OpenAIのAGIの製品発表は間近に迫っているとの予想もあり、AI開発は新たなステージに入った。

Emerging Technology Review

シリコンバレーからの最新技術レポート

月別アーカイブ: 2023年12月

欧州連合はAI規制法「AI Act」で最終合意に至る、生成AIは技術情報の公開が求められる、顔認識技術の運用は厳しく制限される

人間の知能を遥かに上回るAIをどう制御するか、OpenAIは“スーパーアラインメント”の研究を開始し最初の成果を発表

Googleは生成AI次世代モデル「Gemini」を投入、ベンチマークでGPT-4を上回るがその差は僅か、キーワードは「推論機能」と「マルチモダル」

OpenAIはAGIに到達するブレークスルーを達成？ネットで飛び交う##未確認情報##