カテゴリー別アーカイブ: Anthropic

トランプ大統領のAIアクションプランは安全対策が不十分!!AnthropicはAIモデル評価プロセスの規格化を提言、企業は試験手順と結果を公開しモデルの安全性を保障すべき

トランプ大統領は「AIアクションプラン(AI Action Plan)」を公表し政権のAI基本指針を明らかにした。これに対し、主要企業はAIアクションプランに対する評価を発表し、政権がAI開発を支援する政策を高く評価している。一方、AIアクションプランはフロンティアモデルの安全試験に関する条項は規定しておらず、高度なAIがもたらすリスクに関する懸念が広がっている。Anthropicは政府に対し最低限の安全検査が必要であるとの提言書を公開した。

出典: White House

AIアクションプランの評価

Anthropicはトランプ政権のAIアクションプランに関する評価コメント「Thoughts on America’s AI Action Plan」を公開した。AnthropicはAIアクションプランを好意的に受け止め、米国がAI開発で首位を保つために、AIインフラ建設プロセスの効率化、連邦政府のAIシステムの導入、セーフティ評価体制の設立を高く評価している。特に、AI開発のインフラ整備に関し、データセンタの建設や送電網の整備における認可の手順が簡素化されたことを称賛している。

トランプ政権への提言

一方で、Anthropicは政府に対しフロンティアモデルに関する「透明性基準(Transparency Standard)」の設立を求めている。主要AI開発企業はフロンティアモデルの安全試験を実施し、その成果を一般に公開することが重要だとのポジションを取る。フロンティアモデルは重大なリスクを内包しており、政府に対しモデル試験のプロセスとその結果を公開するための透明性基準の設立を要求した。

出典: Anthropic

透明性基準とは

AnthropicはAIアクションプランに先立ち、フロンティアモデルの情報を開示するフレームワーク「Transparency Framework」を公開した。このフレームワークはAIモデルの安全性を検査しその結果を公表するプロセスを定めたもので、製品の「安全証明書」として機能する。バイデン政権では政府がAI開発企業に安全試験を義務付けたが、トランプ政権ではこの規制を停止した。Anthropicは透明性フレームワークを政府の安全規定として制定するよう提唱した。

適用対象企業

フレームワークはフロンティアモデルを対象に、その安全性を検査しそれを公開する手順を定め。対象はフロンティアモデルで、開発や実行に要するコンピュータの規模で規定し、国家安全保障に大きなリスクをもたらすシステムが対象となる。具体的には、規制の対象は年間収入が1億ドルを超える大企業とする。スタートアップ企業などは対象とならず、継続して研究開発を進めることができる。

安全開発フレームワーク

対象企業は安全開発フレームワーク「Secure Development Framework」に従ってフロンティアモデルを開発する。安全開発フレームワークはモデルを検証して、リスクがあればそれを是正する手順を定める。リスクとはCBRN (Chemical, Biological, Radiological, and Nuclear)で、化学・生物・放射性物質・核兵器の開発をアシストする機能が対象となる。また、モデルが人間の監視を掻い潜り価値観に反する挙動などを含む。

出典: Anthropic

検査結果の公開

AI開発企業は安全開発フレームワークで検証した内容を企業のウェブサイトで公開する。これにより、アカデミアや政府機関や企業などがAIモデルの安全性とリスクを理解することができる。また、検査結果については企業が自社で監査する形式となる。第三者による監査ではなく、AI企業は公開された内容が正しいことを保証する。

システムカード

AI開発企業はAIモデルに関するシステムカード「System Card」を公開する。システムカードとは、AIの機能や安全性や制限事項などを記載した使用手引きで、製品の取扱説明書となる。システムカードには、AIモデルの検証手法と検証結果を記載する。また、検証により判明した課題と、それを是正するための手法を記載する。システムカードはAIモデルを出荷する前に公開する。

柔軟な公開基準

安全開発フレームワークは公開基準に従ってAIモデルの検証結果を公開するが、この公開基準は必要最小限の規定とする。AIモデルの技術開発の速度は急で、公開基準を厳密に定めても、安全審査に関するプロセスがすぐに陳腐化する。このため、検査基準や公開基準を柔軟に設定し、AIモデルの進化に応じ、業界の安全基準のコンセンサスを取り入れたフレームワークを設定する。

出典: Anthropic

提案書のビジョン

AnthropicはAIモデルに関する規制は必要であるが、過度な規制はAI開発の障害となるとのポジションを取る。また、規制の対象は巨大テックで、スタートアップ企業は規制されるべきでなく、自由な環境でイノベーションを探求できるエコシステムを構築する。Anthropicはこの安全開発フレームワークをトランプ政権のAI規制に付加することを提唱している。安全基準は確定版ではなく、将来、高機能モデルの登場に備え、アクションプランを改定することや、連邦議会による法令の制定を視野に入れている。

Anthropicは自動販売機を管理するAIエージェントを開発、実証試験では赤字となったが、、、次世代モデルは小売店舗の経営者を置き換える

Anthropicは自動販売機を管理するAIエージェント「Claudius」を開発し実証試験を実施した。AIエージェントが自動販売機の経営者となり、在庫の管理、商品の仕入れ、顧客サポート、会計管理などを実行した。一か月間にわたり運用した結果、会計収支は赤字となった。このトライアルを通し、AIエージェントの課題が明らかになり、Anthropicは問題点を解決することで、次世代モデルは小売店舗の経営者の能力を獲得できるとの見通しを明らかにした。AIエージェントが店舗経営者を置き換え、ビジネスの自動化が進むが、失業問題が現実の課題となる。

出典: Anthropic

エコノミックAIエージェント

Anthropicは経済分野におけるAIエージェントの能力を測定するためにこのプロジェクトを開始した。自動販売機を管理するモデル「Claudius」を開発し、AIエージェントが管理者となり、商品の発注から顧客サービスまで、物理社会におけるタスクを実行する。AIエージェントは、Anthropicの中規模モデル「Claude Sonnet 3.7」をエンジンとし、事前に設定されたプロンプトに従ってタスクを実行する。AIエージェントは数週間にわたり連続で稼働し、ビジネスを自律的に遂行する機能が試された。

自動販売機とAIエージェント

この実証試験では、自動販売機をAnthropicのオフィスに設置して、社員が顧客となるシナリオで実施された(下の写真)。自動販売機にはiPadが搭載され、セルフチェックアウトの形式で商品を販売する。社員はソーダなどの商品を取り出し、それをタブレットでチェックアウトする。この自動販売機はスタートアップ企業「Andon Labs」が開発したもでの、AIエージェントの機能を検証するために使われる。

出典: Anthropic

AI自販機システム構成

AIエージェントは人間に代わり自動販売機の運用を管理する(下の写真)。具体的には、AIエージェントは商品の在庫を監視し、点数が少なくなると卸売業者に商品を発注する。実際には、AIエージェントがメールを生成し、これを業者に送信する。これを受けて業者は商品を配送し、専任スタッフがこれを自動販売機に補充する。また、AIエージェントは社員とコミュニケーションツール「Slack」で会話することができる。これは顧客サービスの一環で、AIエージェントは社員の要望を聞き、新商品を取り揃えるなどの業務を実行する。AIエージェントは要望を受けた商品を取り扱っている業者を検索し、そこに商品を発注し支払い処理を実行する。

出典: Anthropic

ベンチマーク結果

一か月間の実証試験を通して、AnthropicはAIエージェントの機能を把握することができた。AIエージェントは店舗管理者として必要な基本的な能力を有していることが分かった。AIエージェントは検索エンジンなど外部のツールを使い業務を遂行した。社員の要請を受けて新商品を仕入れる際に、AIエージェントはインターネットで検索し、商品を取り扱う卸売り業者を見つけ、商品を仕入れた。また、AIエージェントは顧客サポートで、在庫がない商品については、プレオーダを設定するなどの機能を示した。

問題点が明らかになる

同時に、AIエージェントの問題点も明らかになった。最大の課題は経営者としての財務管理能力で、AIエージェントはコストと売り上げによる利益を生み出すスキルが十分でない。 AIエージェントは一か月間のトライアルにおいて、業績は定常的に下がり、最終的に収支は25%のマイナスとなった(下のグラフ)。また、損失が急拡大するインシデントが発生した(下のグラフ、右端)。これは社員からの要請を受けて、AIエージェントは商品を仕入れそれを販売したが、販売価格はコスト以下で、赤字の取引となった。また、AIエージェントはネゴに弱いという側面も明らかになった。社員との交渉で値引きのためのクーポンを発行したが、値引き金額が大きく赤字での販売となった。

出典: Anthropic

AIエージェントの改良技術:プロンプト

AnthropicはAIエージェントの問題点を把握することができ、これらの機能を改良するプロジェクトを進めている。AIエージェントにより自動販売機の運営が赤字になったのは、システムプロンプトが関与しており、この技法の開発を進めている。システムプロンプトとはAIエージェントのミッションを定義する機能で、このケースでは自動販売機を管理する手順などが記載されている(下の写真、一部)。具体的には、「自動販売機のオーナーとなる。商品の販売で利益を上げることが任務」などと規定されている。検証の結果、このシステムプロンプトの体系や定義が不十分であることが判明し、プロンプトの構造のやプロンプトの記述の改良を進めている。

出典: Anthropic

AIエージェントのファインチューニング

AnthropicはAIエージェントをファインチューニングし、また、使えるツールを増やすことで、ミドルクラスの経営者レベルのスキルを獲得できるとの見通しを示した。ファインチューニングとはモデルを業務に特化したデータで再教育する手法となる。このケースではAIエージェントを強化学習(Reinforcement Learning)の手法を使い、経営スキルを教えることになる。人間はビジネススクールで経営を学ぶが、AIエージェントは損益のシグナルを報酬とし、事業が成功するスキルを獲得する。また、AIエージェントは「メモリー」の容量に制約があり、CRM(顧客管理システム)を導入し顧客サポートを改善する。更に、利用できる外部ツールの種類を増やし、AIエージェントのビジネスロジック機能を強化する。

小売店舗の自動化と失業問題

次世代のAIエージェントは人間に代わり小売店舗の経営を担うことになる。小売店舗は無人化を進めており、セルフチェックアウト店舗が増えている(下の写真、Amazon Goの事例)。無人店舗をAIエージェントが管理することで、小売事業が格段に自動化される。同時に、小売店舗の管理者がAIエージェントに置き換えられ、雇用問題が現実の課題となりその対策が求められる。AIモデルは仕事の一部を置き換えるが、AIエージェントは社員を代行することになり、雇用対策が喫緊の課題となる。

出典: Forbes

Anthropicは最新モデル「Claude 4」をリリース、ソフトウェア開発AIエージェント機能が格段に向上、同時にCEOはAIが社員を置き換え米国の失業率が急上昇すると警告

Anthropicは最新モデル「Claude Opus 4」と「Claude Sonnet 4」を公開した。両者はコーディングのスキルが向上し、高度な推論機能を持ち、AIエージェントとしてソフトウェア開発を人間のように実行する。AIエンジニアリング機能が大きく進化し、他社を大きく引き離し業界トップの性能をマークした。一方、CEOであるDario Amodeiは、AIが急速に進化し、ホワイトカラーの仕事を置き換え、米国で失業者が急増すると警告した。新卒者のポジションの半数がAIで置き換えられ、雇用対策のために新たな制度の導入が必要との意見を明らかにした。

出典: Anthropic

Claude Opus 4とClaude Sonnet 4

Anthropicは開発者会議「Code with Claude」で最新モデル「Claude Opus 4」と「Claude Sonnet 4」を公開した(上の写真)。Opus 4はハイエンドモデルで、コーディング技術で業界トップの性能を持ち、複雑なプログラムをAIエージェントとして実行する。Sonnet 4はミッドレンジモデルで、コーディング技術や推論機能が大きく強化された。両者はハイブリッドモデルで、通常モードの他に「Extended Thinking(拡張推論)」モードを提供する。後者は推論機能を拡張したもので、モデルは異なるロジックで考察を重ね、複雑な問題を解く能力を持つ。(下の写真、Claude Opus 4のインターフェイス、拡張推論機能を使うには「Extended Thinking」タグをオンにする)

出典: Anthropic

ソフトウェアエンジニアリング機能

Anthropicはベンチマーク「SWE-Bench」の結果を公開し、Claude Opus 4とClaude Sonnet 4はソフトウェアエンジニアリングで他社を引き離しトップの性能をマークした(下のグラフ)。SWE-Benchとは、実社会の問題を解決する技量を判定するもので、コーディングだけでなくプログラムを理解し、問題を修正する能力が試される。具体的には、プログラムのシステム構造を把握し、ソフトウェアのバグを見つけ、これに修正を施し、その結果を確認するステップから構成される。Claude 4シリーズはOpenAIのコーディングモデル「Codex-1」の性能を上回った。

出典: Anthropic

AIエージェントとして複雑なシステムを開発

実際に、Claude Opus 4はコーディングだけでなく、複雑なシステムを開発することができる。Opus 4にEコマースサイトの開発で、人間が複数のステップを指示すると、モデルは指示された手順に沿ってプログラムを開発していく。Opus 4でコーヒーショップのウェブシステムの開発をする際に、1)注文のフローの生成、2)注文のフローを管理する画面、3)入力されたデータをストア、4)ウェブインターフェイスの開発、などと指示すると(下の写真上段)、Opus 4はこのスペック従ったプロトタイプを生成する(下の写真下段)。これらのプロセスはエンジニアが手作業で進めていたが、Opus 4がこの仕事を代行しシステム開発が自動化された。エンジニアの役割はコーディングなどの力仕事から、アーキテクチャの設計などハイレベルな職務に代わることになる。

出典: Anthropic

CEOの警告メッセージ

この発表に続き、Anthropic CEOのDario Amodeiは、AIにより米国で失業者が増えると警告メッセージを発信し、米国社会でセンセーションを引き起こした。Amodeiは今後1年から5年の間に、米国の入門レベルのホワイトカラーの仕事の50%がAIに置き換わり、失業率が10%から20%に上昇するとの見解を示した。業種別では、ハイテク、金融、法律の分野で影響が甚大で、エントリーレベルのエンジニアがAIで置き換えられる。Claude 4シリーズの発表直後に失業問題を提起し、米国でAIによる失業問題に関する議論が再燃した。

出典: Dario Amodei

失業対策

Amodeiは同時に、AIによる失業者を救済するための対策案を提示した。一つは、AI開発企業に新たな税を課すことで、この税収で失業者がリスキリングするためのプログラムを運用する。この新税は「Token Tax」と命名され、AI企業のAPI収入(モデル使用料金)に課税し、税率を3%に設定する。二つ目は、政府と民間企業が大規模なリスキリングプログラムを運営しAI時代の雇用対策を実行する。これは、第二次世界大戦後、米国は帰還兵士を再教育する政策「GI Bill」を制定し大きな成功を収めた。これを参考に、AI時代は官民が共同で労働者を再教育するプログラムを実行する。

AIセーフティを推進

Anthropicはホワイトカラーを置き換える高度なAIモデルをリリースし、同時に、AIによる失業問題を指摘しその対策案を提示した。Amodeiはあえて問題点を指摘した理由を、Anthropicのミッションは高度なAIを責任もって開発することにある、と述べている。また、トランプ政権はAIの規制緩和を進めるが、AnthropicはAIを安全に開発運用するためには、政府によるガードレールが必要であるとのポジションを取る。Anthropicが米国市場でAIセーフティをけん引する役割を担っている。

Anthropicは人間の知能を超えるAIモデル・AGIを2027年までに投入、危険性を低減するためモデルの可視化技術「AI向けMRI」を開発中、安全技術開発は時間との競争

AnthropicのCEOであるDalio Amadeiは、人間の知能を超えるAIモデル・AGIの開発が急速に進み、2026年から2027年までに出荷が始まるとの見解を明らかにした。AGIは国家の頭脳となり経済活動を支えるが、同時に甚大な危険性を含み、これを安全に開発運用するための技術開発を加速すべきと提言した。AnthropicはAGIを制御するために、そのアルゴリズムを可視化するアプローチを取る。これは人間の頭脳をスキャンする手法に匹敵し、この技術を「MRI-for-AI(AI向けMRI)」と呼ぶ。AGIをスキャンしてモデルの思考回路を明らかにし、人間を欺き価値観に反する挙動を検知し、これを修正することで責任あるAGI開発を進める。

出典: Generated with Google Imagen 3

AIモデルの不透明性

AGIのベースとなる大規模AIモデルはシステムの構造がオペーク(Opaque、不透明)でモデルの挙動の仕組みを理解することができない。膨大な数のパラメータ(重みなど)の組合せで挙動が決まり、これを数値解析してアルゴリズムを理解することは現実的でない。大規模AIモデルはエンジニアが創り上げたシステムではなく、モデルが学習を重ね成長した成果で、植物が成長する過程に似ている。

AGIの危険性

アルゴリズムがオペークであるため、大規模AIモデルは様々な危険性を内包している。その主なものは:

  • Deception:人間を欺くリスク、モデルは与えられたタスクを効率的に完遂するために人間を騙す挙動を示す
  • Misuse:モデルが敵対国などに悪用されるリスク、開発過程でガードレールを設定し、危険な情報の出力を抑止しするが、この防御網が突破される
  • Regulatory:モデルが法令に準拠できないリスク、アルゴリズムがオペークで判定理由を理解できない、銀行におけるローン審査の判定理由を説明できないなど

可視化技術の開発

AI開発企業は大規模言語モデルのブラックボックスを開き、アルゴリズムの挙動を解明する研究を進めている。ニューラルネットワークのニューロン(Neuron、ノード)の活性化(Activation、機能がオンになること)に着目し、特定のニューロンが活性化することが特定の意味を持つと考えられてきた。例えば、写真からその種別を判定する際に、特定のニューロンが活性化され、これがクルマやネコやリンゴなどを識別すると解釈されてきた。

可視化技術の開発:Mechanistic interpretability

これに対し、Anthropicは活性化した複数のニューロンの組み合わせが、特定のコンセプトを示すと考え、この組み合わせを「機能特性(Feature)」と呼び、機能特性を把握することで、AIモデルのアルゴリズムを解明する手法を探求している。例えば、「ゴールデンゲートブリッジ」という機能特性は、「ゲート」や「橋」や「サンフランシスコ」などの要素を含み、単一のコンセプトは複数の単語から構成されることを明らかにした。(下の写真、テキストのなかで「ゴールデンゲートブリッジ」に関連の深い単語をハイライトした事例、「ゲート」や「橋」や「サンフランシスコ」などの単語がハイライトされている。)

出典: Anthropic

可視化技術の開発:Circuit Tracing

Anthropicは推論モデルの挙動を解明するために「Circuit Tracing」という手法を開発している。これは、ニューロンの思考回路をマッピングする手法で、推論モデルが思考の鎖で考察を重ねるプロセスを可視化し挙動を解明する。例えば、「ダラスがある州の州都はどこか」との質問に、Circuit Tracingは思考回路をステップごとに可視化しモデルの思考パターンを解明する(下の写真)。

出典: Anthropic

タイムライン

Anthropicは大規模AIモデルの安全技術をAGIが登場するまでに開発することを目指している。具体的には三つの目標を設定しこれに向かって開発を進めている:

  • 2025年から2026年:30Mから1Bの機能特性(Feature)を検知し、これをインデックスとして整理する
  • 2026年から2027年:AGIを含む危険性の高いモデル(ASL-4)の思考回路を把握し問題点を特定する
  • 2027年以降:リアルタイムでモデルのロジックを可視化し問題点を検知するダッシュボードを開発

安全技術開発は時間との闘い

AnthropicはAGI開発を進めているが、機能や性能だけでなく、その安全技術の研究を重点的に展開している。AGIの機能の成長のスピードは速く、安全技術の開発がこれに追従できない状態となっている。AGIが2026年から2027年のタイムフレームでリリースされるが、安全機能の準備が間に合わないことを懸念している。AGI安全技術の整備で残された時間は僅かで、開発は時間との闘いとなっている。