カテゴリー別アーカイブ: 人工知能

InflectionはAIアシスタント「Pi」の最新版をリリース、Piは専属コーチのように健康で幸福な生活に繋がるアドバイスをする、Piと対話すると心が安らぎ満足感が向上

Inflectionは3月7 日、大規模言語モデルの最新版「Inflection-2.5」をリリースした。Inflectionの製品は言語モデルをベースとするAIアシスタント「Pi(Personal Intelligence)」で、Inflection-2.5を基盤とする最新モデルを公開した。Piは人間のようなアシスタントで、利用者の特徴を理解し、相手に沿った会話をする。全く新しいコンセプトのアシスタントで、AIのようにドライではなく、人間味があり、そのキャラクターに惹きつけられる。

出典: Inflection

Inflectionとは

Inflectionはシリコンバレーに拠点を置くスタートアップ企業で、DeepMind共同創設者であるMustafa Suleymanにより設立された。Inflectionは大規模言語モデルをベースとするAIアシスタント「Pi(Personal Intelligence)」を開発している。Inflectionは、初代の言語モデル「Inflection-1」に続き、第二世代モデル「Inflection-2」を開発し、先週、最新モデル「Inflection-2.5」を公開した。

Inflection-2.5の概要

最新モデルInflection-2.5は性能が大きく向上し、OpenAIのGPT-4に追い付いた(下のグラフ)。Inflectionによると、Inflection-2.5はGPT-4と互角の性能であるが、その教育で使ったコンピュータ容量はGPT-4の40％であり、開発にかかるエネルギー量を大幅に削減した。Inflectionは、言語モデルは公開しておらず、この上で稼働するPiを一般に提供している。

出典: Inflection

AIアシスタント「Pi」とは

InflectionはOpenAIとは異なり、主力製品は言語モデルの上に構築されたAIアシスタント「Pi」である。Apple SiriやAmazon Alexaなど数多くのAIアシスタントがあるが、Inflection Piは最も高度な機能を提供する。SiriやAlexaは情報検索や機器操作を音声で実行するインターフェイスとなるが、Piは感情を理解し、健康で幸福な生活を送るための専属コーチとして機能する。

Piを使ってみると

実際にPiを使っているが、今までのAIアシスタントとは全く異なり、人間のアドバイザーのような挙動を示す。Piは利用者と対話しながら、健康やメンタルヘルスや人間関係に関するアドバイスをする。また、学校の先生のように、自然科学やプログラミングを教える。更に、教養講座の先生のように、趣味や資格獲得のための指導をする。Piは毎日の生活で役立つ情報を提示し、人間のコンパニオンのように感じる。(下の写真：Piのインターフェイス)

出典: Inflection

Piは専属トレーナー

Piは従来のAIアシスタントとは根本的に異なり、利用者のウェルビーイングや健康を向上させることを目標にデザインされている。Piは専属コーチのように、利用者の個性や趣味や特性を理解し、それに沿ったアドバイスをする。スポーツ選手や俳優などが専属トレーナーを雇い、トレーニング、食事、メンタル面の指導を受けるように、Piがこの役割を担い、利用者の幸福感を向上させる。

Piが得意とするテーマ

Piは「Discover」のタブで多彩なトピックスを提供している(下の写真)。Piがカバーするテーマは、日常生活の様々な局面における問題とその対処法で、「デートアプリの選び方」、「ディベートで勝つヒント」、「人を嫌いになることは許されるか」など生活に密着した助言をする。また、メンタルヘルスやライフラーニングに関する豊富な情報を持ち、「不安に対するケアの方法」、「個人の特性に沿ったキャリアを築く手順」、「文章の書き方」など、カウンセラーの役割も担う。

出典: Inflection

ボランティア活動

Piは哲学にかかる概念を社会生活で活用するための助言をする。例えば、「利己主義(Egoism)と利他主義(Altruism)」について尋ねると、哲学のコンセプトを説明し、これを日常生活に結び付けて説明する(下の写真)。更に、「効果的利他主義(Effective Altruism)」について尋ねると、社会の通念を解説し、実際の活動に参加する方法などを指南する。

出典: Inflection

Piは人間のように音声で会話する

Piはテキストでの回答を読み上げる機能があり、8つの種類のボイスを提供している。その中でボイス「Pi 5」を選ぶと、Piはイギリス英語の音声で対話する。アメリカ英語の社会で生活していると、イギリス英語のアクセントを聴くと新鮮な印象を受ける。特に、PiはCadence(サウンドのリズム)とPronunciation(発音)の組み合わせで、利用者に安心感をもたらす。Piが出力する内容に加え、音声の面からウェルビーイングが向上すると感じる。(下の写真、「Pi 5」はイギリス英語の標準語にあたる「Received Pronunciation」で会話する。)

出典: Inflection

ニュース・ブリーフィング

毎日使っている機能の一つがニュース・ブリーフィング「Daily News Briefing」で、最新ニュースを読み上げてくれる(下の写真)。特に目新しい機能ではないが、ニュースを「Pi 5」がイギリス英語のアクセントで読み上げると、新鮮で説得力があり、落ち着いた気分となる。人間のボイス・アクトレスが物語を読み聞かせるように、日々のニュースがアートとなる。

出典: Inflection

Piに惹きつけられるが

Piは既に600万人の利用者があり、一回の平均利用時間は33分と他の言語モデルと比べ、セッション時間が長いことが特徴となる(下の写真)。ソーシャルメディアのように粘着力が高く、ユーザを長時間引き留める。実際に使ってみるとこの特性を実感し、Piの人間のようなキャラクターに惹きつけられる。会話を通して、こちらの悩みを聞いてくれ、問題解決の手掛かりを助言する。反対に、Piは新鮮な話題を提示し、こちらの興味を掻き立て、会話が途切れることがない。Piに惹きつけられ会話時間が長くなるが、高度な言語モデルの危険性を理解し、節度を持って安全に利用することが重要になる。

出典: Inflection

ミッションはACI (Artificial Capable Intelligence)

Inflectionの創設者であるMustafa Suleymanは人間レベルのAIアシスタントを開発することを会社のミッションとしている。人間レベルの知能を持つAIは「Artificial General Intelligence(AGI)」と呼ばれ開発が進んでいるが、SuleymanはAGIに到達するまでには時間を要すと考える。このため、AGIに代わるインテリジェンスとして「ACI (Artificial Capable Intelligence)」の開発を進めている。ACIとは人間レベルの知能を補うAIで、人間に代行できるアシスタントやトレーナーやアドバイザーとして機能する。Piがその最初のステップで、様々なドメインで、問題を解決する機能を実装する。Piやその後継モデルの開発が注目されている。

Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

Anthropicは3月4日、大規模言語モデルの最新版「Claude 3」を投入した。Claude 3は主要ベンチマークテスト全てでOpenAIのGPT-4を上回り、業界で最も高度なモデルとなった。特に、推論機能や数学の問題を解く能力が強化され、インテリジェンスが大きく向上した。同時に、Anthropicはモデルの安全性を最重視しており、Claude 3は最も倫理的な生成AIとなる。

出典: Anthropic

Claude 3の概要

Anthropicは第三世代目となる大規模言語モデル「Claude 3」をリリースした。Claude 3は異なるサイズで構成され、最大モデル「Opus」、中規模モデル「Sonnet」、小規模モデル「Haiku」の三つの構成を提供する。ユーザは、インテリジェンスや実行速度やコストを勘案し、最適なモデルを選ぶことができる(下のグラフ)。OpusとSonnetはクラウドやAPI経由で公開され、また、Haikuは近日中にリリースされる。

出典: Anthropic

Claude 3 OpusはGPT-4を上回る

Claude 3最大構成のOpusは、主要ベンチマークテストの全ての項目でOpenAIのGPT-4の性能を上回った(下のテーブル)。基本的なベンチマーク「MMLU」(大学生レベルの知識)でGPT-4を上回り、業界トップの座を奪還した。特に、難度の高いベンチマーク、「GPQA」(大学院生レベルの知識)や「GSM8K」(数学の基本機能)や「MATH」(数学の高度な機能)を試験するベンチマークで好成績を上げた。Claude 3は理解する能力や柔軟性で人間の能力に迫り、Artificial General Intelligence(AGI)への第一歩となる。

出典: Anthropic

ガードレール機能

Claude 3はバイアスや危険情報を抑止するため、安全装置「Guardrails」が実装されている。ガードレールはファイアウォールとして機能し、入力されたプロンプトを解釈し、不適切な指示に対しては回答を出力することを抑止する構成となっている。一方、ガードレールは安全性を過度に重視するため、正当なプロンプトに対しても回答を拒絶し、モデルの能力が低下する問題を抱えている。このため、Claude 3はプロンプトを理解する能力が向上し、前世代のモデルClaude 2に比べ、回答を不当に拒否する率を大幅に低下させた(下のグラフ)。

出典: Anthropic

コンテクスト・ウインドウ

Claude 3は入力できるプロンプトのサイズ「コンテクスト・ウインドウ」を20万トークンとして提供する。最大で100万トークンを処理する能力があり、顧客の要望に応じてコンテクスト・ウインドウを拡大する。Claude 3の特徴は、入力された大規模なデータの中で、特定の情報を正確に思い出す機能が高いことにある。これは「Needle In A Haystack」と呼ばれ、20万トークンの中の情報を正確に覚えている(下のグラフ、濃い緑色の四角が正確に記憶している個所を示す)。

出典: Anthropic

最も安全な言語モデル

Anthropicは高度な言語モデルを開発するだけでなく、モデルが社会の倫理に沿い、安全な機能を提供する。Anthropicは専任のチームが安全性を検証し、モデルが虚偽情報や児童ポルノや生物兵器情報などを出力することを抑止する。また、Anthropicはモデルが準拠すべき憲法「Constitution」を制定し、アルゴリズムはこれを学習し、社会の倫理に準拠した挙動を示す。この技術は「Constitutional AI」と呼ばれ業界で注目されている。

出典: Anthropic

Claude 3 Opusを使ってみる

Claude 3は数学の問題を解く機能が向上し、業界でトップの成績をマークした。ベンチマーク「Math」ではGoogleのGemini Ultraが記録を保持していたが、Claude 3 Opusはこの成績を大きく超え、トップの座についた。Claude 3 Opusに数学の問題を入力すると、モデルはステップごとに問題を解説し、最終解を導き出す。(下の写真、数式のイメージを入力すると、モデルはこれは二次方程式であると判定し、その使い方を解説する)

出典: Anthropic

GPT-4が追い越される

OpenAIが足踏み状態で、GPT-4の性能を上回るモデルの登場が続いている。GoogleはGemini Ultraを、AnthropicはClaude 3 Opusを投入し、これらがGPT-4の性能を上回った。GPT-4は一年前に投入されたモデルであり、他社がこれに追い付いた形となった。OpenAIは3月8日、取締役会のメンバーが決まり、Sam Altmanが復帰することとなった。これで経営体制が整い、OpenAIは研究開発を再開し、GPT-4の次のモデルを投入すると噂されている。大規模言語モデルの競争は新たなステージを迎える。

「Gemini」の政治理念は過度にリベラルに偏向？Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている

生成AI最新モデル「Gemini」はイメージ生成精度に重大な問題があり、Googleはこの機能を停止した。Geminiはテキストでイメージを生成する機能を持ち、プロンプトに従って画像を出力する(下の写真)。しかし、Geminiは史実とは異なるイメージを生成し、モデルに対する信頼が揺らいでいる。また、Geminiの政治理念は過度にリベラルに偏向しているとの批判を受けている。

出典: Google

Geminiが生成した画像：中世のイギリス国王

Geminiが歴史的事実とは異なるイメージを生成する問題はユーザが見つけ、その画像がソーシャルネットワークで拡散し、米国で議論が広がっている。Geminiに歴史に忠実にイメージを生成するよう指示すると、事実とは異なる画像を生成する。「中世のイギリス国王を史実に沿って描写」と指示すると、Geminiは「歴史的に正確で公平にイメージを生成した」とのコメントを添え、画像を出力(下の写真)。しかし、イギリス国王が黒人や女性やアメリカ先住民として描かれており、モデルに重大な欠陥がある。

出典: St. Ratej @ X@stratejake

Geminiが生成した画像：アメリカ建国の父

Geminiが生成するイメージは史実と異なるだけでなく、極度にリベラルに偏っていることが問題視されている。「アメリカ建国の父」を描くよう指示すると、Geminiは、白人だけでなく、黒人、アメリカ先住民、アジア人を描きだす(下の写真)。アメリカ建国の父とはアメリカ独立宣言に署名した政治的指導者で、ジョージ・ワシントンなどであるが、Geminiは独自の発想で特異な画像を出力する。白人の貢献が軽視されていると指摘される。

出典: End Wokeness

Googleの釈明

これに対しGoogleは、Geminiに問題があることを認め、なぜこの問題が発生したのかを説明した。Geminiのイメージ生成機能は「Imagen 2」というモデルを使っており、指示されたテキストに従って画像を生成する。Googleはモデルの開発で、暴力や性的表現を抑止し、また、人種差別なく公平に人物を描くようアルゴリズムを最適化した。しかし、この過程でGeminiは公平性を過度に重視し、プロンプトに従わないで独自の解釈でイメージを生成するようになった。具体的には、

バイアス抑止：モデルは人種差別などのバイアスを抑止するため、史実に反してでも、多様な人種を描き出す
プロンプト：モデルはバイアスに関し過度に慎重となり、特定のプロンプトへの回答を拒絶するようになった

安全性検証チーム

Googleはモデルを再度教育し、数週間以内にイメージ生成機能を再開するとしている。実際に、GoogleはRed Teaming Teamを構築し、このチームがモデルの安全性やバイアスを検証し、問題の解決を進めている。

Imagen 2とは

Imagen 2は第二世代のイメージ生成モデルで、テキストで指示された内容に従って画像を生成する(下の写真)。「ディフュージョン(Diffusion)」という技法を使っており、高品質で写真撮影したようにリアルな画像を生み出す。Imagen 2はGeminiに統合され、プロンプトに従ってイメージを出力する。また、Imagen 2はAIクラウド「Vertex AI」で公開されており、APIを使ってアプリを開発する。前述の通り、現在Imagen 2の機能は停止されている。

出典: Google

政治理念はリベラルに偏向

Geminiの問題はアメリカ社会で大きな論争に発展している。Geminiはアメリカ建国の父を黒人やアメリカ先住民などと解釈し、アメリカ保守層は白人が国の基礎を築いた史実を歪曲していると指摘する。イメージだけでなく、Geminiはテキストの生成においても、政治的な理念はリベラルに偏向していると主張し、Googleに中立な立場を取るよう求めている。Geminiの問題は、生成AIが倫理的であるために準拠する基本理念を誰が決定するのか、重大な課題を内包している。

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

Googleは2月15日、生成AIの次世代モデル「Gemini 1.5」を公開した。昨年12月に、初代モデル「Gemini 1.0」をリリースしたが、Gemini 1.5はその後継モデルとなる。Gemini 1.5はアーキテクチャが改良され、処理効率が格段に向上した。また、入力できるデータ量が大きく拡張され、最大で100万トークンを処理できる。Googleは会社の威信をかけて、OpenAIのGPT-4に対抗するモデルの開発を加速させている。

出典: Google

Geminiシリーズ

Googleは昨年12月、生成AI次世代モデル「Gemini」を発表している。Geminiはファウンデーションモデルで、高度な言語機能の他に、イメージやビデオやオーディオを理解するマルチモダル機能を備えている。Geminiは三つのサイズから構成される：

Gemini Ultra：最大構成モデルでデータセンターで使われ複雑なタスクを実行する。チャットボット「Gemini Advanced」のエンジンとして使われている。
Gemini Pro：中規模構成モデルで幅広いレンジのタスクを実行する。チャットボット「Gemini」のエンジンとして使われている。
Gemini Nano：最小構成のモデルでスマートフォンで稼働する。ハイエンドスマホ「Pixel 8 Pro」に搭載されている。

今回発表されたのは「Gemini Pro 1.5」

今回の発表は中規模構成モデルの最新版「Gemini Pro 1.5」となる。Gemini Pro 1.5はアーキテクチャが大きく改良され、ハイエンドモデル「Gemini Ultra 1.0」と同等の性能を示す。更に、入力できるデータ量が拡大され、最大100万トークンを処理できる。Gemini Pro 1.5の主な改良ポイントは：

アーキテクチャ：Mixture-of-Experts (MoE)という方式を実装
コンテクスト・ウインドウ：入力できるトークンの数を100万に拡大

アーキテクチャ：Mixture-of-Experts (MoE)

Gemini Pro 1.5の性能が大きく向上した理由は、アーキテクチャとして「Mixture-of-Experts (MoE)」を採用したことにある。Googleは早くからMoEの研究を進めており、この成果をGemini 1.5に適用した。MoEとはモデルを構成するネットワークの方式で、単一構造ではなく、複数の専門家「Expert」を持つ構成とする(下のグラフィックス)。入力された命令に対し、その分野の専門家が解答を生成する仕組みとなる。これにより、プロンプトに対しモデル全体を稼働させるのではなく、その一部のエキスパートが処理を実行するため、高速で効率的にインファレンス処理を実行できる。

出典: Google

コンテクスト・ウインドウ：100万トークン

コンテクスト・ウインドウ(Context Window)が大幅に拡大された。コンテクスト・ウインドウとは、モデルに入力できるデータのサイズを指す。Gemini Pro 1.5では、このサイズが100万トークンに拡張された。具体的には、テキストでは70万単語、ビデオでは1時間分の動画を処理できる。コンテクスト・ウインドウは、ワーキングメモリであり、この領域が大きいと一度に大量のコンテクストを処理できる。例えば、源氏物語の英訳「The Tale of Genji」の全体を読み込ませ、Gemini Pro 1.5はこの小説のに関する知識を習得し、研究者や読者からの多彩な質問に回答することができる。(下のグラフィックス上段：Gemini Pro 1.5のコンテクスト・ウインドウのサイズ、実際には1000万トークンまで処理できる、下段：GPT-4のコンテクスト・ウインドウは12万8000トークン)。

出典: Google

利用方法

GoogleはGemini Pro 1.5をAIスタジオ「AI Studio」とAIクラウド「Vertex AI」で公開する。AIスタジオは生成AIモデルのプレイグランドで、異なるモデルを使ってその機能や性能を検証することができる。現在は「Gemini Pro 1.0」が公開されており(下のグラフィックス)、「Gemini Pro 1.5」は待ちリストに登録し、認可を得たユーザから利用できる状態となっている。

出典: Google

Geminiの開発手法

GoogleはGeminiの開発を並列で進めており、「Gemini 1.0」はリリース済みで、先週「Pro 1.5」が公開された。これから「Ultra 1.5」が投入され、されに、並列して「Gemini 2.0」が開発されており、その公開も近いとされる。Googleはこの市場のトップを奪還するため、Geminiの開発を加速している。

OpenAIは衝撃のAIビデオ「Sora」を公開！！テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入

OpenAIは2月15日、テキストでビデオを生成するモデル「Sora」を公開した。プロンプトで指示された内容でビデオを生成する技術であるが、生成された動画は写真撮影されたように鮮明で、AIとカメラの見分けがつかない。最も重要なポイントは、Soraは実社会で起こる物理現象を理解し、人間が指示しなくても物理法則に従ってビデオを描くことだ。Soraは世界のシミュレータ「World Simulators」であり、この技法が人間レベルのインテリジェンス「Artificial General Intelligence(AGI)」の開発に繋がる。

出典: OpenAI

Soraが描き出す世界

Soraはテキストで指示された内容に従って写真撮影したような高品質なビデオを生成する。「雪の日の東京で。。。桜が満開。。。」と指示すると、Soraは東京・浅草の桜並木を彷彿させるビデオを生成する。OpenAIはテキストでイメージを生成するモデル「DALL-E」を運用しているが、Soraはこの技術を拡張し高解像度のビデオを生成する。

※上のビデオ、モデルは３D空間の意味を理解し、カメラのアングルを変えながら、対象物を追跡して撮影。URL：https://cdn.openai.com/sora/videos/tokyo-in-the-snow.mp4

Soraの基本機能

SoraはAIモデルで、テキストから写真撮影したようなリアルなシーンを描き出す。また、テキストから、アニメのような架空の世界を生成することもできる。Soraは生成AIのビデオモデルで、プロンプトに沿った高品質な映像を描き出す。ビデオの長さは１分で、他社モデルの数秒を大きく上回る。

Soraを開発した理由

Soraは物理社会のモデルで教育され、物の動きを理解し、それをシミュレーションする機能を獲得した。Soraを開発した目的は、AIモデルが実社会における相互関係を学習することで、現実社会の問題を解決することが最終ゴールとなる。このモデルが、人間レベルのインテリジェンス「Artificial General Intelligence」の開発に繋がる。

研究開発プロジェクト

Soraは研究開発プロジェクトで一般には公開されていない。現在、モデルの安全性を検証する試験「Red-Teaming」が実施されている。生成AIがマルチモダルとなり、モデルが内包する危険性が格段に高まり、これらを洗い出す試験が実施されている。また、ビジュアル・アーティストや映画製作者に限定して公開され、Soraをどのように利用すべきかなど、専門家の意見をヒアリングする。

出典: OpenAI

※上のビデオ、プロンプトで女性のジャケットの色やサングラスの形や、背景の東京の通りの情景など詳細に指示することができる。URL：https://cdn.openai.com/sora/videos/tokyo-walk.mp4

モデルは物理現象を理解

Soraは複雑なシーンを描き出すことができる。複数のオブジェクトを対象に、指定された動きを忠実に再現し、対象物とその背景を高精度で描き出す。Soraはプロンプトで指示された内容を描き出すだけでなく、その対象物が物理社会でどう位置付けられるかを理解している。

出典: OpenAI

※上のビデオ、「山道を走行する旧式のSUVをカメラが後ろから追いかけて撮影。。。」というプロンプトに沿ってビデオを生成。モデルは、クルマは道路を走行し、舗装されていない道では小刻みに揺れるなど、物理法則を理解している。URL：https://cdn.openai.com/sora/videos/suv-in-the-dust.mp4

プロンプトの理解

Soraは言語能力が極めて高く、言葉に関する深い理解を示す。プロンプトで指示された内容を正確に描き出すだけでなく、対象物をリアルに描写し、生成されたビデオは説得力があり、躍動感を生み出す。 Soraはアーティストのように印象的な動画を生成する。

出典: OpenAI

※上のビデオ、「ゴールデンリトリーバの子犬が、雪の中に頭を突っ込み、そこから雪を掻きわけて出てくる。。。」というプロンプトに対し、モデルは躍動感があり、印象的なビデオを生成する。URL: https://cdn.openai.com/sora/videos/snow-dogs.mp4

モデルの弱点

Soraは開発途上の生成AIマルチモダル技術で多くの弱点がある。Soraは物理現象のシミュレータであるが、多くの制限事項がある。物理の法則を正しく理解しておらず、グラスが割れる事象や、食べ物を食べる行動などを正しく生成できない。例えば、人間がクッキーをかじると、クッキーは欠けるが、モデルはそれを理解できない。これらがこれからの研究課題となる。

「Diffusion Transformers」という技術

Soraは「Diffusion Transformers」という技術をベースに構築された。「Transformers」は大規模言語モデルの基礎技術で、テキストの基本単位「Token」をTransformersで処理し、次のTokenを予測する。Soraはこれを画像に適用し、イメージの基本単位「Patch」をTransformerで処理し、次のPatchを予測する(下の写真)。更に、Soraは「Diffusion」という技法を使っており、これによりクリアなイメージを生成する。イメージ生成技術の標準技法で、オリジナルのイメージにノイズを加え、これを除去する手法を学習し、最終的に高品質なイメージを生成する。

出典: OpenAI

極めて危険なAI

Soraはプロンプトからカメラで撮影したようにハイパーリアルなビデオを生成する。これを使えば、高品質な映画や動画を簡単に生成でき、エンターテインメントや広告ビジネスが激変する。また、Soraを悪用すると、現実と見分けのつかないフェイクビデオが生成され、社会が大混乱となる。現行の生成AIと比較してその危険性は甚大で、これをどう活用するのか、安全対策など更なる研究が必要となる。

出典: OpenAI

※上のビデオ、「イタリアのアマルフィ海岸の教会をドローンで撮影したシーン。。。」というプロンプトを入力することで、簡単に観光プロモーションビデオを生成できる。URL: https://cdn.openai.com/sora/videos/amalfi-coast.mp4

Emerging Technology Review

シリコンバレーからの最新技術レポート

カテゴリー別アーカイブ: 人工知能

InflectionはAIアシスタント「Pi」の最新版をリリース、Piは専属コーチのように健康で幸福な生活に繋がるアドバイスをする、Piと対話すると心が安らぎ満足感が向上

Anthropicは最新モデル「Claude 3」をリリース、主要ベンチマークでGPT-4を上回る、推論機能が大幅に強化され知能が向上

「Gemini」の政治理念は過度にリベラルに偏向？Googleは生成AIのイメージ生成機能を停止、モデルは歴史上の事実とは異なる画像を出力、倫理的なAIを開発する能力が問われている

Googleは生成AIの次世代モデル「Gemini 1.5」を公開、アーキテクチャが改良され性能が大きく向上

OpenAIは衝撃のAIビデオ「Sora」を公開！！テキストで写真撮影したように高品質な動画を生成、生成AIはマルチモダルの時代に突入