生成AI競争は次のステージへ、動画をリアルタイムに理解するAIの登場、OpenAIやグーグルの競争も激化

AI要約

AIの競争が激化しており、OpenAIがGPT-4oを発表し、グーグルがProject Astraを披露した。

OpenAIのGPT-4oはマルチモーダル大規模言語モデルであり、リアルタイムのビデオを分析することも可能になる。

グーグルのProject AstraはGemini Pro 1.5をベースにしたマルチモーダルAIエージェントであり、音声やビジュアル情報にも対応している。

生成AI競争は次のステージへ、動画をリアルタイムに理解するAIの登場、OpenAIやグーグルの競争も激化

生成AIの競争は次のステージに突入、OpenAIやグーグルなど主要企業による競争はさらに激化の様相となっている。

OpenAIは2024年5月13日、新たな大規模言語モデル「GPT-4o」を発表した。GPT-4oは、テキスト、音声、ビジョンに対応できるマルチモーダル大規模言語モデル（LLM）だ。ユーザーがChatGPTスマートフォンアプリで撮影したリアルタイムのビデオを受け取り、分析することもできるようになる。

これに対抗するかのように、グーグルも翌14日の年次開発者会議「Google I/O」で、Project Astraを発表した。

Project Astraは、同社の主要LLMの1つGemini Pro 1.5をベースに構築されたマルチモーダルAIエージェント。マルチモーダルエージェントとは、テキストだけでなく、音声やビジュアル情報にも対応できるAIシステムのことだ。GPT-4oと同様に、リアルタイムの動画を受け取り、応答することができる。

グーグルが公開したデモ動画では、Pixelスマートフォン上で動作するプロトタイプのAstraエージェントが、カメラを通して物体を識別し、その特定のコンポーネントを説明し、ホワイトボードに書かれたコードを理解する様子が示された。具体的には、ユーザーがスマホを持ち、オフィス内を撮影しつつ、「この中で音を発するものがあれば教えて」と入力すると、パソコンの隣に設置されたスピーカーを指し、音を発するものだと回答。また、スピーカーの一部分を指し、その部分の名称を聞くと、しっかりと回答するシーンが披露された。

また別のデモ動画では、ホワイトボードに手書きされたデータベースに関するシステムアーキテクチャの図を認識し、サーバー間のキャッシュを増やすことでデータベースのスピードが高速化するなど、改善案を提示する様子も示された。

グーグル・ディープマインドのデミス・ハサビスCEOは、マルチモーダルの推論では大きな進歩を遂げたが、エージェントの応答時間を人間の会話レベルまで短縮することが大きな課題だったと述べている。この課題を解決するため、グーグルは、ビデオフレームを連続的にエンコードし、ビデオと音声の入力を時系列に結合、この情報をキャッシュすることで、必要な情報を素早く処理する仕組みを構築したという。

Project Astraの具体的な製品化時期は明らかにされていない。ただし、Android、iOS、ウェブ上のGeminiアプリに、同様の機能が実装される予定となっている。