グーグル、AIモデル「Gemini 1.5」の実験的バージョンを3種リリース

AI要約

GoogleはGemini 1.5シリーズに新しいモデルを投入し、拡充を図る。

実験的なGemini 1.5 Flash-8B、Gemini 1.5 Pro、Gemini 1.5 Flashの3つの新モデルがリリースされた。

新モデルは非常に長いコンテキストウィンドウの処理を目指し、マルチモーダル入力を処理する能力を持っている。

　Googleは、同社で最も強力な人工知能（AI）モデルシリーズ「Gemini 1.5」に新たなモデルを投入し、同シリーズを拡充する。

　「Google AI Studio」の製品担当責任者を務めるLogan Kilpatrick氏は米国時間8月27日、実験的バージョンの新しい「Gemini」を3種類リリースしたことを「X」（旧Twitter）で公表した。小型モデルの「Gemini 1.5 Flash-8B」と「強化版」の「Gemini 1.5 Pro」、そして「大幅に改良された」モデルの「Gemini 1.5 Flash」だ。

　Kilpatrick氏の説明によると、Googleは「フィードバックを収集し、開発者に最新アップデートを提供するために、実験的モデルをリリースする」という。

　第1のモデルであるGemini 1.5 Flash-8Bは、新しい「Gemini 1.5 Flash」モデルの80億パラメーターバージョンで、「大容量のマルチモーダルのユースケースから長いコンテキストの要約まで、あらゆる用途」に利用できる、とKilpatrick氏はXのスレッドで述べている。

　新バージョンのGemini 1.5 Proは、数学や複雑なプロンプト、コーディングについて改善が施され、新しいGemini 1.5 Flashは、いくつかの社内ベンチマークでパフォーマンスの向上を示した。Kilpatrick氏によると、「Gemini 1.5 Pro Exp 0827」（8月27日にリリースされたため）が、最後にリリースされたモデル「Gemini 1.5 Pro Exp 0801」に取って代わるという。9月3日以降、Gemini 1.5 Pro Exp 0801は「Gemini API」でGemini 1.5 Pro Exp 0827にリルートされる。

　リリース直後に、最新のGemini 1.5 Proは「Chatbot Arena」で2位に、最新のGemini 1.5 Flashは6位になり、それぞれ「GPT-4o」および「GPT-4o mini」とほぼ互角の争いをしている。これら2モデルは「Claude 3.5 Sonnet」「Grok-2」「Grok-2 mini」「Llama 3.1」の順位を上回っている。

　3つの実験的モデルは、非常に長いコンテキストウィンドウの処理を目指したGemini 1.5シリーズに加わる。DeepMindのチームは8月のテクニカルレポートで、これら3モデルの機能が「現代の大規模言語モデル（LLM）の中で前例のないもの」だとして、Gemini 1.5は「ドキュメントのコレクション全体や数時間分の動画、約5日分の長さの音声」といったマルチモーダル入力を処理できると述べている。

　DeepMindのチームは、これらの新たなリリースを「Claude 3.0」の20万トークンや「GPT-4 Turbo」の12万8000トークンと比較して、「少なくとも最大1000万トークンのほぼ完璧な（再現率99％以上）情報検索」を目指すLLMのトレンドは続いているとも述べている。

　ユーザーは28日から、Google AI StudioとGemini APIで3モデルすべてを無料で試用できるようになっている。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

技術人工知能ニュースモデル Google Gemini 1.5 AI DeepMind