xAI、大規模言語モデルの最新版「Grok-2」の早期プレビューでリリース

AI要約

Elon Musk氏が設立したAI企業のxAIは、Grok-2という最新の大規模言語モデルをリリースしました。Grok-2は、LMSYSのChatbot Arenaで評価され、GPT-4oと同等の評価を受けました。

Grok-2は数学やコーディングで高い評価を受け、MMLUやMATHのベンチマークでも他のLLMを凌駕する性能を見せています。

Grok-2は高度なテキスト生成に加え、画像生成モデルとの連携により高品質な画像も生成できる点で注目されています。

　Elon Musk氏が設立したAI企業のxAIは米国時間8月13日、最新の大規模言語モデル（LLM）「Grok-2」の早期プレビューをリリースした。Grok-2の軽量版である「Grok-2 mini」も含まれる。

　今回のリリースに先立ち、Grok-2の初期バージョンはLarge Model Systems Organization（LMSYS）のChatbot Arenaで匿名テスト（その際の名称は「sus-column-r」）が実施されていた。

　LMSYSでは、ユーザーがLLMの名前を知ることなく、2つのLLMのチャット画面を並べてその応答を評価することができる。OpenAIの「GPT-4o」やGoogleの「Gemini 1.5 Pro」のようなLLMと比較した場合、Grok-2は「Overall（総合）」部門で3位、GPT-4oと同等という結果だった。

　Chatbot ArenaのLeaderboardにアクセスしても同じ結果は表示されないが、LMSYSは「X」（旧Twitter）で初期の結果を投稿していることを明らかにしている。

　その他の注目すべき結果としては、Grok-2の「Math（数学）」と「Coding（コーディング）」部門で2位、「Hard Prompts（ハードプロンプト）」では4位だった。Chatbot Arenaで実際にテストするには、ウェブサイトにアクセスして「Arena（side-by-side）」をクリックし、サンプルプロンプトを入力すればいい。

　xAIはまた、「Massive Multitask Language Understanding（MMLU）」や「MATH」といったベンチマークでもGrok-2の性能を評価している。その結果は、前身の「Grok 1.5」よりも優れ、GPT-4o、「Claude 3 Opus」「Llama 3」などのLLMと対抗するものだったという。

　Grok 2は、高度なテキスト生成に加え、Black Forest Labsの画像生成モデル「FLUX.1」との連携により、高品質な画像も生成することができる。

　市場に出回っている多くの画像生成ツールは、有名人や政治家などの公人が登場する画像の作成に厳しい制限を設けているが、Grok-2にはそのような制限が設けられておらず、既に多くのベータテスターが下記のような政治家の画像を作成している。

　生成された画像は高品質でリアルだが、画像がAIによって生成されたことを明らかにするような情報開示はないようだ。

　Grok-2とGrok-2 miniは、Xのプレミアムとプレミアムプラスのユーザーにベータ版として提供される。どちらのモデルも、8月末に新しいエンタープライズAPIプラットフォームを通じて開発者向けにリリースされる予定だ。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。