GPT-4oの価格が大幅値下げ、競合に対抗するOpenAIの静かなアップデート、その裏では驚愕のプロジェクトが進行中

AI要約

大規模言語モデルの最新動向について、Anthropicやメタ、グーグル、xAIなどのモデルが登場し、性能の向上が著しいことが示されている。

AnthropicのClaude3.5 SonnetやメタのLlama3.1 405BはGPT-4を上回る性能を示し、特にコーディング能力において優れている。

一方、グーグルのGemini-1.5-Pro-Expも高いパフォーマンスを持ち、またxAIも強力なAIモデルの開発に取り組んでいる。

GPT-4oの価格が大幅値下げ、競合に対抗するOpenAIの静かなアップデート、その裏では驚愕のプロジェクトが進行中

大規模言語モデルをめぐる状況は、この1年で大きく変化した。1年ほど前まで、OpenAIのGPT-4が他モデルを圧倒するパフォーマンスを示していたが、その後、Anthropicやグーグルのモデル性能が大幅に向上、またメタのLlama3.1 405Bの登場でオープンソースモデルにも注目が集まるようになっている。

たとえば、Anthropicが2024年6月21日にリリースした「Claude3.5 Sonnet」は、多くのベンチマークでGPT-4を上回る性能を示す。「LiveBench(2024年8月15日時点)」によると、Claude3.5 Sonnetは総合平均スコアで59.87を記録し、2位のGPT-4o(56.71)を超え、1位を獲得。またClaude3.5 Sonnetは、コーディング能力の向上が顕著で、コーディングに特化したベンチマーク「LiveCodeBench(2024年8月15日)」では、Pass@1スコアで51.3%を記録し、2位のGPT-4o(45.2%)を大きく引き離しているのだ。

また、メタが2024年7月23日に発表したLlama3.1 405Bも、GPT-4に匹敵する性能を持つことが明らかになった。Llama3.1 405Bは、一般的な知識や推論能力を測るMMLUで88.6%を獲得、GPT-4oの88.7%、Claude 3.5 Sonnetの88.3%と肩を並べる性能を示した。コーディング能力を測るHumanEvalでも89.0%を獲得し、GPT-4oの90.2%、Claude 3.5 Sonnetの92.0%に迫る水準に至る。

グーグルが2024年8月1日にリリースしたGemini-1.5-Pro-ExpもLMSYSのChatbot Arenaリーダーボードで1,297点を獲得、8月12日のアップデート時点でGPT-4o(2024-08-06)に次ぐ2位となっている。

さらには、イーロン・マスク氏のAI企業xAIも巨大なスパコンクラスターで強力なAIモデルをトレーニングしており、このほどリリースしたGrok-2に続き、年内にさらに高性能のモデルを発表する見込みだ。xAIのデータセンターは10万台に上るH100で構成されており、強力なAIモデルの登場が期待される。