コーディングタスクでGPT-4超えるモデル続々、フランスや中国発のモデルが猛追

AI要約

OpenAIのGPT-4が市場で最も優れたモデルとして登場したが、2024年に入りコーディング分野では特化型モデルが台頭し、GPT-4を上回る性能を示している。

フランスのMistralが開発した「Codestral」は、Pythonを使ったHumanEvalテストでGPT-4を上回るスコアを記録し、コード生成から補完まで幅広いタスクをこなす220億パラメータのモデルとして注目されている。

Codestralは他のベンチマークテストでも高いパフォーマンスを示し、長いコンテキストウィンドウや様々なコーディング機能を備えている。

コーディングタスクでGPT-4超えるモデル続々、フランスや中国発のモデルが猛追

1年ほど前に登場し、しばらく市場で最も優れたモデルとして各社のベンチマークとなっていたOpenAIのGPT-4だが、2024年に入り、このGPT-4(オリジナル版)を超えるモデルが続々登場している。特にコーディング分野では、特化型のモデルが多数登場し、コーディング関連タスクにおいて、汎用型のGPT-4を上回る性能を示している。

大規模言語モデル(LLM)のコーディング能力を測るベンチマークテストとして最も広く使用されているのが、Pythonを使ったHumanEvalというテスト。GPT-4オリジナル版は、このテストで67%というスコアだった。

2024年5月に、フランスのMistralが発表したコード特化型モデル「Codestral」は、このGPT-4のスコアを超えるモデルの1つ。Codestralは、80以上のプログラミング言語に対応し、コード生成から補完まで幅広いタスクをこなすことができる220億パラメータのモデルだ。

特筆すべきは、HumanEvalにおける成績だ。Codestralは、このベンチマークテストにおいて81.1%のスコアを達成、GPT-4オリジナル版が記録した67%を大きく上回るパフォーマンスを示したのだ。

Codestralの特徴として、3万2,000トークンという同規模モデルの中では比較的長いコンテキストウィンドウを有する点が挙げられる。また、コード生成だけでなく、関数補完やテスト作成、部分的なコード補完などの機能も備えている。

Mistralは、Codestralの性能を示すため複数のベンチマークテスト結果を公開。たとえば、長文のPythonコード補完を評価するRepoBenchでは34%の精度を達成し、競合するオープンソースモデルを上回ったと主張している。また、Pythonの出力予測を評価するCruxEvalでも51.3%のスコアを記録し、競合の中でトップの座を獲得したと報告している。