OpenAI「o1」は人間のような“想像力”を持ち、AGIへの重要な一歩となる

AI要約

米OpenAIが新たなAIモデル「OpenAI o1」を発表。返答に時間をかけることで複雑なタスクを解決できるようになった。

o1は高い性能を持ち、異なる分野での問題解決能力が向上したことが示されている。

安全性も向上し、API提供開始など新機能が導入されている。

OpenAI「o1」は人間のような“想像力”を持ち、AGIへの重要な一歩となる

米OpenAIは9月12日(現地時間)、新たなAIモデル「OpenAI o1」を発表。ユーザーの入力に対してじっくり考えてから返答することで、より複雑なタスクを正確に解決できるようになった。

 米OpenAIは9月12日(現地時間)、新たなAIモデル「OpenAI o1(読みはオーワン)」を発表。ユーザーの入力に対してじっくり考えてから返答することで、より複雑なタスクを正確に解決できるようになったという。

 

噂の「Q*/Strawberry」がついに登場

 今回発表されたモデルは、高性能な「o1-preview」および、より高速かつ80%安価、特定分野に特化した「o1-mini」の2種類。複雑なタスクで大きな進歩を遂げたとして、これまでの「GPT-○」からナンバリングをリセットし、新たにOpenAI o1シリーズとしてスタートを切った。

 

 そもそもこのモデルは、2023年11月のOpenAI騒動の際に「Q*」という名前の先進的AIプロジェクトとして噂されていたもの。その後、このプロジェクトが「Strawberry」というコードネームで開発が継続されていると報じられ、9月に入ってから近々にリリースされるという具体的な噂がひろまっていたが、とうとうそれが発表されたという経緯だ。

 

複雑な問題解決に特化

 o1の最大の特徴は、入力に対して即座に返答せず、「Thinking」(思考中)と表示して時間をかけて考える点だ。この「じっくり考える」能力により、複雑な問題解決能力が大幅に向上したという。

 

OpenAI o1 answers a famously tricky question for large language models. pic.twitter.com/5ZlQIOBWEd

 

― OpenAI (@OpenAI) September 12, 2024

 この動画では「how many r’s in strawberry?(strawberryという単語に含まれる「r」の数は?)」という質問を扱っている。人間には簡単なこの問題だが、GPT-4oなど従来のLLMは「単語」と「文字」の概念を同時に扱うのが難しく、しばしば誤答していた。一方、新しいo1モデルはこの問題を正確に解答。言語の異なるレベルの要素を理解し処理する能力が向上したことを示している。

 

 また、アメリカの優秀な高校生向けの数学コンテスト、AIME(American Invitational Mathematics Examination)2024の問題では、従来モデル(GPT-4o)が13.4%の正答率だったのに対し、o1-previewは56.7%、さらにo1は83.3%という驚異的な正答率を達成。これは人間の数学者に匹敵する、あるいはそれを上回る問題解決能力を示している。

 

 この結果は、AIが複雑な数学的推論を要する問題に対しても大きな進歩を遂げたことを示唆している。「じっくり考える」アプローチにより、o1は段階的な問題解決や深い分析を必要とする課題に効果的に対応できるようになったと言える。

 

性能の向上:学術分野での高性能

 学術分野においても顕著な性能向上が見られる。PhD(博士号)レベルの科学の質問を扱うGPQA Diamondテストでは、前モデル(GPT-4o)と比較して全分野で成績が向上。特に物理学では、GPT-4oの59.5%に対してo1は92.8%という高い正答率を達成。化学でも40.2%から64.7%へと大幅に改善した。生物学では61.6%から69.2%へと向上している。

 

 これらの結果は、複雑な科学的概念の理解や高度な問題解決能力が求められる研究分野でのAI活用の可能性を大きく広げるものだ。

 

安全性の向上

 安全性も大幅に向上した。注目すべきは「ジェイルブレイク」テストでの成績だ。このテストは、AIの安全機能を意図的に回避しようとする試みに対する耐性を測るもので、GPT-4oが100点満点中22点だったのに対し、o1-previewは84点を獲得。これは、不適切な使用や悪用に対するo1の強い耐性を示しており、より安全なAI利用が可能になる。

 

すでにChatGPTで利用可能に

 「ChatGPT Plus」と「Team」ユーザーは「o1-preview」および「o1-mini」をすでに利用できる状態になっている。

 

 ただし、o1-previewは1週間に30メッセージまで、o1-miniは50メッセージまでというなかなか厳しい制限が課せられている。

 

 また、「ChatGPT Enterprise」「ChatGPT for Education」ユーザーは来週から、無料ユーザーは将来的にo1-miniを提供予定としている。

 

APIの提供もスタート

 APIの提供は「ティア5」開発者が対象となる。レートリミットは20RPM(1分当たり20リクエスト)に設定され、価格は、o1-previewが入力100万トークンあたり15ドル(およそ2120円)、出力100万トークンあたり60ドル(およそ8470円)となっている。

 

 一方、o1-miniは入力100万トークンあたり3ドル(およそ424 円)、出力100万トークンあたり12ドル(およそ1690円)と、より安価に設定されている。

 

推論性能は確実に上がっている

 それでは実際にo1-previewを試してみよう。まずは「地球ができてから今までに何周自転したか計算して 」という問題で試してみよう。解答はこちら。

 

 ここまではわりと普通の解答だが、注意事項として「自転速度の変化」や「地質学的イベント」などの影響も考慮すべきであり、地球の歴史を通じた自転速度の変化を詳細にモデル化する必要があると指摘している。

 

 推論には14秒かかっているが、内容を見てみると「月との潮汐干渉が影響している」など、結論を急がず多様な意見を突き合わせていることがわかる。

 

 次は「高さ10cmの卵の上に30cmのコンクリートブロックを乗せたら全長は何cm?」という少し意地悪な問題だ。単純に考えると「10+30=40」で40cmだが、当然ながら卵にブロックを上から乗せたら卵は潰れてしまうだろう。実際、GPT-4oに質問すると見事に引っかかってくれた。

 

 これはGPT-4oなどのレガシーなモデルは、膨大な学習により「それらしい」解答を出すのは得意だが、たとえば「高いところから落ちたら怪我をする」といった人間だけでなく、動物までもが直感的に把握しているある意味自明の現象を「知識」として持っていないのが理由だ。

 

 同じ問題をo1-previewに聞いてみると、いったん40cmと答えるものの、「現実的には卵がつぶれるため、全長は約30cmと考えるのが適切です」と、期待通りの答えを出してくれた。

 

 このような外部(=世界)から得られる情報に基づいて、世界の構造を学習によって獲得するモデル、言い換えると「AIに想像力をもたせる技術」は「世界モデル(World Model)」と呼ばれ、次世代AI研究のトレンドとなっている。

 

 ただし、同じセッション内でo1-previewを使っていると、このように前の質問の文脈を引きずってしまうといった現象が見られた。

 

 ただ、o1-previewは初期のモデルということもあり、ウェブブラウズやファイルや画像をアップロードする機能などはまだ実装されていない。

 

 また、知識カットアップはGPT-4oと同様に2023年10月まで、コンテキストウィンドもGPT-4oと同様12万8000トークン、最大出力トークンはGPT-4oの2倍の3万2768トークンとなっている。

 

 なお、「GPT-4o mini」および「GPT-4」はレガシーモデルとして奥の方に隠れて表示されている。

 

 また、プロンプト入力欄に「/(半角スラッシュ)」と入力することでo1-previewやDALL-Eを直接選択できる少しうれしい機能も追加されている。

 

 とは言え、この記事を書くために少しやりとりを重ねただけであっという間にCAPに達してしまった。1週間に30メッセージまでという制限はさすがに厳しすぎる。

 

 もちろんシャレにならない計算リソースを必要としているであろうことは理解している。やはり現状はあくまで「Preview(ちょっと出し)」という扱いなのだろう。

 

AGI実現に向けての新たな道筋が見えたのか

 これまでのLLMの考え方は、莫大な計算リソースをかけて膨大なデータを「学習」させることで推論性能が上がるというものだったが、OpenAI o1は「学習」ではなく「推論」の方に計算リソースをかけることで性能を上げるというアプローチに見える。

 

 OpenAIは今後もGPTシリーズとOpenAI o1シリーズの並行開発を継続していくと明言している。「学習」と「推論」、現在はこの2つのアプローチをそれぞれスケールしていくことで、最終目標であるAGIへ向かっていこうという方針なのだろうか。

 

文● 田口和裕