OpenAIのoシリーズモデルは、次の単語を予測するだけではありません。答えにたどり着くために推論します。新しい論文がその仕組みを、本当に重要な観点から説明しています。

o3がArc Prize ベンチマーク(パターンマッチングではなく本物の推論を必要とするように設計されたテスト)で87パーセンタイルを獲得したとき、AI研究コミュニティは注目しました。数字自体ではなく、アプローチに注目したのです。o3は事前に学習した答えを取り出すのではなく、テスト時に計算リソースを使って問題を「考え抜いて」いたのです。

OpenAIからの最近の技術レポート(初期のchain-of-thought スケーリング研究の主要な共著者を含む)が、実際に何が起きているのかを説明しています。重要なポイントを見ていきましょう。

Chain-of-thoughtとは実際に何か

ほとんどの言語モデルは、1回のパスで回答を生成します。質問をすると、答えが生成されます。トークンが1つずつ現れ、それぞれが前のすべてに条件付けられています。

Chain-of-thoughtはこれを変えます。最終的な答えを出す前に、モデルは中間的な推論ステップを生成します。装飾としてではなく、計算として。各ステップが次のステップに入力され、モデルはこの推論空間を使って、1回のパスでは解けなかった多段階の問題を処理できるようになります。

論文はこれを拡張計算の一形態として説明しています。モデルにより多くの「思考トークン」を与えると、より難しい問題に対処できるようになります。より難しい問題で訓練されたからではなく、推論時に計算リソースを使って、圧縮できなかった複雑さを処理できるからです。

知性についての考え方にどう影響するか

従来の考え方:モデルはパターンを学習し、テスト時にそれを取り出す。パターンをスケールアップすれば、性能もスケールアップする。

新しい考え方(oシリーズの研究から):モデルは推論することを学び、より難しい問題により多くの推論計算を割り当てることができる。これは暗記ではなく、問題解決に近いものです。

この区別は実際に重要です。もしo3が単にステロイド投与のパターンマッチングなら、スケールアップでいずれギャップは埋まるはずです。しかし推論しているなら、能力差はより長く続く可能性があり、アーキテクチャの選択(推論プロセス自体をどう訓練するか)が生のモデルサイズと同じくらい重要かもしれません。

スケーリングデータが示すこと

論文は、難しい問題に対して、推論に費やす計算はモデルサイズに費やす計算よりも効率的にスケールすることを示すクリーンなデータを提示しています。つまり、より深く考える小さなモデルが、あまり考えない大きなモデルを上回ることが多いのです。

これはモデルを使って構築する人にとって現実的な意味があります。ユーザーに「もっと深く考える」ダイヤルを提供できれば、基盤モデルをアップグレードしなくても難しいタスクでより良い結果が得られます。APIへの影響は大きく、推論時の計算リソース配分がtemperatureやmax tokensのようなファーストクラスのパラメータになることを示唆しています。

まだ解決されていないこと

論文はギャップについて正直です。Chain-of-thought推論は構造化された問題(数学、論理、コード)の性能を向上させますが、曖昧でオープンエンドなタスクでの改善はより小さいです。モデルの推論は、そのワールドモデルと同程度にしか信頼できません。そして「より長く考える」ことが新しい失敗モード(よく推論されているように見える自信に満ちた間違い)を導入するかどうかという疑問は未解決のままです。

正直なまとめ:これはベンチマークのトリックではなく、本物の能力の進歩です。推論プロセスは何かをしています。そしてそれをより深く理解することは、あなたの時間を費やす価値があります。