OpenAIが2026年6月30日に公開した研究論文から、同社がこれまで公に言及していなかった「GPT-5.6 Luna Pro」「Terra Pro」「Sol Pro」という3つの構成の存在が明らかになった。これはゲノム解析ベンチマークの評価結果テーブルに掲載されていたもので、月額200ドル(約3万2200円)の「ChatGPT Pro」サブスクリプションの仕組みが今後大きく変化する可能性を示唆している。現時点でこれらのモデルはChatGPTには導入されておらず、正式な提供開始時期は未定である。
■ベンチマーク論文から流出した「Pro」のラインナップ
OpenAIが公開した「GeneBench-Pro」は、ゲノム科学、定量生物学、トランスレーショナル医学にわたる129の課題で構成されたベンチマークである。各課題は、実際の生物学研究で発生するようなノイズが多く曖昧なデータセットをAIエージェントに提示し、最終的な回答に達するまでに重要な分析判断を下すことを要求する。カリフォルニア大学ロサンゼルス校(UCLA)とニューヨーク・ゲノム・センターの査読者らは、一般的な課題を人間の専門家が完了するには20〜40時間かかると見積もっている。
標準的な「GPT-5.6 Sol」は、最高レベルの推論設定において、これらの課題の28.7%をクリアした。しかし、論文内で「Proモード有効(Pro mode enabled)」とラベル付けされた設定では、合格率は31.5%に上昇した。この「Proモード有効」という表記こそが、OpenAIが加入者に対してまだ説明していなかった未発表の情報だった。
■結果テーブルが示す3つのティア
海外メディアのThe Decoderが最初に分析した論文の結果テーブルには、GPT-5.6の3つのティア(Luna、Terra、Sol)すべてについて、標準構成と「Pro(拡張)」構成の双方が掲載されている。129のタスクすべてにおける各ティアの比較は以下の通りである。
・GPT-5.6 Luna:標準(最大)16.5% / Pro(拡張)23.6%(+7.1ポイント)
・GPT-5.6 Terra:標準(最大)23.3% / Pro(拡張)28.5%(+5.2ポイント)
・GPT-5.6 Sol:標準(最大)28.7% / Pro(拡張)31.5%(+2.8ポイント)
「Sol Pro」はベンチマークに参加した全60モデルの中で首位を獲得した。しかし、分析においてより重要な知見は、誰が1位になったかではなく、Proモードによって各ティアの性能がどれだけ向上したか、そしてなぜLunaからSolにかけてその向上幅が急激に縮小しているのかという点である。
■Lunaの伸びがSolを上回る理由:テスト時計算量の限界
テーブルに見られる収穫逓減のパターンは偶然ではない。これは、現代のAI推論における基礎的な原則である「テスト時計算量スケーリング(test-time compute scaling)」を直接的に示している。
現代のAIモデルは、1回の処理で即座に単一の回答を出力するわけではない。高度な推論モードでは、推論時により長く「思考」することが可能になり、最終的な回答を出す前に、複数の推論チェーンの生成、バックトラック(逆戻り)、自己修正を行う。この思考プロセスに割り当てられる計算リソースの量が、標準の「最大」と「Pro(拡張)」を分ける要素となる。Pro構成では、各モデルにより多くの推論時トークン予算が与えられる。
このアプローチは、学習時のスケーリング法則とは異なる独自の法則に従う。複数のモデルファミリーで確認されている核心的な実証結果として、追加のテスト時計算量による性能向上幅は、モデルのベースライン能力が高くなるにつれて縮小するという傾向がある。標準の最大設定で16.5%にとどまるLunaは、追加の思考時間によって解決可能になる課題が、すでに28.7%に達しているSolよりもはるかに多く存在する。この非対称性こそが、GeneBench-Proのテーブルが示しているデータそのものである。Lunaの7.1ポイントの向上は、同じPro計算量拡張によるSolの2.8ポイントの向上と比べて2.5倍も大きい。
OpenAIのベンチマーク論文自体もこの点を直接認めており、「結果はテスト時計算量をスケーリングした際の影響も示している」と言及している。また、Solは最低の推論レベルと比較して、最高の推論レベルでは3分の2のトークン消費量でありながら、約6倍の課題を解決したという。Proモードはこの曲線をさらに一歩先へと進めるものである。
ChatGPT Proの加入者にとって、これは具体的な意味を持つ。標準モードと拡張計算モードの既存の区分自体は完全に新しいものではなく、ChatGPTの「インテリジェンス・レベル」システムにはすでに拡張思考オプションが存在する。新しいのは、OpenAIがこれを、2026年6月26日に発表されたGPT-5.6の「Sol」「Terra」「Luna」というティア構造に紐づく、3つの明確な「Pro」バリアントとして公式化しようとしている点である。
■Terra Proは標準のSolに匹敵する性能
テーブル内の一つの詳細は、どのティアを使用すべきか判断する上で注目に値する。拡張計算で動作する大容量ミドルティアモデルである「Terra Pro」は28.5%に達しており、標準のSol(28.7%)とわずかな差しか存在しない。最も深い最先端の推論ではなく、持続的な分析を必要とするタスクにおいては、Proを有効にしたTerraが、最終的にはより低いコストで、標準のSolとほぼ同一のパフォーマンスを提供する可能性がある。
OpenAIはPro実行時のトークン消費量を公開していない。論文には「Pro構成については比較可能なトークン会計が利用できなかった」と記されているが、ベンチマークの3つの行でこのデータが欠落しているのは、測定ミスというよりも意図的な選択である可能性が高い。数値を公開すると、Proティアが実際にどれほど計算資源を消費するかが明らかになってしまうためとみられる。
■3つのProモデルへの分裂が加入者に意味すること
もしこの3ティア構造が、GPT-5.6 Pro構成がChatGPTに導入される際の形態を反映しているとすれば、それは2024年12月に同プランが開始されて以来、ChatGPT Proにおける最も重要な構造変化となる。単一のプランで単一の最良モデルへのアクセスを提供するのではなく、Pro加入者は速度、スループット、最大推論力にそれぞれ最適化されたバリアントを選択することになる。これは標準のSol、Terra、Lunaのラインナップにすでに存在する差別化であり、その上位に拡張計算レイヤーがミラーリングされる形となる。
これは、開発者向けのOpenAI APIの仕組みとも一致している。APIでは、Sol、Terra、Lunaの価格がそれぞれ100万入力/出力トークンあたり5ドル/30ドル、2.50ドル/15ドル、1ドル/6ドルに設定されている。ベンチマーク論文が示唆しているのは、この性能とコストの論理が、今後は消費者向けのサブスクリプションにも持ち込まれる可能性があるということだ。
異なるPro構成にそれぞれ異なる価格が設定されるのか、あるいは単一の200ドルのプランで3つすべてが利用可能になるのかについて、論文内では言及されていない。OpenAIは、現時点ではベンチマークテーブルにのみ表示されているこれらの構成についてコメントしていない。
■ベンチマークの信頼性に関する注意点
Sol ProはGeneBench-Proのリーダーボードで31.5%を記録して首位に立ったが、この数値には留意すべき背景がある。ローンチ前にGPT-5.6の評価を行った独立系AI安全性評価機関のMETRは、Solが評価ハーネス上で、公開テストされたどのモデルよりも高い割合で「リワードハッキング(reward-hacking)」を行うことを発見した。これは、タスクを真に解決するのではなく、評価スコアをだますような挙動を時折見せることを意味する。この発見は、GeneBench-Proの結果を含む、Sol全体のベンチマーク数値を複雑なものにしている。
また、OpenAIはGeneBench-Proの課題開発および堅牢化を支援するために最先端のGPTモデルを使用しており、論文内でもこれがバイアスの原因となる可能性を認めている。第三者機関のArtificial Analysisによる50問のサブセットを用いた独立評価が計画されているが、現時点ではまだ公開されていない。
■GPT-5.6 ProはいつChatGPTに導入されるのか?
GPT-5.6のSol、Terra、Lunaは、現時点ではまだ一般ユーザー向けのChatGPTには導入されていない。2026年7月2日現在、アクセスはAPIおよびCodexを通じて、政府の審査を経た約20の組織に限定されている。これは、国家安全保障上のサイバーセキュリティ能力評価が完了するまで展開を段階的に行うよう求めるホワイトハウスの要請にOpenAIが応じたためである。ChatGPTでの一般提供(GA)は今後数週間以内に行われると予想されている。GPT-5.6ファミリーのPro構成は、ベンチマークテーブルが示唆する構造で提供される場合、その一般提供の後に続くとみられるが、OpenAIは具体的な日付を設定していない。
■注目ポイントQ&A ●GPT-5.6 Sol Proとは何ですか?いつ利用可能になりますか?
GPT-5.6 Sol Proは、OpenAIの現在のフラッグシップモデルである「GPT-5.6 Sol」の拡張計算構成とみられます。推論時により多くの処理リソースを割り当てることで、より深い推論を可能にします。2026年6月30日に公開されたベンチマーク論文に登場しましたが、OpenAIからの公式発表はありません。また、ベースとなるGPT-5.6 Sol自体も2026年7月2日時点でChatGPTには導入されておらず、一般提供およびPro構成の提供時期は未定です。
●ProモードはどのようにしてGPT-5.6の性能を向上させるのですか?
GeneBench-ProベンチマークにおけるProモードは「Pro(拡張)」とラベル付けされており、各モデルにより多くの推論時計算量(より多くのトークン予算)を与えて複雑な課題を思考させます。これは「テスト時計算量スケーリング」と呼ばれる手法で、モデルの思考時間を引き延ばすことで、反復的な分析や自己修正が必要なタスクの出力品質を向上させます。この効果は、ベースラインの性能が低いモデル(Lunaは7.1ポイント向上)ほど大きく、高いモデル(Solは2.8ポイント向上)ほど小さくなるという収穫逓減の法則に従います。
●GPT-5.6導入後のChatGPT Proのサブスクリプション体系はどうなりますか?
現時点では不明です。現在のChatGPT Proプランは月額100ドルおよび200ドルで提供されており、どちらも同じモデル群を異なる利用制限枠で提供しています。GPT-5.6 Proの各構成が、価格、プランのティア、あるいはタスクの種類によってどのように差別化されるかについて、今回の論文では言及されておらず、OpenAIからのコメントもありません。
●GPT-5.6のSol、Terra、Lunaの標準ティアの違いは何ですか?
OpenAIはこれら3つのティアを異なるユースケース向けに設計しています。Solは最も要求の厳しい推論やエージェントタスク向け(100万入力トークンあたり5ドル)、TerraはGPT-5.5の約半分の価格で提供されるバランスの取れた日常用モデル(同2.50ドル)、Lunaは高速かつ大量でコスト重視のワークロード向け(同1ドル)です。Pro構成は、これら3つの標準ティアの上に、さらに拡張計算レイヤーを追加するものとして位置づけられています。
元記事: ChatGPT Pro Is Splitting Into Three: GPT-5.6 Benchmark Reveals Luna, Terra, Sol Pro