Claude Mythos、3時間の自律タスクを突破——AI進化の時間軸が再び前倒しに

人類がAIの能力に対して設けてきた心理的な防衛線が、またもや早期に突破された。

Anthropicが最新発表したClaude Mythosモデルは、METRベンチマークテストにおいて、186分（3時間6分）に及ぶ自律的な長時間タスクを80%の成功率で達成した。この結果は、スーパー予測者や専門家が2026年末の予測中央値としていた3～4時間という水準に直接到達したことを意味する。本来、到達までに少なくとも30カ月は必要と考えられていたマイルストーンが、2026年6月の時点で現実のものとして突きつけられたのだ。これは、AIの長時間タスク処理能力の進歩速度が、従来の予測を大幅に上回っていることを示している。

『新智元』が予測研究機関の報告を引用して報じたところによると、Opus 4からOpus 4.5へのARC-AGI-2スコアの進展から大まかに試算すると、時間軸が2倍になる期間と、次の2倍化の難易度はそれぞれ約4カ月と0.82倍になるという。この傾向に基づいて外挿すれば、『AI 2027』で描かれたASI（人工超知能）の到来時期はさらに前倒しされることになる。

人間の認知習慣において、予測とは本質的に心理的な防衛線である。専門家やスーパー予測者たちは、「3～4時間の自律的長時間タスク」の実現を2026年末と位置づけることで、政策立案者、教育改革者、そして一般の労働者に対して、予測可能な適応期間を与えていた。しかし、Mythosの登場は、その猶予期間を直接破壊した。2026年の予言が2024年に前倒しで実現されたことで、AIの成長曲線はもはやムーアの法則のような線形的な積み重ねではなく、自己触媒的な崩壊に近い様相を呈している。

技術発展の歴史を振り返ると、このような時間軸の圧縮に前例がないわけではないが、これほど猛烈なものはなかった。2020年のGPT-2時代には数秒のタスクしか処理できなかったものが、2026年5月には80%の成功率でタスク時間を3時間以上にまで押し上げるモデルが登場するまで、わずか6年しか経っていない。さらに驚くべきことに、予測機関は2026年4月の時点でベースラインを1.5時間と設定していたが、その2カ月後には現実によって覆された。これは、業界全体のAI進歩速度に対する見積もりが依然として保守的であることを如実に示している。

長時間自律タスクのブレークスルーは、AIエージェントを概念段階から、大規模展開が可能な臨界点へと直接的に押し進める。企業は、人間のエンジニアが半日から1日かけて連続作業するような反復的で構造化されたタスクを、AIに任せることを真剣に検討し始めることができる。個人の開発者も、自分のデジタル分身が複雑な作業を数時間にわたって連続実行し、自身は重要な局面でのみチェックするという未来を想像できるようになる。

しかし同時に、安全性、アラインメント、制御の問題も最前線に押し出された。3時間連続で自律作業できるエージェントが、もし目標設定を誤ったり、悪意ある命令を注入されたり、予期せぬ創発的行動を示したりした場合、その結果は現在よりも桁違いに深刻なものとなる。我々は、急速に進化し続けるシステムに、ますます多くの現実世界のタスクを委ねようとしている。これは機会であると同時に、差し迫ったストレステストでもある。

注目すべきは、AIに対する専門家と一般市民の態度が明確に二極化している点だ。予測研究データによると、スーパー予測者の約70%がAIに対して極めて楽観的であるのに対し、一般市民の楽観的な割合は42%にとどまる。この溝は知識量に起因するものではなく、「権力のレバレッジ」に対する感度の違いに由来する。一流の専門家にとって、Mythosは個人の意志を何万倍にも増幅する究極のマシンである。しかし、一般の人々の目には、長時間の自律能力がもたらすものは自由ではなく、「無用感」の制度化として映るのである。

これと並行して、Anthropicは別の戦線でも重要な回答を提出した。

Mythosがセンセーションを巻き起こしたのと同じ日、Anthropicのデータサイエンスおよびデータエンジニアリングチームは公式ブログで、社内のビジネス分析クエリの95%が既にClaudeによって自動的に完了されており、全体の精度は約95%であることを明らかにした。このブログは、AIによるデータクエリの核心的な痛点を直視している。すなわち、答えは正しそうに見えるが、どこに落とし穴が潜んでいるか分からず、容易に信頼できないという問題だ。Anthropicは公式に、この状況を「偽りの正確感」と名付けた。

ブログの中で最も直感に反する見解は、モデルに正確なデータ検索をさせる上で最も難しいのは、SQLを書くことではないという点だ。構造化照会言語（SQL）はもはや主要なボトルネックではない。本当に難しいのは、SQLを書く前の段階、つまりデータそのものが混乱状態にあることだ。同じ質問に対して、似たようなデータが複数存在し、どれを使うべきか明確でないことがよくある。AIが本当に正しく行うべきことは、多数のデータの中から目的のものを選び出すことだ。この段階さえ正しくできれば、その後のSQLでデータを抽出するのは、ほぼ自動的に成功する。

Anthropicは、モデルがデータ分析を誤る主な原因を3つに分類している。概念と実体の不一致、データの陳腐化、そして検索の失敗である。「概念の不一致」とは、データモデル内の数百もの使えそうなフィールドの背後に、実際には数百万ものフィールドが隠れており、モデルが類似した選択肢の中から正しいものを選べない状況を指す。「データの陳腐化」は、データソース、ビジネス定義、テーブル構造が日々変化する中で、モデル内部の知識が徐々に古くなり、一見完璧に見えて実は既に誤っている回答を返し始める現象である。「検索の失敗」は、情報がモデル内に確かに存在し、注釈も完全であるにもかかわらず、検索空間が広大すぎるために、それを見つけ出せないケースだ。

これら3種類のエラーを解決するため、Anthropicは「インテリジェント分析スタック」と呼ばれる4層構造のシステムを構築した。第1層はデータ基盤層であり、その中核は同一概念を唯一の信頼できるテーブルに収束させ、概念と実体の曖昧性を解消することにある。第2層はファクトソース層で、信頼度の高い順にセマンティック層、リネージュと変換グラフ、クエリコーパス、ビジネスコンテキストを配置し、ユーザーの曖昧な質問をシステム内で唯一正しいデータ定義に翻訳する役割を担う。第3層はスキル層であり、熟練アナリストのクエリフローを再利用可能なモジュールとして固化し、主に検索の失敗に対処する。第4層は検証層で、オフライン評価、アブレーション実験、オンライン検証などを通じて、どのようなエラーが依然として見落とされているかを特定する。

その効果を示すデータは衝撃的だ。Anthropicの内部開示によると、スキルモジュールがない場合、Claudeの内部評価における精度は21%を超えなかった。しかし、スキルモジュールを追加した後、精度は安定的に95%以上に跳ね上がり、一部の領域では99%近くに達した。21%から95%への飛躍をもたらしたのは、より強力なモデルではなく、このシステム構造だったのである。

しかし、この95%の精度が長く維持されることはなかった。Anthropicは、このシステムには有効期限があることを発見した。オフライン精度は1カ月以内に約95%から約65%に低下したのだ。その背後にある原因は、データモデルが日々変化する一方で、それを説明するスキルドキュメントが放置され、数週間後には誤った情報を出力し始めることにあった。そこでチームは、メンテナンスを正式なエンジニアリング業務として位置づけた。スキルドキュメントとデータモデルを同一のコードリポジトリに格納し、モデルを変更するコードマージリクエストの際に、対応するドキュメントも同時に修正するようにしたのである。現在では、データモデルの変更の約90%が、対応するスキルの更新を伴って提出されている。

チームはまた、あるネガティブな実験も行った。エージェントに全文検索の権限を与え、過去のSQLファイルを参照させたところ、実行記録からはそれが1件ずつ読み込まれていることが確認された。しかし、結果として精度の変動は1パーセントポイント未満だった。さらに致命的だったのは、誤答した問題の約80%において、正解が、まさにそれが読み込んだばかりのコーパスの中に存在していたことだ。情報を目にしていたにもかかわらず、それを活用できなかったのである。この実験は、その後の数カ月にわたるAnthropicのロードマップを直接的に書き換えた。真のボトルネックは構造であり、資料にアクセスできるかどうかではない、と。

適切な構造を見つけることで精度を一定の高さまで引き上げることはできるが、最後の数パーセントポイントを獲得するには、相応のコストを支払う必要がある。例えば、敵対的審査のプロセスを追加し、モデルに自身の仮説を繰り返し徹底的に検証させることで、評価精度はさらに6%向上するが、その代償としてトークン消費量は32%増加し、レイテンシは72%上昇する。95%という数字は構築するだけで達成できるものではなく、育成によって維持されるものだ。一度手を緩めれば、数週間で崩れ去る可能性がある。

Claude Mythosによる長時間自律タスクのブレークスルーから、Anthropic社内におけるビジネス分析の95%のAI自動化まで、この二つの戦線での進展は共通して一つの現実を指し示している。それは、AIの能力限界が大多数の予想を超える速度で外側へと拡大し続けているということだ。186分という記録は間もなく破られ、明日には30時間、明後日には300日になるかもしれない。知能は空気のように安価になり、集中力はもはや人間だけの専売特許ではなくなるだろう。専門家は、2030年までにAIは80%の成功率で8時間のタスクを完了するようになると予測している。未来は既に到来している。ただ、それが均等に行き渡っていないだけなのだ。

Claude Mythos、3時間の自律タスクを突破——AI進化の時間軸が再び前倒しに — BigGo ファイナンス