Anthropicは米国時間5月28日、最新モデル「Claude Opus 4.8」をリリースした。同社は単に速度や知能が向上しただけでなく、より誠実で注意深く、複雑なコーディングプロジェクトに適した性能を備えているとアピールしている。
同社は、このモデルにおける最も顕著な改善点の一つが誠実さだと主張する。新たなフロンティアモデルのOpus 4.8は、根拠のない主張を行う可能性が低くなり、回答に確信が持てない場合には、その旨をユーザーに伝える傾向が強まったという。同社の評価によれば、Opus 4.8が記述したコード内に欠陥を見逃す確率は、前モデルと比較して約4分の1にまで低下している。
コマンドラインインターフェース(CLI)ツールの「Claude Code」において、先行する「Claude Opus 4.7」は「Claude Opus 4.6」から大幅な進歩を遂げていた。Opus 4.6は指示を誤解したり誤った結果を出力したりすることが多かったが、Opus 4.7は最初のアプローチが機能しなかった場合に別の手法を試みることを報告するなど、理解力が格段に向上していた。多くのセッションを通じてOpus 4.6からOpus 4.7への品質向上が主観的にも顕著であったことを踏まえれば、今回のOpus 4.8へのアップデートでも同様の進化が期待される。
実際にOpus 4.8をテストしたというSpotifyのスタッフエンジニアであるTom Pritchard氏は、同モデルの判断力が著しく向上していると評価している。同氏はブログ記事の中で、Claude CodeにおけるOpus 4.8の挙動について、適切な質問を投げかけ、自らのミスを修正し、不適切な計画には異議を唱えると述べている。さらに、複雑で複数のサービスにわたる調査において、大きな変更を加える前に確信を深めるプロセスを踏む点も高く評価し、開発に適した優れたモデルであると結論付けている。
また、Claude CodeにはOpus 4.7から「エフォート」を設定する機能が備わっている。これは、モデルが問題解決に投入する計算リソースをトークン数で測定する指標だ。Opus 4.8のClaude Codeにおけるデフォルト設定の「High Effort」は、品質とユーザー体験の最適なバランスを実現するよう調整されている。コーディングタスクにおいて、この設定はOpus 4.7と同程度のトークンを消費しつつ、より高いパフォーマンスを発揮する。
このエフォート機能は今後、「Claude.ai」および「Cowork」にも導入される。エフォート設定を高くすると、Claudeはより頻繁かつ深く「思考」するようになる。一方で設定を低くすれば、応答速度が向上し、AI体験における制限を受けにくくなる。
さらに注目すべきは、リサーチプレビューとして公開された「ダイナミックワークフロー」機能だ。Opus 4.8は、自ら作業計画を立て、1つのセッション内で数百のサブエージェントを並行して実行し、結果を検証した上で報告を行う能力を持つ。この機能は、数十万行に及ぶコードベースの大規模な移行など、極めて大きなタスクを想定して設計されている。
Claudeは、タスクの進展に合わせてワークフローを動的に生成、管理できる。固定された計画に従うのではなく、作業中に発見した内容に基づいて、エージェントが優先順位やタスクを自律的に変更する。Anthropicによれば、サブエージェントはユーザーに報告する前に自ら結果を検証するという。数百のエージェントを調整する場合、不確実性や誤った前提、失敗した出力をモデル自身が検知することは不可欠である。
これは、冒頭で述べた「誠実さ」の向上と密接に関連している。数千ものエージェントを稼働させる場合、人間の監視だけでは限界があるため、信頼性の高い検証済みの大規模な結果を得ることが極めて重要になる。なお、ダイナミックワークフロー機能は、「Enterprise」「Team」「Max」プランのClaude Codeユーザーに提供される。
Opus 4.8は同日より、ClaudeおよびClaude APIを通じて「claude-opus-4-8」として各地域で利用可能となっている。

提供:Primakov/Shutterstock
この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。
ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)