Anthropic、「Claude Opus 4.8」を発表 ~過去一で有能かつ“誠実な”最新鋭モデル(窓の杜) – Yahoo!ニュース

【画像】ユーザーの意図と異なる(ミスや失敗、幻覚など)「不整合な行動」の多さを測ったテスト。「Opus 4.8」と「Claude Mythos Preview」の低さが印象的

 「Claude Opus」は、同社でもっとも高性能なAIモデル。最新版となる「Opus 4.8」では「Opus 4.7」をベースに、判断力にもより磨きをかけ、エージェントタスクにおける信頼性が高められた。

 とくに“誠実性”(Honesty)が改善されており、証拠が乏しいにもかかわらず、間違った結論を自信たっぷりに主張してしまうAIモデルの欠点を改善。たとえば、コードの欠陥が無視される可能性は、前モデルに比べて約1/4も抑えられているという。

 利用者の自律性を尊重し、利用者の利益のために行動するといった「親社会的な特性」を測る指標でも優れたスコアを示しており、不正利用への加担や欺瞞的な振る舞いの発生率も「Opus 4.7」から大幅に低下。まだ一般公開されていない秘蔵モデル「Claude Mythos Preview」に迫るほどだ。

 また、ベンチマークでも「Opus 4.8」は好成績を残している。多くのテストで前世代の「Opus 4.7」やライバルの「GPT-5.5」を上回っており、着実な進歩がみてとれる。

 「Opus 4.8」は現在、すべての「Claude」製品およびAPI、主要なクラウドプラットフォームで利用可能。APIの識別子は「claude-opus-4-8」で、価格は「Opus 4.7」と同じ100万トークンあたり入力が5米ドル、出力が25米ドル。

 同じモデルでより高速な処理を行う「Fast」モードも備えており、入力10米ドル、出力50米ドルで利用可能。従来の3分の1の価格で2.5倍の速度を実現する。

 そのほかにも、「Claude Code」では「動的ワークフロー」(Dynamic Workflows)がリサーチプレビューとして導入された。1つのセッションで数百ものサブエージェントを並列実行できるようになり、数十万行にもおよぶコードベース規模のマイグレーションをこなせるなど、極めて大規模な問題への対応力が格段に向上している。「Claude Code」の「Enterprise」「Team」「Max」プランで利用可能。

 また、「claude.ai」と「Cowork」のモデルセレクターに並び「努力レベル」(Effort Level)コントロールを新たに追加。既定の「High」のほか、より高度なタスクには「Extra」(「Claude Code」での「xhigh」に相当)や「Max」も選べる。逆に低い努力レベルを選べば、応答速度を上げつつレート制限の消費を抑えることも可能だ。

窓の杜,樽井 秀人