サイクル短い。Mythosぽいモデル早くプリーズ。
Anthropic(アンソロピック)は、5月28日に看板AIモデルの最新&最上位バージョンである「Claude Opus 4.8」をリリースしました。
Opus 4.8は、前バージョンのOpus 4.7と同じ価格となる入力100万トークンあたり5ドル(約800円)、出力100万トークンあたり25ドル(約4000円)で利用可能です。
Opus 4.8は、自律型のコーディング(Agentic coding:AIが自律的に考えてプログラミング作業を実行。バイブ・コーディングを超える能力)や、自律型のコンピュータ操作といったタスクで、業界トップクラスのスコアをたたき出しています。Anthropicの最新モデルとしては、「いつも通り」といった感じですね。
アピールポイントは「誠実さ」
同社が特に前面に押し出している最大のアピールポイントは、Opus 4.8の「誠実さ」なのだとか。モデル全体の信頼性と言い換えることもできそう。
同社のブログによると、Opus 4.8は自身のミスを自分で見つけてユーザーに伝えることに優れているとし、次のように説明しています。
AIモデルに共通する問題として、根拠が乏しいにもかかわらず、自信満々で自身の作業に進展があったと主張し、結論に飛びついてしまう場合があります。初期のテスト参加者の報告によると、Opus 4.8は自身の作業に関する不確実性を指摘する傾向が強く、根拠のない主張をする可能性が低いとのことです。
たとえば、資産運用会社Bridgewater(ブリッジウォーター)のシニア投資アソシエイトであるMichael Ran氏は、Anthropicのブログのなかで、Opus 4.8は「分析の入力と出力に関する問題を積極的に指摘できた」と述べています。これは、「ほかのモデルが日常的に見落とし、ユーザーが自分で拾うしかなかった部分」なのだそう。
また、同モデルのシステムカード(性能や安全性をまとめた文書)によると、Opus 4.8は有害な性的コンテンツの生成や、「自由民主主義の弱体化」など、意図に沿わない危険な行動を取るリスクが「大幅に低減」されているといいます。
動的ワークフローと工数コントロール
Anthropicは、新モデルに加えて、新機能の「動的なワークフロー」を研究目的の先行公開版として提供を開始しました。
Claudeが何百ものサブエージェントを並行して展開することで、より複雑なコーディング作業を処理できるようになるそうです。トークンを食いまくりそう…。
ユーザーは、特に大規模なコーディング作業でOpus 4.8の進化をハッキリと感じられるそうですが、画期的な変化とまでは言えないとのこと。
Anthropicは、過度な期待を生まないように配慮して、Opus 4.7と比較してOpus 4.8は「控えめながらも確かな改善」とブログで述べています。1カ月ちょっと前にリリースされたOpus 4.7は、ユーザーからの反応がイマイチでした。
一部のユーザーからは、「アダプティブ思考(状況に応じて考える度合いを変える機能)」のせいで、本来ならサクサクと終わるはずの作業に時間がかかりすぎてしまい、もっと多くのリソースを割くべき作業に十分な時間を使えていないという不満の声も聞かれたそうです。
そんな不満に答えるべく、Anthropicは新たに「エフォートコントロール」を導入しました。モデルを選択する際に、ドロップダウンメニューから設定できる機能で、特定のタスクに割り当てる工数を手動で選べるようになります。
工数は、Opus 4.8の場合、Low、Medium、High、Extra、Maxを切り替えられます(デフォルトはHigh)。また、アダプティブ思考のオン/オフも、工数と同じ場所で選択できます。
工数については、種類とデフォルトがモデルのバージョンによって違います。Opus 3とHaiku 4.5には、工数のオプションはありません。
あと、同じチャット内でモデルを切り替えられるようになっています。数カ月前にはなかった機能で、トークンを使いたくない質問で下位モデルに切り替えられると便利になりますね。
Mythos(ミュトス)クラスのモデル投入間近?
Anthropicはさらに、シリコンバレーに戦慄を走らせている謎に包まれた「Mythos」に匹敵するとされる「新クラスのモデル」のお披露目が近いことをほのめかしています。
同社は、別次元の能力とサイバーセキュリティ上のリスクを理由に、Mythosの一般公開を見送っています。
ブログでは、現在Mythosの安全対策をテスト中で、「今後数週間以内にすべてのユーザーにMythosクラスのモデル」を提供する見込みとしています。
たぶん意図的に奥歯に物が挟まったような言い回しをしていると思うのですが、Mythosに関して初期に飛び交った「常識をひっくり返す」といううわさに見合ったものが出てくるのか、それともMythosを薄めたようなバージョンになってしまうのか(たぶんこっちの可能性が高そう)は、時期が来ればわかるでしょう。
AI開発者は、リリース前に自社モデルを「すごすぎてヤバい」と売り込みがちです。そして、たいていの場合、大なり小なり期待外れに終わります。
でも、ひょっとすると、Anthropicは安全保障の脅威になると言われた、世界を震撼させるようなモデルを解き放つ準備ができているのかもしれません。
座して続報を待ちましょう。
Mythosみたいなモデルは、下位のサブスクだとあっという間にトークンの上限が来て、4時間半くらい座して待つことになっちゃうんでしょうか…。
