Anthropicは米国時間3月9日、「Code Review」機能のベータ版を発表した。「Claude Code」のTeamsおよびEnterpriseプランのユーザー向けに提供される。これは、複数のAIエージェントが連携して動作し、完成した新しいコードブロックを分析してバグや潜在的な問題を特定するソフトウェアツールである。

 Code Reviewは、Anthropicが社内で運用しているプロセスをモデルにしており、実質的に同社の内部手法を製品化したものといえる。Anthropicによると、開発者は常にリソース不足に直面しており、多くのプルリクエストが詳細なレビューを経ないまま、表面的なチェックのみで済まされているという顧客の声が開発の背景にある。新機能はエージェントを活用することで、人間による最終判断の前に、より深く自動化されたレビュー範囲を提供する。

 Anthropicのエンジニアによるコード出力は、過去1年間で200%増加しており、人間のレビュアーへの負担が急増している。同社は、自社のAIを使用してコードを記述しており、これによってコードの生産速度が向上した結果、変更点や新しいコードブロックがかつてない速さで生成されるようになった。現在Anthropicの内部では、ほぼ全てのプルリクエストに対して、この新しいCode Reviewシステムが実行されている。通常プルリクエストのレビューでは、人間のレビュアーが指摘した問題点に対して開発者が修正を行う。

 Code Reviewの導入前、Anthropicのエンジニアが「実質的な」内容を含むレビューコメントを受け取る割合は約16%だった。しかし、Code Reviewの導入後は、その割合が54%にまで上昇している。これは開発者の作業量が増えたようにも見えるが、実際には、深刻な影響を及ぼす前に発見されたコード上のミスが、従来の約3倍に増えたことを意味している。

 Anthropicの報告によれば、内部プルリクエストの規模がレビュー結果に影響を与えている。1000行以上の変更を含む大規模なプルリクエストでは84%の確率で問題が検出される一方、50行未満の小規模なプルリクエストでも31%の確率で何らかの指摘がなされる。Anthropicのエンジニアは、AIが提示する内容のほとんどに同意しており、不正確であると判断された指摘は1%未満にとどまっている。

 Anthropicは、初期テスト中にCode Reviewが特定した問題の例をいくつか挙げている。

 あるケースでは、日常的な修正に見える1行の変更があった。通常であればすぐ承認されるような内容だったが、Code Reviewはこれを「重大な問題」としてフラグを立てた。調査の結果、そのわずかな変更がサービスの認証機能を破壊する恐れがあることが判明した。Code Reviewが事前に検知したため、本番環境への移行前に修正できたが、担当したエンジニアは自分一人ではこのエラーに気付けなかっただろうと述べている。

 また別の例では、オープンソース製品のファイルシステム暗号化コードを再構成している際に問題が見つかった。Code Reviewは、プルリクエストが直接修正した箇所ではない隣接するコード内に、以前から存在していたバグを検出した。それは、同期の度に暗号化キーのキャッシュを暗黙的に消去してしまう型の不一致であった。これはプログラミングの世界で「サイレントキラー」と呼ばれる種類のもので、データの損失やパフォーマンスの低下、セキュリティリスクを招く可能性がある。Anthropicは、プルリクエストがたまたま接触した箇所の潜在的な問題であり、変更セットをスキャンする人間がすぐに見つけ出せるようなものではなかったと説明している。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)