Gemini Deep Research Agent登場｜Googleの自律型AIが公開Webと社内データを横断調査

調べものに何日もかけた経験は、きっと誰にでもあるはずです。その「調べる」という作業まるごとを、AIに任せられる時代が近づいてきました。Googleが公開した「Gemini Deep Research Agent」は、ただ質問に答えるAIではありません。自分で調査計画を立て、公開されているWebと社内に眠るデータの両方を何度も検索し、読み込み、最後は出典付きの一本のレポートにまとめあげる——いわば「自律的に動くリサーチャー」です。金融や市場分析といった硬い実務での活用が見込まれる一方、機密データと外部Webをまたぐがゆえの新しいリスクも顔をのぞかせます。便利さと、その裏側にある備え。両面から、この技術がもたらす変化を読み解いていきます。

2026年5月29日（UTC）更新のGoogle Cloud公式ドキュメントで、Googleの自律型AIエージェント「Gemini Deep Research Agent」の利用方法が示されました。Geminiを基盤とするマネージド型AIエージェントで、多段階のリサーチワークフローを計画・実行・統合し、出典付きレポートを生成します。本記事執筆時点ではPreview（Pre-GA）段階にあります。グローバルエンドポイントv1beta1経由で、Google Gen AI SDKまたはREST APIから利用し、エージェントIDはdeep-research-preview-04-2026を指定します。非同期のバックグラウンド実行とストリーミングが必須で、タスク完了には数分を要します。

利用可能なツールはGoogle Search、URL Context、MCPサーバー、Enterprise Web Search、Agent Searchです。tools未指定時はGoogle SearchとURL Contextが有効になります。実行制限は120分で、超過時はHTTP 500を返します。プロンプトと生成出力は標準で7日間、Grounding with Google Search利用時は3日間保存されます。プレビュー期間中はシングルターンのみ対応し、CMEKとVPC Service Controlsは非対応です。

From: Use the Gemini Deep Research Agent | Gemini Enterprise Agent Platform | Google Cloud Documentation

【編集部解説】

今回のドキュメントを読み解く前に、まず一つ補助線を引いておきます。いま取り上げた「Gemini Deep Research Agent」は、Google Cloud の企業向け基盤（旧 Vertex AI、現 Agent Platform）に載った“エンタープライズ版”です。そのルーツは2025年12月、開発者向けに Interactions API 経由で公開された Deep Research にさかのぼります。

その流れが大きく動いたのが今年の春でした。2026年4月21日、Google は Deep Research と Deep Research Max という2つの自律型リサーチエージェントを Gemini API 上で公開し、いずれも Gemini 3.1 Pro を基盤としています。今回のドキュメントが扱う Agent Platform 版も、同じく Gemini 3.1 Pro を用い、公開ウェブと企業の非公開データという複数のデータストリーム（公式には3つの高精度データストリーム）を同時にまたいで処理する設計になっています。

ここで一度、用語をほどいておきましょう。本文に頻出する「グラウンディング」とは、AI の回答を手元の事実や信頼できる情報源に”接地”させ、根拠と出典を伴わせる仕組みのことです。エージェントが推測で語るのではなく、検索し、読み、出典を添えて報告する。この一点こそが、従来のチャット型 AI との決定的な違いだと言えます。

では、何ができるようになるのか。要点は「これまで人手で何日もかけていた調査を、自動で下書きまで一気に進められる」という時間圧縮にあります。性能面の裏づけも示されました。上位ティアの Deep Research Max は、DeepSearchQA で93.3%（昨年12月の66.1%から上昇）、Humanity’s Last Exam で54.6%（同46.4%から上昇）を記録したと報じられています（この2つの数値はGoogleの発表資料および海外報道に基づくものです）。一方、ウェブ調査能力を測る OpenAI の BrowseComp については、Google DeepMind のモデルカードで Gemini 3.1 Pro が85.9を記録し、前世代の59.2から約26.7ポイント伸びたことが確認できます。

実務イメージも具体的です。海外の解説記事では、標準の Deep Research が数分で数十回規模の検索をこなし、上位の Max はさらに多くの検索と長い処理時間を費やすと伝えられています（これらの具体的な回数や時間は二次情報に基づく数値で、公式仕様として確認できるのは、今回のエンタープライズ版の実行上限が120分であるという点です）。用途の住み分けは明快で、対話的な分析には Deep Research、網羅的なレポートを仕上げる非同期業務には Max、という設計思想がうかがえます。

注目すべきは、金融・市場分析といった”硬い領域”が、活用例として前面に置かれている点でしょう。Google は FactSet、S&P Global、PitchBook と組み、すぐに使える金融データの MCP サーバーを提供するとしています。自社の機密データと公開ウェブを「一度の API 呼び出し」で横断できることが、この製品の核心的な価値です。

一方で、その核心はそのままリスクの源泉でもあります。原文の「ベストプラクティス」が、プロンプトインジェクションへの警戒と「データの持ち出し（exfiltration）を避けよ」という注意を明記しているのは示唆的です。機密データの要約をさせながら同時にウェブ閲覧を許す——この組み合わせこそ、自律エージェント時代に新しく生まれた攻撃面なのだと、筆者は受け止めています。

ここで、参照元の報道とは少し角度を変えた見方を一つ。海外メディアの多くは Gemini API 版の華やかな性能を伝えていますが、今回のエンタープライズ版ドキュメントを精読すると、むしろ「抑制」が目立ちます。開発者向け Gemini API では複数ターンの対話や協調的プランニングが可能とされるのに対し、企業向けの本ページはシングルターンのみ、120分の実行上限、そしてプレビュー中は CMEK や VPC Service Controls が非対応と明記しています。性能を誇示するより、ガバナンスの境界を先に引いている——その慎重さは、企業導入を見据えた現実的な姿勢の表れだと読めます。

評価の過熱には、冷静な留保も添えておきたいところです。実務的な専門知識の統合を測る GDPval-AA という評価では、Gemini 3.1 Pro は1317という相対的に低い Elo にとどまり、Claude Sonnet 4.6（1633）や Claude Opus 4.6（1606）が上回ったことが、Google DeepMind のモデルカードに記載されています。「ウェブ調査では最高水準」と「あらゆる知的業務で最強」は、必ずしも同義ではないのです。

規制と長期の視点でも、この製品は試金石になりそうです。プロンプトや生成物が一定期間保存され、Grounding with Google Search 利用時にはその保存を無効化できないという仕様は、個人情報保護や業種別の規制が厳しい日本企業にとって、導入前に必ず精査すべき論点でしょう。自律エージェントが社内外のデータを横断する時代に、「誰が・どの根拠で・何を判断したか」をどう監査可能にするか。その設計思想が、これからのAIガバナンスの実装を左右していくはずです。

最後に、読者の皆さんにとっての意味を。これは単なる便利機能の追加ではなく、「調べる」という知的労働そのものが、人間の手から半ば自律的なエージェントへと移譲され始めた節目だと捉えています。だからこそ、出典を検証する目と、機密を守る作法は、これまで以上に私たち人間の側に求められる。技術が前に出るほど、使い手の成熟が問われる——その当たり前を、改めて思い出させてくれる一報でした。

【用語解説】

AIエージェント（自律型エージェント）
人間の都度の指示を待たず、目標に向けて計画・検索・判断・実行を自律的に繰り返すAIのこと。単発の応答を返すチャット型とは区別される。

マネージド型AIエージェント
インフラの構築・運用をクラウド事業者側が肩代わりし、利用者はAPI経由で機能だけを使える形態のエージェントを指す。

グラウンディング（grounding）
AIの出力を、検索結果や手元の信頼できる情報源に「接地」させ、根拠と出典を伴わせる仕組み。推測による生成（ハルシネーション）を抑える狙いがある。本サービスでは公開ウェブ・企業内ナレッジ・アップロード文書などを同時に参照する。

URL Context
指定または発見したURLの内容を読み込み、回答の根拠とする機能。Deep Researchではtools未指定時に、Google Searchとともにデフォルトで有効になる。

Preview（Pre-GA）
一般提供（GA）前の試験提供段階を指す。サポートが限定的で、仕様変更がありうる。機密データの投入や商用利用は想定されていない。

Interactions API
Deep Research が用いる、バックグラウンド実行と多段階タスク管理を前提とした新しいインターフェース。通常の generate_content では呼び出せない。

シングルターン／マルチターン
一往復で完結する問い合わせがシングルターン、対話を重ねて文脈を引き継ぐのがマルチターン。エンタープライズ版はシングルターンのみ対応である。

グローバルエンドポイント（v1beta1）
特定リージョンに固定せず利用するAPIの接続先。v1beta1 は開発版（ベータ）であることを示す版番号だ。

Gemini 3.1 Pro
Gemini Deep Research Agent の基盤となるモデルで、2026年2月19日に公開された。推論能力を引き上げた点が特徴とされる。

トークン
AIが文章を処理する最小単位。入力・出力のトークン量が処理コストの基準になる。

DeepSearchQA
2025年12月に Google がオープンソース化した、ウェブ調査エージェントの網羅性を測るベンチマーク。

Humanity’s Last Exam（HLE）
専門家レベルの難問を集めた、AIの知識・推論力を測る高難度の評価指標である。

BrowseComp
OpenAI が公開した、オンライン調査能力を測るベンチマーク。

GDPval-AA
実世界の専門業務（知識統合・文書作成・戦略立案など）の遂行力を測るとされる評価。

Elo
相対的な強さを数値化するレーティング方式。値が高いほど優位とされる。

プロンプトインジェクション
入力文や読み込ませた文書に不正な指示を仕込み、AIの挙動を乗っ取る攻撃手法のこと。

データの持ち出し（exfiltration）
機密情報が、許可されていない外部へ流出すること。エージェントに社内データとウェブ閲覧を同時に許す際の主要リスクである。

CMEK（顧客管理の暗号鍵）
暗号鍵を顧客自身が管理する仕組み。プレビュー期間中は非対応とされる。

VPC Service Controls
データの外部流出を防ぐため、Google Cloud のサービス境界を設ける機能。これもプレビュー中は非対応だ。

HTTP 500
サーバー側の内部エラーを示すステータスコード。本サービスでは120分の実行上限超過などで返される。

AIガバナンス
AIの判断・利用を、責任・透明性・監査可能性の観点から統制する枠組みの総称である。

【参考リンク】

Gemini Enterprise Agent Platform（旧 Vertex AI）｜Google Cloud（外部）
エージェントの構築・運用・統制を担う Google Cloud の基盤。Deep Research はこの上で提供される。

Gemini API｜Gemini Deep Research Agent（開発者向け公式ドキュメント）（外部）
開発者がGemini APIキーで利用する版の解説。協調的プランニングや可視化など、企業版との差分が確認できる。

Google 公式ブログ｜Deep Research / Deep Research Max 発表記事（外部）
2026年4月の Deep Research / Deep Research Max 発表を伝えるGoogleの一次発信。設計思想と狙いがまとまっている。

Gemini 3.1 Pro モデルカード｜Google DeepMind（外部）
BrowseComp 85.9、GDPval-AA（1317/1633/1606）などの公式ベンチマーク値を確認できる一次情報。

Model Context Protocol（MCP）公式サイト（外部）
AIと外部ツール・データソースを接続する標準規格。Deep Research が外部データを参照する際の基盤となる。

FactSet（外部）
金融データ・分析を提供する企業。Deep Research 向けMCPサーバーの提携先とされる。

S&P Global（外部）
格付け・市場データを扱う調査会社。同じく金融データMCPの提携先に挙げられている。

PitchBook（外部）
未公開株・M&A情報に強いデータ企業。金融データMCPの提携先の一つである。

OpenAI（外部）
BrowseComp ベンチマークの公開元。生成AI分野でGoogleと競合する主要企業だ。

Anthropic（Claude）（外部）
GDPval-AA 比較で言及された Claude シリーズの開発元。エンタープライズ向けAIで競合する。

【参考動画】

Deep Research Max: A step change for autonomous research agents（Google 公式）
Gemini 3.1 Pro を基盤とする新しい Deep Research エージェントが、MCP対応・ネイティブな可視化・長時間の調査ワークフローをもたらすことを紹介する、Googleの公式解説動画。2026年4月の発表に合わせて公開されたもの。

【参考記事】

Gemini 3.1 Pro – Model Card（Google DeepMind）（外部）
BrowseComp 85.9（前世代59.2、差26.7ポイント）、GDPval-AAのElo（Gemini 3.1 Pro 1317／Claude Sonnet 4.6 1633／Claude Opus 4.6 1606）を記載する公式モデルカード。ベンチマーク数値の一次的裏づけとして用いた。

Google’s new Deep Research and Deep Research Max agents can search the web and your private data（VentureBeat）（外部）
2エージェント公開を報じる記事。Deep Research Max が DeepSearchQA 93.3%（12月66.1%から）、HLE 54.6%（同46.4%から）を記録したことや、基盤の Gemini 3.1 Pro が2月19日公開でARC-AGI-2で77.1%を出したことを伝える。ベンチマークのグラフ表現が誤解を招きうるとの利用者の指摘も併記。

Google Launches Deep Research Agents Powered by Gemini 3.1 Pro for Enterprise Use（Technobezz）（外部）
金融・ライフサイエンス向けに、公開データと社内データを一度のAPI呼び出しで横断する二層構成を解説。Deep Research Max が DeepSearchQA 93.3%、HLE 54.6%、Gemini 3.1 Pro が BrowseComp 85.9 を記録したと報じる。

Gemini Enterprise Agent Platform release notes（Google Cloud Documentation）（外部）
企業版 Deep Research が Gemini 3.1 Pro を用い、公開ウェブと社内コンテキストを3つの高精度データストリームとして同時にグラウンディングする設計だと記す、Google自身のリリースノート。

Build with Gemini Deep Research（Google 公式ブログ・2025年12月）（外部）
開発者向け公開時の一次発信。当時の基盤は Gemini 3 Pro で、HLE 46.4%、DeepSearchQA 66.1%、BrowseComp 59.2% を記録、ベンチマーク DeepSearchQA をオープンソース化したと伝える。

【関連記事】

Gemini Enterprise Agent Platform正式発表—Google Cloud Next ’26が告げる「エージェント時代」の本番開幕
Deep Researchが載るプラットフォームそのものの全体像。Agent IdentityやAgent Gatewayなど”ガバナンスインフラ”の文脈がつかめる。

Gemini 3.1 Pro登場 Googleが再びAIモデル競争の最前線へ
本記事のベンチマーク値の根拠となる基盤モデルの解説。ARC-AGI-2 77.1%など、Deep Researchを支える推論性能がわかる。

MCP脆弱性にNSAが警鐘、AnthropicのMCP InspectorでCVSS 9.4のRCE発覚 — エージェント型AIの落とし穴
本記事で触れたプロンプトインジェクション・データ持ち出しリスクを、実例から深掘りした記事。

Google Gemini Deep Research、Gmail・ドライブ・チャットと連携開始。AIが個人データから包括的調査レポートを生成
同名機能の消費者向け版。今回のエンタープライズ展開に至る前史として読める。

【編集部後記】

「調べる」という仕事の一部を、AIに任せられる日が現実味を帯びてきました。みなさんなら、まず何を調べてもらいたいでしょうか。日々の情報収集でしょうか、それとも踏み込めずにいた専門領域でしょうか。

一方で、出典を確かめる目や、機密をどう守るかという問いは、これまで以上に私たちの側に残されているようにも感じます。便利さと向き合い方を、同じ熱量で考えてみる。そんなふうに、この技術と一緒に歩く道を、みなさんと探っていけたら嬉しいです。