Google DeepMindがGemini APIのFile Searchを拡充、マルチモーダルおよびメタデータ検索能力を大幅強化 — BigGo ファイナンス

Google DeepMindチームは、Gemini APIの「File Search」ツールの大規模な拡張を発表し、3つの主要機能を導入した。具体的には「マルチモーダル対応」「カスタムメタデータフィルタリング」「ページ番号レベルの引用」である。これらの改善により、開発者はより効率的かつ検証可能なRAG(検索拡張生成)システムを構築でき、非構造化データの整理・活用をより構造化された形で行うことが可能になる。

これまでRAGシステムの検索能力は主にテキストに限定されており、画像やグラフなどの視覚情報の処理には課題があった。今回の更新により、File Searchは「Gemini Embedding 2」モデルを用いたマルチモーダル処理に対応し、画像とテキストを同時に理解できるようになった。これにより、開発者はキーワードやファイル名に依存することなく、自然言語による記述だけで特定の雰囲気を持つ画像などを検索できる。例えば、クリエイティブエージェンシーが大量の素材から特定のニュアンスを持つ画像を探す際、テキストで指示を出すだけで最適な素材に到達できる。Klipyの共同創業者であるGivi Beridze氏は、新モデルが品質の不安定な画像内の文字認識においても優れたパフォーマンスを発揮し、ハルシネーション(幻覚)を排除して実務レベルの信頼性を高めていると高く評価している。

大規模なデータ管理において、検索のノイズはRAGの効率を低下させる要因であった。Googleが今回導入したカスタムメタデータ機能では、「department: Legal」や「status: Final」といったキーと値のタグをファイルに付与できる。クエリ実行時にこれらを用いてフィルタリングすることで、無関係な文書の混入を大幅に削減し、検索速度と精度を同時に向上させる。

もう一つの重要な改善が「ページ番号レベルの引用」である。模型が大規模なPDF文書から回答を抽出する際、どのページの情報を参照したかを自動的に記録する。このきめ細やかな溯源能力により、ユーザーは原始資料を直接確認することが可能となり、モデルの説明責任と信頼性が大幅に強化された。これは事実確認が厳格に求められる業務において極めて重要である。

開発者は「google-genai」ライブラリを通じて、マルチモーダルなファイル格納やドキュメント・画像のアップロード、さらには「Gemini 3 Flash Preview」モデルによるファイル横断検索を即座に利用できる。Googleは包括的な開発ガイドを提供しており、開発者がインフラ管理ではなくアプリケーションの革新に集中できる環境を整えている。

GoogleのAIモデル戦略は多角化している。報道によると、同社は新たに「Gemma 4」と「Gemini 3.1 Pro」という、性格の異なる2つのモデルを展開している。Gemini 3.1 ProはGoogleのサービスと統合されたクラウド型モデルであり、一度のクエリで1500ページものコンテキストを扱える。一方、Gemma 4は無料でオープンソースのローカルモデルであり、オフライン動作によって高いプライバシー保護を実現する。

Gemini 3.1 Proは、高性能かつGoogleエコシステムとの深い統合を求めるユーザー向けに設計されている。Gmail、Drive、Calendarとのシームレスな連携、高度なリサーチやデータ分析、タスクを自動化する「gems」の作成機能などが特徴だ。複雑な推論や多段階のタスク解決において高いパフォーマンスを発揮する。

対照的にGemma 4は、プライバシー、オフライン動作、アクセシビリティを重視している。端末上で直接動作するためネット接続が不要であり、データが機内に留まるため安全性が高い。完全に無料で使用できるため、プライバシーに敏感な個人や通信環境の限定的な地域、コストを抑えたいユーザーにとって理想的な選択肢となる。

全体として、Googleはクラウドからローカル環境、汎用から専門領域までをカバーする階層的なAI製品マトリックスを構築している。File Searchの強化は企業向けRAG市場での優位性を高め、Gemini 3.1 ProとGemma 4の棲み分けによって、より幅広いユーザー層のニーズを網羅する狙いがある。