
グーグル(Google)の生成AI「Gemini 3.5 Flash」が、パソコンを操作できる「Computer Use」に対応した。ユーザーがスマートフォンやパソコンを操作するのと同じように、AIが画面を認識して、入力やマウス操作などができるようになる。
「Computer Use」は、Geminiが画面を見て、マウスのクリックやキーボード入力など特定のアクションを自動で生成して操作するもの。
たとえば、Webサイトで何かしらの予約をする際、自然言語でプロンプトを入力するだけで、繰り返し発生する作業をGeminiが代行する。Webアプリケーション開発者であれば、ユーザーインターフェイス(UI)のテストを繰り返し実施したい場合に、Geminiがそのテストを自動化してくれる。
今回のモデルでは、モバイル環境での操作もできるようになった
なお、「Gemini 3.5 Flash」を利用したモデルからは、機密性の高い操作や取り消し不可能な操作をする際、ユーザーに確認を求めるオプションが搭載される。また、悪意の可能性がある「間接的なプロンプト」の挿入が検出された場合、タスクを自動的に停止する。これらのオプションは、「ターゲット型敵対的トレーニング」の一環で、開発者に向けては、セキュアなサンドボックスや厳格なアクセス制御などの対策を講じるよう案内している。
「Gemini 3.5 Flash」を利用した「Computer Use」は、「Gemini API」と「Gemini Enterprise Agent Platform」から利用できる。