Google DeepMindは9月26日、汎用(はんよう)的なロボットを実現するため、2つの新しいモデル「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表した。これらは、高度な思考に基づき、ロボットが自律的にタスクをこなし、エージェントのような振る舞いを可能にするモデルとなる。
Gemini Robotics 1.5は、同社で最も高性能な視覚・言語・行動(VLA)モデルとなる。視覚から得た情報と指示を、ロボットがタスクを実行するための具体的な動作命令へと変換できる。
同モデルの特徴は、行動を起こす前に「思考」する点であり、その思考プロセスは目に見える形で示される。これにより、ロボットは複雑なタスクを、より透明性の高い方法で評価し、完了させられる。また、複数のロボット間で学習データを共有できるため、スキル習得のスピードが加速する。
一方、Gemini Robotics-ER 1.5は、エンボディド・リーズニングモデル(身体性推論モデル)、つまり現実世界の物理的な状況を理解し、それに基づいて推論する能力を持つモデルである。これは、ロボット全体の頭脳のように機能し、全ての活動を統括する。
物理世界の状況を正確に把握する最先端の空間認識能力を生かし、論理的な意思決定と計画立案に優れる。また、人間と自然な言葉で対話できるだけでなく、タスクの成功率や進行状況を予測する。さらに、必要に応じてGoogle検索などのツールで情報を集めたり、サードパーティーのユーザー定義関数を使ったりすることも可能だ。
これら2つのモデルは、中核となる「Gemini」モデルファミリーを基盤とし、それぞれの役割に特化するよう異なるデータセットでファインチューニングされている。これらを連携させることで、ロボットはより長いタスクや多様な環境への汎化能力を高められる。
Google DeepMindによると、これまでのロボットは形状、サイズ、センサー、関節の自由度などが一体ごとに全て異なるため、あるロボットで学習したスキルを別のロボットに応用することが大きな課題だった。
しかし、Gemini Robotics 1.5は、異なる機体(エンボディメント)を横断して学習できるという能力を持つ。新しい機体ごとにモデルを特化させる必要がなく、あるロボットで学習した動きを別のロボットに移せる。この飛躍的な進化は、ロボットが新しいスキルを習得する速度を加速させ、その知性と実用性をさらに高いレベルへと引き上げるという。
Gemini Robotics-ER 1.5は、同日からGoogle AI Studioを通じて利用可能だ。Gemini Robotics 1.5に関しては、一部のパートナー企業への提供を開始している。ベンチマークなどの詳細は公式ブログで確認できる。
ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)
