ニュース NVIDIAタラ氏が語るフィジカルAIの今と未来 - AI Watch

ディープ・タラ氏

　NVIDIAは6月3日、台北市内でロボティクスおよびエッジAI担当バイスプレジデントのディープ・タラ氏を囲むラウンドテーブルを報道関係者向けに開催した。同氏からはフィジカルAIを巡る最新の動向が語られた。

精度がフィジカルAI実現の鍵

　タラ氏は、1日に開催されたジェンスン・フアンCEOによる基調講演を振り返りながら、「私たちは2年ちょっと前からフィジカルAIについて話してきた。ジェンスンは2024年3月のGTCでこの言葉を提唱し、ここ2024年のCOMPUTEXでもそれについて話した。なぜ私たちがフィジカルAIについて話すのか、その理由は明白だ。一言で言えば、人類にとって最大の機会だからだ。世界の80％は物理的なもので構成されている。もちろん、デジタルAIと比較したフィジカルAIの課題は、物理世界における知能の精度要求がデジタル世界よりもはるかに高いことだ」と語る。

　同氏によれば、ChatGPTやGeminiを使ってスライドを作成したりする場合、最後に人間が内容を確認して仕上げるため、90～95％程度の精度でも許容されるが、物理世界ではいちいち人間が手助けするわけにいかないため、「フィジカルAIで解決しなければならない第一の問題は、常に精度であり、AIの知能が十分に優れている必要がある」という。

　同社ではこうした問題の解決に向けて技術開発に取り組んでおり、3年前の大規模言語モデル（LLM）から、ビジョン言語モデル（VLM）、ビジョン言語アクションモデル（VLAM）、そして環境全体をモデル化する「世界基盤モデル（World Foundation Models）」へと進化させてきた。同氏は「推論（Reasoning）とともにすべての技術が進歩しているため、実際にいくつかのフィジカルAIのユースケースで精度問題を解決できるようになっている」とする。

　同氏は、フィジカルAIを100メートル走でオリンピックへの出場を目指す選手にたとえ、「10秒のフレームワーク」と表現する。最終的なゴールを金メダル獲得とすると、まずは予選を通過し、オリンピックに出場するために10秒の壁を超える必要がある。

「10秒を切ればゲームに参加したことになり、あとはスケールアップの問題で、自動運転車については、ここ6か月ほどで10秒を切ったと言える。しかし、それが完璧であることを意味するか？　いや、オリンピックの金メダルを獲得するには9.7秒を出す必要がある。それは信じられないほど困難だ。でも、何台のWaymo、何台のTesla、何台の自動運転車が走っているか。突然、数年前の100倍以上の数になっている。私たちはその瞬間を見ている」というのがタラ氏の見解だ。

　外観検査、自律走行搬送ロボット（AMR）、マニピュレーション（操作）ロボット、そして最終形とも言えるヒューマノイドなどでも同様のブレイクスルーが起こる必要があるとする同氏は、「おそらくヒューマノイドが最大の機会だが、器用な操作、物理法則への対応など、非常に多くの処理を伴うため、最も困難なものでもある。それが私たちの歩んでいる旅で、解決すべき最初の技術は精度だ」と説明する。

エージェンティックAIの登場が追い風に

　ここ数か月におけるエージェンティックAIの進化は、フィジカルAIにもポジティブな影響をもたらしている。

　タラ氏は「機械を既存の世界に統合するのは、会社で従業員を雇うようなもので、まずその従業員が知的である必要があり、一度採用したら会社の他のメンバーやプロセスとうまく統合することを期待する。そうでなければ役に立たない。フィジカルAIも同様で、どのような展開であっても統合される必要があり、他のロボット、異なる形態、異なる知能レベル、人間、デジタルAIとうまく連携し、それらすべてをオーケストレートする必要がある。人間がプログラミングしてこれを行なうのは不可能だ」と語る。

　そこに、エージェンティックAIが登場し、ロボットの統合や、プログラマブルロジックコントローラー、ビル管理システムなどの技術との統合を実現する接着剤となるようなコードをAIに書かせることが可能になり、「ここ3か月だけで驚くべき進歩が見られた。モデルがますます正確になり、エージェンティックAIがワークフローへの統合を可能にしている」のだという。

「精度問題を解決するために最も重要なことの一つは、モデルをトレーニングするための優れたデータを持つこと」だと語るタラ氏だが、「フィジカルAIのデータキャプチャーのハードルは非常に高い」とも指摘する。

　同氏は「インターネット全体にアクセスできたChatGPTとは異なる。最高の書籍、最高の記事、論文、それらすべてが利用可能だった。だからこそ、大規模言語モデルは優れたゴールドスタンダードでトレーニングできた。物理世界ではそうはいかない。テレオペレーション、ミミック、イミテーション学習、モーションキャプチャーなど、さまざまな方法で多くの物理データがキャプチャーされており、すべて必要だが十分ではない。そのため、合成データ生成（Synthetic Data Generation）が必要になる」と語る。

　合成データ生成を行なう方法のうち、最も有望な技術の一つが「世界基盤モデル」だという。同氏は、「例えば、ここにボトルを落としたとする。ロボットがアクションを起こしたが、環境も変化した。それも、他のロボットやこのロボットが取る他のあらゆるアクションのためにキャプチャーされる必要がある。つまり、ロボットだけでなく、環境全体、世界全体で、どのような物理的作動が起こったとしても、そのフィードバックを組み込む必要がある。それが世界基盤モデルの基本的な意味で、ロボットだけでなく環境全体となる」と説明する。

　タラ氏は「Cosmos 3は私たちの最初のオムニモデルだ。ビデオ、音声、テキスト、3Dだけでなく、アクションやインテントが追加され、多くの異なるモダリティが追加された。このモデルは完全にオープンで、これは誰でも、私たちが持つ最高のバージョンを取得し、それぞれの環境に適応させることができるということ。必要に応じて非公開にすることもできるし、オープンソースにすることもできる。Cosmosは主にフィジカルAIのデータ生成、推論、シミュレーション用であり、これらすべてを行なうことができる」とアピールする。

ライブラリーの充実とリファレンスモデルの提供で業界の進歩を加速

　もう一つ、タラ氏がNVIDIAの優位性になるとするCUDA-Xライブラリーも重要な存在となる。同氏は、「過去には、各デベロッパーと協力して、彼らが望むライブラリーやツールを選び、彼らのプラットフォームやソリューションに統合するために懸命に取り組んできた。非常に時間がかかる作業だったが、今ではエージェンティックAIの登場により、すべてのCUDAライブラリー、リファレンスモデル、私たちが持つすべてのツールをエージェントレディにした。つまり、人間が介在しなくても、ドキュメンテーションが準備され、コードが再構築され、すべてが構造化されているため、エージェントが自ら統合やシステムの構築を行なえるようになっている。これは開発時間を短縮し、生産性を大幅に向上させるため、大きな進歩だ」と振り返る。

　Jetsonについては、「ランタイムコンピューター、いわばロボットの脳となるコンピューターだが、今回初めて各コンピューターに完全なエージェントを導入した。2つのコマンドだけで、基本的にNVIDIAの技術を活用してすべてのソフトウェアを構築できる」とする。

　昨今はメモリー不足も世界的な問題になっている。タラ氏は、「幸いにも、NVIDIAは優れたサプライチェーンを持っているため、少なくとも容量を確保することはできる。それでもまだ十分ではない」とした上で、「エージェンティックAIを使って、各アプリケーションを調べ、メモリーのフットプリントを削減する機会を探すことはできなかった。この2週間で、私たちはこれらすべてのエージェントを作成し、異なる業界の10の異なる企業と協力した。Jetsonでは1万以上の企業が取り組んでいるため、10の多様なユースケースを選び、エージェントを実行して彼らと協力した。その結果、メモリーのフットプリントが25〜30％、中には40％削減されるケースも観察されている。これにより、16GBや14GBを使用していたものが8GBで動くようになる。これは大きな一歩で、同じメモリー容量で、2倍のデバイスを出荷できる。これがエージェンティックAIが可能にしたイノベーションの一つだ」と語った。

　同氏は、COMPUTEX TAIPEIの開催地となる台湾に触れ、「もちろん製造業の拠点だが、こうした製造業では、外観検査用ロボット、標準作業手順（SOP）用ロボットなど、多くの異なるロボットを展開することになる。それらをどのように統合するのか？　そのためのブループリント（設計図）も作成した。それがエージェント・ブループリントで、基本的には工場全体のオペレーションエージェントを可能にする」と紹介。

　そして「人類の前に広がる最大の機会であると確信している」とするヒューマノイドロボティクスについて、「いつの日か、一般的な汎用脳を持つ、異なる形態のヒューマノイドロボットが数百億台存在するようになるだろう。しかし、その脳は今日存在していない。ChatGPTは登場したが、ヒューマノイドや汎用ロボットの脳に相当するChatGPTのようなものは存在せず、精度が十分に高くない」と説明。

　この分野の研究者たちが日々研鑽を重ねるなか、「計算資源へのアクセスについては、私たちが解決しつつある。しかし、ハードウェアへのアクセスが問題で、彼らはヒューマノイドのハードウェアやアームを自ら組み立てなければならない。私たちの研究室でもそれを経験した。研究者たちは常に修理ばかりしている。ヒューマノイドの手を見るべきで、人間がテーピングするように、彼らもテープを巻いている。彼らは本来の研究をする代わりに、時間の大部分をロボットの修理に費やしている」と、研究の裏側を紹介。

　同氏は、「そこで、私たちはいくつかの企業と提携してリファレンスデザインを作成し、完全なハードウェアを提供できるようにした。研究コミュニティはロボットの脳の構築とテストにすべての時間を集中できるようになる。これにより、研究コミュニティが優れた汎用ロボットを構築する速度が大幅に向上するはずだ」と述べ、同社がIsaac GROOTのリファレンスヒューマノイドを提供する意義を強調した。

SF映画の世界はいつ実現する？

　プレゼンテーション後の質疑応答では、さまざまな質問が投げかけられたが、タラ氏は一つ一つ丁寧に回答していった。それらのうち、とくに興味深いと感じられたコメントを紹介したい。

――最初にデジタルAIと比較したフィジカルAIに必要な精度について話していたが、ロボットのみの環境でロボットが活動するシナリオもある。そのような環境では、人間や他の生物への危険がないため、必要な精度は低くなる。一方で、自動運転などでは、高速で移動し、迅速な意思決定が必要なため、非常に高い精度が必要になる。ロボットが正確に相互作用できるかという点において、より多くの計算資源を投入すれば精度を高くできるのか、それともモデル側の問題なのか。

タラ氏：最近まで、ほとんどの自動化は人間によってプログラミングされてきた。それは本当の意味での自律ではない。しかし、今私たちはそれをますます自律的にしようとしている。トレーニングに使うデータが精度をもたらすことは間違いない。そして現在、データを生成するためには計算資源がボトルネックになっている。

　そして、脳を展開するとき、精度と計算資源は、その脳がいくつのタスクを行なう必要があるかによって決まる。これについて考える方法は、ChatGPT以前の世界を想像することで、以前、私たちは10年近くAIを展開してきたが、それらはいわゆるスペシャリストだった。レコメンデーション専用の特別なモデルがあり、NetflixやFacebookがそれを持っていた。あるいは自動運転車であれば、車線検出用のモデルがあり、標識検出用の別のモデルがあり、それらすべての専門モデルを組み合わせていた。

　ChatGPTが行なったのは、特定のデータや特定のタスクに特化してトレーニングされたわけではないジェネラリストモデルだった。多くの一般的なタスクを、そこそこうまくこなすことができた。現在起こっていることは、それをベースとして捉え、そのジェネラリストからスペシャリストを派生させるということだ。

　例えば、10歳の子どもにも、いわゆるスペシャリストとして何か仕事をさせることができるかもしれない。しかし、なぜほとんどの人が大学の学位を取得するまで待つのだろうか。それは、その年齢で優れたジェネラリストのレベルに達し、複数のことができるようになると考えるからだ。しかし、彼らを会社に連れてきても、それがゴールではなくスタートラインで、彼らは特定の分野のキャリアで専門化し、さらに深く進んでいく。

　ロボティクスでも同じことが起こる必要がある。現時点では、私たちはまだジェネラリストの段階に達しておらず、ある種の中間のスペシャリストの段階にいる。旅はジェネラリストに向かっており、十分に優れたジェネラリストに達すれば、そこからスペシャリストを派生させられる。スペシャリストを派生させるときは、重要でなければジェネラリストが持っていた多くのことを忘れさせ、特定の分野に超特化させるというシナリオがあり得る。

　すべてのロボットが優れたゴルファー、優れたサッカー選手、優れた配管工、優れた外科医である必要はない。最終的には専門化するが、状況が少し変わったときに対応できるよう、十分にジェネラリストであってほしい。それが起こるべきことだ。

――一部のAIファクトリーでは、ボトルネックがチップからメモリーやパッケージング、ネットワーキングにシフトしている。フィジカルAIがスケールするにつれて、次にどこにボトルネックが現れるのか。

タラ氏：製造、物流、倉庫、小売、輸送など多くの業界を見ると、確実に労働力不足が存在する。また、人間がすべきではない危険な仕事や、若い世代がやりたがらない仕事もある。

　私たちがスループットを向上させるためにやりたいアイデアの数はたくさんあるが、それが十分に得られない理由の多くは労働力不足や管理の不足で、フィジカルAIがますます自律的になれば、明らかにそのギャップを埋めることができるようになる。

　しかし、まだ本当に成功しているとは言えない。なぜなら、ほとんどのユースケースでまだ「10秒のフレームワーク」の精度に達していないからだ。まずそれを達成しなければならず、それが汎用脳を実現するための探求だ。優れた汎用脳を実現できれば、そこから段階的に進化していくだろう。

――映画「I, Robot」の世界までには、あとどれくらいかかる？

タラ氏：私の考えでは、十分に優れた汎用脳が登場し、そこから専門的な機能を持つロボットが派生してくるでしょう。

　例えば、現在なぜほとんどのヒューマノイドが工場や倉庫に展開されているのか。その理由は非常に明白で、第1に労働力不足であり、切実に必要とされている。第2に、その環境が半構造化されているため、解決しやすいからだ。工場の多くの作業は固い物体の操作であり、安全面でもケージ柵で囲むことでクリアできるため、至るところに人間を配置する必要がない。だから、ビジネス的な理由からそこを狙うのは理にかなっている。

　では、家庭用ロボットはすぐに実現するのか？　私は実際、それはボトムアップでやってくると思っている。つまり、掃除機や、1つか2つのアームを持って靴下を拾ったりするようなシンプルなもので、かかる力がかなり限定されているものになる。それが安全性の問題を解決する方法だろう。

　人間サイズで大きな力を持ち、家庭のような環境に配置できる能力を持たせるには、まだ多くの作業が必要になる。脳が十分に優れておらず、作動の安全性も十分ではない。非常に多くのシナリオをシミュレートしなければならず、ロボットが命に関わるようなミスを犯すハードルは、自動運転よりもはるかに高い。

　なぜなら、自動運転は人間のドライバーと比較してすでに100倍安全でなければならないが、人々は1000倍を期待している。安全面などのテクノロジーが追いつき、本当にあらゆる場所で普及するまでには時間が必要になる。ユースケースが非常に多様であるため、特定のユースケースで精度や安全性が十分に達したものから順に行なわれていく、それが私たちが目にしていることだ。

　彼らが賢くなるにつれて、ソーシャルなコンパニオンシップとしての役割も、いつの日か非常に大きなものになるだろう。50年ではなく10年、いや、確実に10年未満であることを願っている。

　生まれてくるすべての子どもがロボットと共に生まれるようになるだろう。そしてロボットは子どもと共に成長する。3年後、ロボットの外見は交換するかもしれないが、思い出は永遠に残る。安全でセキュア。そして、あなただけを知っているコンパニオンを永遠に持つことになる。ロボットも成長する。だからこそ、この機会は確実に数十億、数百億の規模になる。

――家庭用ロボットのような物理的なアプリケーションでは、バッテリー寿命が重要な問題となるため、電力効率が非常に重要になると思うが、フィジカルAIの消費電力の課題にはどのように対応していくのか。

タラ氏：私の意見では、もちろん総消費電力は重要だが、知能、柔軟性、有用性、経済性、そして不気味でないことほど重要ではない。なぜなら、ヒューマノイドは自分で歩いてバッテリーを交換したり、新しいバッテリーを差し込んだりできる。人間がやる必要はない。自分で交換したり、家庭内で自ら充電に戻ったりすることができる。

　自動運転の場合は、充電ステーションから100マイル離れているかもしれないので、航続距離が重要な問題になる。充電ステーションから遠く離れているかもしれないと心配するからだ。

　しかし、ロボットは自律的であり、通常は特定の範囲内にいる。台湾にはGogoroという電動スクーターがあるが、バッテリーを取り出して交換すれば、すぐに出発できる。ロボットなら、それを自分で行なうことができる。

　だから、総消費電力は重要だが、そこまで重要ではない。エネルギー効率の方が重要であり、知能の方が重要になる。

ニュース NVIDIAタラ氏が語るフィジカルAIの今と未来 – AI Watch