Twelve Labs、約160億円を調達——AmazonとNvidiaが支援する動画AIの旗手 — BigGo ファイナンス

「言語は現実を圧縮した表現に過ぎません。人工知能(AI)が最終的に理解すべき対象は、現実をそのまま映し出す動画です。」

Twelve Labsのイ・ジェソン代表は1日(現地時間)、米シリコンバレーでのインタビューでこのように述べ、テキスト中心の大規模言語モデル(LLM)を超えた「ビデオ・スーパーインテリジェンス」時代への飛躍を宣言した。同日、Twelve LabsはAmazon、Naver Ventures、シリコンバレーを代表するベンチャーキャピタル(VC)のNEAなどが参加した、1億ドル(約160億円)規模のシリーズB資金調達を公式に発表した。

今回の投資により、Twelve Labsの累計調達額は2億ドル(約320億円)を突破した。特に、2023年にAI半導体のリーダーであるNvidiaからの投資を受けたのに続き、今回はクラウド業界の巨人であるAmazonからの戦略的投資も実現させ、AI半導体とクラウドを代表する二大ビッグテックの双方から選ばれた初の韓国発AIスタートアップという称号を手にした。

イ代表は、今回のAmazonによる投資の背景について「Nvidiaの投資が3年以上にわたる技術協力の延長線上にあったのに対し、Amazonの投資は動画AIの成長可能性を見据えた戦略的判断だ」と説明した。彼は「テキストは言語モデルが理解するが、動画はまだ開拓されていない領域だ」とし、「AmazonはTwelve LabsがAIによる動画理解の市場を切り開けると判断したようだ」と強調した。今回の投資がアンディ・ジャシーAmazon最高経営責任者(CEO)の承認を経て本社レベルで実行された点も、戦略的パートナーシップの性格を明確に示している。

Twelve Labsの中核技術は、AIに「動画を見る目」と「記憶」を付与することだ。動画検索モデル「Marengo」と動画解釈・分析モデル「Pegasus」がその代表例である。企業が保有する数万時間の動画をAIに入力した後、「特定の選手がゴールを決める場面を探して」と質問すれば、AIが動画の意味を理解し、該当する場面を見つけ出す仕組みだ。これは、単にテキストを生成する既存のLLMとは異なり、動画の文脈を構造化された記憶として蓄積し、それに基づいて推論する「フルスタック・エージェンティック・インテリジェンス・システム」を志向している。

この技術はすでに様々な産業で成果を上げている。韓国のGSショップは、Twelve Labsのモデルを活用した商品動画推薦システムの導入後、動画のクリック率が2倍、購買意欲が9倍に向上した。また、国防や公共安全の分野でも動画理解技術への需要が高まっており、米国政府機関との協力も拡大している。イ代表は「売上のかなりの部分が米国と欧州の企業顧客から生まれており、開発者向けの売上も年間80〜120%成長している」と明らかにした。

Twelve Labsは、今回の調達資金を研究開発(R&D)とグローバル事業の拡大に集中的に投じる計画だ。サンフランシスコとソウルに続き、ニューヨークとロンドンに新たな拠点を設け、ロサンゼルスにまで事業ネットワークを広げる。また、アマゾン ウェブ サービス(AWS)を最優先のクラウドプロバイダーとして選定し、AWSの独自AIチップ「Trainium」上で動画推論が効率的に動作するよう最適化する方針だ。今後リリース予定の動画基盤モデルも、AWSで最初に公開する計画である。先月には、初のアプリケーション製品となるAI動画創作ツール「Rodeo」の試験サービスも開始し、B2Bを超えてアプリケーション領域への拡張を図っている。

今回の投資ラウンドでは、投資家の構成も注目された。NEAとNaver Venturesが共同でラウンドを主導したが、韓国のVCがシリコンバレーのトップクラスVCと共に大型投資ラウンドを主導したのは異例の事例と評価されている。Twelve Labsは、昨年設立されたNaver Venturesにとって初の投資先でもある。パク・ヨンジョンNaver Venturesパートナーは、「今回のシリーズB共同主導は、我々が送ることができる最も強い確信の表現だ」と述べた。

一方、同日のAI業界では、Palantir Technologiesのアレックス・カープCEOが、OpenAIとAnthropicのトークンベースのビジネスモデルを強く批判し、NvidiaとのオープンAI戦略を前面に打ち出した。カープCEOはCNBCとのインタビューで、「米国企業は価値を生み出せないトークンに莫大な費用を費やしている」とし、「OpenAIとAnthropicのモデルは、事実上、企業に『富裕税』を課しているようなものだ」と主張した。

Palantirは最近、Nvidiaと提携し、政府機関に特化したオープンAIモデルを構築すると発表した。これは、Twelve LabsがAWSと協力して動画AI市場を開拓する戦略と相まって、クローズドモデルに対抗し「ソブリンAI」と「データ主権」を掲げる新たな潮流が強まっていることを示している。カープCEOは「顧客が望むのは、コンピューティングリソース、AIモデル、データスタック、そして自らの競争優位性(アルファ)を自らコントロールすることだ」と述べ、オープンエコシステムの重要性を強調した。

Twelve Labsは米国サンフランシスコに本社を置いているが、韓国人5人が創業し、中核的な研究開発は韓国で行われている。イ・ジェソン代表は「創業当時、10年間は市場の疑念に耐えなければならないかもしれないと考えていたが、今では動画理解がAIの次の段階だという確信が強まった」とし、「ビデオ超知能の時代だけは、韓国が作ったモデルが世界市場を主導できるよう努力する」と抱負を語った。