Microsoftは、大規模言語モデル(LLM)以外のAIモデルへの投資を強化している。同社は米国時間4月2日、3つの新しいモデルをリリースすると発表した。音声を文字起こしする「MAI-Transcribe-1」、音声生成モデル「MAI-Voice-1」、第2世代の画像生成モデル「MAI-Image-2」だ。
MAI-Transcribe-1は録音内容をテキストに変換するもので、主要25言語に対応する。動画のキャプション作成、会議の議事録作成、音声エージェント向けに構築された。MAI-Voice-1は、最大60秒の音声を生成できる。MAI-Image-2は、従来のモデルよりも画像の生成速度が向上し、より実物に近い描写が可能になったという。
これらは「Microsoft Foundry」および「MAI Playground」で利用できる。MAI-Image-2は将来的に「Bing」や「PowerPoint」にも展開予定だ。
これらの新モデルは、MicrosoftがAI市場全体でサービスを拡大しようとしている明確な兆候だ。同社の「Copilot」は、特に「Microsoft 365」スイートや「Azure」クラウドサービスをすでに利用している企業に人気だ。Microsoftはこれまで、今では古くなった初代の画像モデルを除けば、主にテキストベースのモデルに注力し、安全な法人向けの選択肢として競合他社との差別化を図ってきた。最新のAIツールである「Copilot Cowork」や「Copilot Health」は、その証左といえる。
また、これらのモデルは、Microsoftのような老舗IT企業が、OpenAIのような数十億ドル規模のスタートアップでさえ常に手を出せるわけではない、こうした「サイドクエスト」に投じる資金と計算資源を持っていることを再認識させる。先週、OpenAIは動画生成AIアプリ「Sora」を終了して中核事業に注力すると発表した。2026年のAI各社は、Anthropicの「Claude Code」が競合を追い抜く中で、自社のツールが職場で有用であることを示そうとしてきた。
画像や動画を生成するAIモデルは、実行に膨大な計算資源と電力が必要だ。AI研究に数十億ドルの予算を割くもう1つの老舗IT企業であるGoogleは今週、新しい動画モデル「Veo 3.1 Lite」を発表し、モデルのコスト効率と電力効率を高める取り組みを続ける意向を示した。
Microsoft
この記事は海外Ziff Davis発の記事を4Xが日本向けに編集したものです。
Amazonで開催中のセールを見る
Amazonのアソシエイトとして、CNET Japanは適格販売により収入を得ています。
