Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース - GIGAZINE

2026年04月03日 12時20分
AI

Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。

Today we’re announcing 3 new world class MAI models, available in Foundry | Microsoft AI
https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry/

Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry | Microsoft Community Hub
https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-mai-transcribe-1-mai-voice-1-and-mai-image-2-in-microsoft-foundry/4507787

We’re bringing our growing MAI model family to every developer in Foundry, including …

· MAI-Transcribe-1, most accurate transcription model in world across 25 languages
· MAI-Voice-1, natural, expressive speech generation
· MAI-Image-2, our most capable image model yet

Start… pic.twitter.com/p0DZZcAUZ4

— Satya Nadella (@satyanadella) April 2, 2026

Microsoftが開発しているMAIファミリーは、競合AIモデルよりも優れており、高速で、そして安価というAIモデル群です。例えばMAI-Transcribe-1の料金は、1時間当たり0.36ドル(約57円)からで、MAI-Voice-1の料金は100万文字当たり22ドル(約3500円)から、MAI-Image-2の料金はテキスト入力の場合は100万トークン当たり5ドル(約800円)から、画像出力の場合は100万トークン当たり33ドル(約5270円)からです。

「MAI-Transcribe-1」「MAI-Voice-1」「MAI-Image-2」はMicrosoft FoundryおよびMAI Playgroundから利用可能ですが、MAI Playgroundは記事作成時点ではアメリカからのみ利用可能です。

◆MAI-Transcribe-1
音声認識モデルのMAI-Transcribe-1は、業界標準の音声タスクベンチマークであるFLEURSで、世界で最も頻繁に使用されている上位25の言語(日本語含む)をどのように音声からテキストに変換(文字起こし)できるかのパフォーマンスを比較しました。

競合モデルと単語エラー率(WER)を比較したグラフが以下で、MAI-Transcribe-1は最も低い3.9％を記録。

また、MAI-Transcribe-1は優れたパフォーマンスを発揮するというだけでなく、驚くほど動作が高速です。加えて、MAI-Transcribe-1はMicrosoft Foundryで利用可能となり、大手クラウドプロバイダーの中で最高の価格性能比も実現しています。

◆MAI-Voice-1
MAI-Voice-1はMicrosoftが開発した最高レベルの音声生成AIモデルです。自然でリアルな音声を生成できるよう設計されており、ニュアンス、感情表現の幅、長尺コンテンツでも話者の個性を損なうことなく豊かな表現力を実現できるという点で、優れています。

MAI-Voice-1はもMicrosoft Foundryで利用可能となり、わずか数秒の音声データから安全かつ確実に独自のカスタム音声を作成することが可能です。MicrosoftはMAI-Voice-1について、「開発者が高品質かつ高速な音声エクスペリエンスや音声エージェントを構築する方法を根本的に変革します」と説明しました。

MAI-Voice-1はわずか1秒で60秒分の音声を生成可能で、非常に効率的なGPU利用により、品質とコストのバランスも優れている点が特徴です。また、Copilot Audio ExpressionsでもMAI-Voice-1を利用できます。

[Copilot 音声表現] – Copilot Labs の実験
https://copilot.microsoft.com/labs/audio-expression

◆MAI-Image-2
MAI-Image-2は、AIモデルの画像生成性能を比較するベンチマーク・Arena.aiのリーダーボードでトップ3に入る性能を示す画像生成モデルです。3月19日に発表されており、すでにCopilotの画像生成性能の向上に貢献しています。実際の運用トラフィックデータに基づくと、Microsoft FoundryとCopilotで同等の品質を維持しながら、少なくとも2倍速い生成時間を実現しています。

MAI-Image-2は自然な照明、正確な肌の色調と質感、図表、レイアウト、鮮明な画像内テキストなどを生成可能。また、MAI-Image-2も競争力のある価格性能比で提供されます。すでに世界最大級の広告代理店であるWPPグループが、エンタープライズパートナーとしてMAI-Image-2を大規模に利用しています。

WPPグループがMAI-Image-2を使用して作成した画像の一例が以下。

Microsoft AIのCEOであるムスタファ・スレイマン氏も、MAI-Image-2でどのような画像が生成できるかをアピールしています。以下は「鮮やかなオレンジ色のクマノミが、鮮やかな黄色の雄しべを持つ純白のピオニーの中に隠れているクローズアップのズームイン・マクロ写真。高コントラスト、浅い被写界深度、鮮やかな野生動物写真」というプロンプトで生成した画像です。

One place MAI-Image-2 really knocks it out of the park is surrealist images. Try this one:

Close-up zoomed in macro photo of a bright orange clownfish hiding among stark white peonies with bright yellow stamens. High contrast, shallow depth of field, vibrant wildlife… https://t.co/mg7gRY26ay pic.twitter.com/0oUKJKvzVg

— Mustafa Suleyman (@mustafasuleyman) April 1, 2026

なお、スレイマン氏はVentureBeatやThe Vergeのインタビューで、新しくリリースしたMAIファミリーについて語っています。

この記事のタイトルとURLをコピーする

Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース – GIGAZINE