NVIDIAが公開した「Llama-3_1-Nemotron-Ultra-253B-v1」は、単なるLLM(大規模言語モデル)ではありません。推論・指示理解・チャット能力を兼ね備えた次世代エージェントの基盤として設計されたこのモデルは、複数段階にわたる高度な学習フローを通じて構築されました。
本記事では、その裏側にある Distillation・SFT・RLHF・Curriculum RL など、主要ステップの技術的背景を解説します。

Step 1: Distillation – モデル効率化の肝「蒸留と剪定」
Neural Architecture Search(NAS)とPruning

出発点となるのは、405Bパラメータの巨大モデル「Llama 3.1」。そのままでは現実的な応用が難しいため、まずは Pruning(剪定) を実施。NAS(Neural Architecture Search)を併用し、計算効率と性能のバランスが取れた構造を自動選択します。

NASとは: 複数のモデル構造候補を自動生成し、最も効果的なものを選定するアルゴリズム。
剪定戦略: 重みの大きさや勾配の変化に基づく構造削減により、計算負荷を大幅に削減。

結果として、 Pruned Llama 3.1(253B) を得ることになります。

Knowledge Distillation(知識蒸留)

教師モデル(405B)と生徒モデル(253B)を並列稼働させ、同じ入力に対する出力を比較しながら、教師の暗黙知を生徒に伝える 技法。損失関数としては「KL Divergence」などを使用することが多いです。

Continued Pre-training(継続事前学習)

大量の未学習トークンで再度事前学習。文脈理解力や生成性能の底上げを狙います。

補足: NVIDIA NeMo™フレームワークは、FP8精度対応やモデル並列処理に強く、大規模モデルの学習に最適化されています。

Step 2: Supervised Fine-Tuning(SFT)- 多様なスキルを叩き込む
NVIDIA curated prompts(キュレーション)

Chat / Math / Code / Instruction Following / Function Calling の5領域で、3M件の高品質プロンプト を自動生成・キュレート。

応答生成: Llama 3.3 70B / Qwen 2.5 / QwQ-32B / DeepSeek-R1 などの先進モデル群を使って応答を生成
応答評価: スコアリングを行い品質をチェックし、「NVIDIA vetted responses」として抽出

教師あり学習(Supervised Fine-Tuning)

選別された高品質ペア(プロンプト+応答)を使って、モデルに一連のスキルを学習させます。ここで学習されるのは下記の項目になります。

逐次思考(Chain-of-Thought)
関数呼び出しスキル
文脈的な指示理解

Step 3: RL for Reasoning – 科学的推論力の獲得
Curriculum RL(段階的強化学習)

FP8精度(TensorRT-LLMやTransformer Engineと親和性が高い)で、140,000 GPU時間(H100) を投じて強化学習を実施。

SFTモデル(253B) をエージェントとし、 Llama 3.3 70B にて回答の判定を行いフィードバックする(RLAIF的構造)
まずは40KサンプルのQ&Aでファインチューニングを行い、さらに200Kサンプルへスケール

データフィルタリング

NVIDIA Nemotron Super(49B) モデルでQ&Aをフィルタリングし、回答精度と推論の一貫性を保証。

Step 4: RL for Alignment – ユーザー指示と自然言語応答
RL for Instruction Following(指示理解)

30K件のInstruction Followingデータ を使用
評価には「Instruction Following Verifier」という独自の自動スコアリング・モデルを使用

RL for Chat(自然な対話)

HelpSteer 2(50Kプロンプト) を使って、ユーザー好みに応じた応答生成を最適化
Llama Nemotron Reward(70B) モデルで報酬スコアを算出してフィードバックを行い、より自然な対話が出来るように学習

Nemotron Ultraの完成と特徴

上記全工程を経て誕生したこのモデルは:

推論力(Scientific Reasoning)
指示追従性(Instruction Following)
関数呼び出しやツール利用(Tool-Use)
人間らしいチャット能力(Conversationality)

をバランス良く兼ね備えた、次世代型LLMの代表格と言える存在です。

推論と使用方法

コンテキスト:最大128Kトークンをサート。
推論モードの切り替え:システムプロンプトにdetailed thinking onを含めることで、推論モードを有効化。(通常時は非推論モデルとして動作します。)
推論環境:
BF16:

8x NVIDIA H100-80GB (合計640GB)
4x NVIDIA B100 (合計768GB)

FP 8

4x NVIDIA H100-80GB (合計320GB)

このモデルは、Hugging Face Transformersライブラリ(バージョン4.48.3推奨)と互換性があり、Linux環境での使用が推奨されています。

評価結果と性能

このモデルは、以下のベンチマークで高い性能を示しています:

GPQA:推論モードで76.01%精度。
AIME25:推論モードで72.50%精度。
LiveCodeBench:推論モードで66.31%精度。
MATH500:推論モードで97.00%精度。

ライセンスと商用利用

このモデルは、NVIDIA Open Model LicenseおよびLlama 3.1 Community License Agreementの下で提供されており、商用利用が可能です。ただし、利用に際しては、モデルの整合性、安全性、バイアスなどを考慮し、適切な評価と対策を行うことが推奨されます。

詳細な情報やモデルの使用方法については、以下のリンクをご参照ださい:

技術スタックまとめ