NVIDIAがLlama-3.1-Nemotron-70B-InstructをリリースベンチマークでGPT-4oやClaude 3.5 Sonnetを超える｜Ｓｋｙ Tech Blog（スカイテックブログ）

NVIDIAが発表した大規模言語モデル「Llama-3.1-Nemotron-70B-Instruct」についての説明します。このモデルは高精度な性能を持ち、生成AI研究界隈で注目されています。

NVIDIAが大規模言語モデル「Llama-3.1-Nemotron-70B-Instruct」を発表しました。
このモデルは、生成AI研究界隈で注目され、モデルサイズは比較的コンパクトでありながら、高精度な性能を示しているため、多くの関心を集めています。

Llama-3.1-Nemotron-70B-Instructについて

Llama-3.1-Nemotron-70B-Instructは、NVIDIAが Llama-3.1-70B-Instruct（Meta社が今年の7月に発表した大規模言語モデル）をベースにカスタマイズした大規模言語モデルです。
このモデルは、Arena Hard、AlpacaEval、GPT-4-Turbo MT-Benchのベンチマークで2024年10月1日時点で1位にランクインしました。
さらに、GPT-4oやClaude 3.5 Sonnetを超える指標を達成しています。

Llama-3.1-Nemotron-70B-Instructで特に工夫された点

論文によると、HelpSteer2データセットを使用して Llama-3.1-Nemotron-70B-Reward モデルが作成されました。
このモデルは、RLHF（具体的にはREINFORCE）を用いて Llama-3.1-70B-Instruct モデルを調整し、精度が向上した Llama-3.1-Nemotron-70B-Instruct を作成しています。

実際に使ってみた

Llama-3.1-Nemotron-70B-Instructの実際の使い勝手を確認するために、 Llama-3.1-70B-Instruct および、 Llama-3.1-70B-Japanese-Instruct-2407 と比較してみました。これらのモデルをサーバー化し、Dify をインターフェースとして使用しています。

Llama-3.1-70B-Instruct

Llama-3.1-70B-Japanese-Instruct-2407

Llama-3.1-Nemotron-70B-Instruct

それぞれの出力結果を定性評価してみました。

Llama-3.1-70B-Instruct

評価 :

長所 :

簡潔でわかりやすい。
具体的な活動（ピクニック、散歩）を挙げているため、イメージしやすい。

短所 :

詳細が少なく、情景描写や感情表現が不足している。
他の文章に比べて短く、物足りなさを感じる。

Llama-3.1-70B-Japanese-Instruct-2407

評価 :

バランスの取れた描写

長所 :

情景描写と感情表現がバランスよく含まれている。
子犬との出会いや夕焼けの描写など、具体的なエピソードが含まれており、読者の興味を引く。
友人との時間の大切さが伝わる。

短所 :

最後の一文「今日はどんな良い出会いがあるでしょうか。楽しみです。」が少し唐突で、前の内容とつながりが薄い。
Llama-3.1-Nemotron-70B-Instructに比べると、やや詳細に欠ける部分がある。

Llama-3.1-Nemotron-70B-Instruct

評価 :

長所 :

詳細な情景描写と感情表現が豊かで、読者に具体的なイメージを与える。
公園での活動からカフェでの時間、夜空の美しさまで、一日の流れが自然に描かれている。
友人との時間や自然の中でのリフレッシュ感が伝わる。

短所 :

少し長すぎるため、冗長に感じる部分があるかもしれない。
一部情報量が多すぎて集中力が途切れる人がいる可能性がある。（続き: で区切ることで配慮されている）

いずれのモデルもピクニックを連想させる点が興味深いですね。
また、Llama-3.1-70B-Japanese-Instruct-2407とLlama-3.1-Nemotron-70B-Instructにはいくつかの共通点があります。

ピクニック: 両方の文章でピクニックを楽しんでいることが記述されている。
自然の中での活動: どちらの文章も緑豊かな自然の中で過ごしていることが共通している。
友人との時間: 両方の文章で友人と一緒に楽しい時間を過ごしていることが強調されている。
リフレッシュ: 自然の中でリフレッシュする時間が心地良いと感じている点が共通している。
心地よい時間: どちらの文章も心地よい時間を過ごしたことが述べられている。

NVIDIAはVLMにも力を入れている

NVIDIAは、Llama-3.1-Nemotron-70B-Instruct を発表しただけでなく、合成データ生成モデルのNemotron 4 340B もリリースしています。
さらに、今年9月にはオープンなVLM（Vision Language Model: テキスト以外に画像も受付可能）のNVLM-D-72B をリリースし、
一部のベンチマーク指標で主要なGPT-4に匹敵すると謳っています。

GPUリソースに関して圧倒的な強みを持つNVIDIAは、生成AI分野で今後さらに存在感を発揮するかもしれません。

最後に

私たちのTech Blogを最後までお読みいただき、ありがとうございます。

私たちのチームでは、AI技術を駆使してお客様のニーズに応えるため、常に新しい挑戦を続けています。
最近では、受託開発プロジェクトにおいて、LLM（大規模言語モデル）を活用したソリューションの開発ニーズが高まっております。

AI開発経験のある方やLLM開発に興味のある方は、ぜひご応募ください。あなたのスキルと情熱をお待ちしています。

新卒、キャリア募集しています！

キャリア採用募集中！

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Ｓｋｙ株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。

NVIDIAがLlama-3.1-Nemotron-70B-Instructをリリース ベンチマークでGPT-4oやClaude 3.5 Sonnetを超える｜Ｓｋｙ Tech Blog（スカイ テック ブログ）

NVIDIAがLlama-3.1-Nemotron-70B-InstructをリリースベンチマークでGPT-4oやClaude 3.5 Sonnetを超える｜Ｓｋｙ Tech Blog（スカイテックブログ）