Llama-2チャット・モデルは、ChatGPTで使用される特定のGPTモデル・バージョンと同様に、対話型のユースケース向けにファイン・チューニングされています。

教師ありファイン・チューニング(SFT)は、チャットボットまたはバーチャル・アシスタント環境において、ユーザーが期待する形式で回答を生成するために、事前にトレーニングされたLlama 2のベース・モデルを準備するために使用されました。一連の教師あり学習タスクでは、(プロンプト、回答)という注釈付きの、対話形式のやり取りのラベル付けされたペアが、与えられたプロンプトに対する自身の回答と、ラベル付きデータによって提供された回答例との乖離を最小化するモデルのトレーニングに使用されます。したがって、モデルは例えば、「クッキーの焼き方を教えてください」というプロンプトに対する適切な回答は、単に文を完成させるのではなく、クッキーを焼く実際の指示を提供することであることを学習します。

論文では、何百万ものラベル付きサンプルを使用するのではなく、「少数だが高品質のサンプル」を使用することで結果が改善されたと述べられており、Meta AIが27,540個の注釈付きサンプルを収集したことを指摘しています。

SFTに続いて、Meta社は人間のフィードバックによる強化学習 (RLHF)を用いて、チャット・モデルの振る舞いを人間の好みや指示にさらに近づけました。RLHFでは、人間からの直接のフィードバックで「報酬モデル」をトレーニングし、人間が好む反応のパターンを学習します。報酬モデルの予測(特定の回答が人間に好まれるかどうか)をスカラー報酬信号に変換することにより、報酬モデルは強化学習を通じて、Llama-2チャットをさらにトレーニングするために使用されます。

人間のフィードバックを収集するには、さまざまな方法や形式があります。Meta AIは、人間のアノテーターにプロンプトを書いてもらい、Metaが提供する基準に基づいて、Llama 2の2つの異なる亜種によって生成された2つのモデルの回答から選択するように求められるという、単純なバイナリ比較の方法を用いました。また、報酬モデルがこれらの選択肢を適切に重み付けできるように、アノテーターは、選択した回答を「「とてもよい」、「ややよい」、「わずかだけよい、またはわからない」など、他の回答と比較してどの程度よいかを評価するよう求められました。

人間の好みに基づいて、2つの別々の報酬モデルをトレーニングしました。1つは有用性について最適化され、もう1つは安全性について最適化されました(つまり、有毒で憎しみに満ちた反応、または暴力や犯罪行為の助長に使用される可能性のある回答を避ける)。RLHFでLLMモデルの重みを更新するために通常使用されるアルゴリズムである近接政策最適化 (PPO)に加えて、Meta社は拒絶サンプリング(ibm.com外部へのリンク)を用いて、Llama-2-chat-70Bを更新しました。