2025 年、ストックマークは、日本の製造業に強い LLM 開発にむけて、モデルをファインチューニングするための『NVIDIA NeMo フレームワーク』と、AI 推論を高速化する『NVIDIA TensorRT-LLM』、そして、多言語、多形式のデータ検索を強化し、応答精度を向上するために『NVIDIA NeMo Retriever』の 3 つを導入した。

なかでも有馬氏が注目したのが、『NeMo Retriever』に搭載されたリランキング モデルである。略語や言い換えが多い日本語の技術文書に対応しつつ、英語や中国語といった多言語の資料も高精度に処理。有馬氏が「日本語で約 2 万字の技術書にも対応できる」と語るように、長文への高い処理性能も、製造業向けにはフィットしていた。

「日本語のみに強いリランキング モデルはあるが、多言語の資料から正確な答えを返せるものはなかなか見当たらず、弊社でも開発に取り組みましたが、その精度には満足できませんでした。そこを、『NeMo Retriever』はあっさりとクリアしてくれたのです」

顧客からの質問に対して AI が適切な回答を提示できる精度は、従来の 89 ポイントから 94 ポイントへと 5 ポイントも改善したという。たった 1 回でも的外れな回答をされると、 AI への信頼は大きく損なわれる。

また、「NVIDIA Retriever がマイクロサービスとして提供されていたことで、既存の検索基盤に影響を与えることなく、スムーズかつ安全な統合が可能となった」と有馬氏は語る。機能ごとに独立したモジュールとしてサービスを実装できるマイクロサービス化により、機能の柔軟な組み合わせや変更が可能となるのだ。

「たとえば従来型のモデルでリランキングを変更しようとすれば、企業ごとに何万件と存在する文書をすべてベクトル化し直す必要があり、まるで “家をフルリフォームする” ような改修になる。既存の大規模なプロジェクトをステップバイステップで改善していくうえで、マイクロサービスで実装できたことは非常に助けになりました」