リコー、LLMの入出力に含まれる有害情報を検知する自社開発の「セーフガードモデル」を無償公開 - ZDNET Japan

　リコーは5月20日、大規模言語モデル（LLM）に対する有害情報の入出力を検知するガードレール機能を組み込んだ「Llama-Ricoh-SafeGuard-20260520」（セーフガードモデル）を無償公開した。

　同モデルは、Meta Platformsが提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースに、リコーで追加開発を行ったもので、リコー独自の量子化技術により、小型・軽量化を実現している。これまでリコージャパンが提供する「RICOH オンプレLLMスターターキット」に標準搭載してきたが、生成AIの安全な利活用に貢献することを目的に無償公開に至った。

　リコーは、2024年10月にLLMの安全性対策を目的とした社内プロジェクトを立ち上げ、安全性に関する評価指標の整備や、安全性を満たす効果的な手法の開発に取り組んできた。同セーフガードモデルはその一環として開発されたもので、2025年8月には有害なプロンプト入力を対象とした判別機能をリリースし、同年12月にはLLMが生成する有害な出力情報の検知にも対応した。

　無償公開の背景には、日本においてLLM分野のオープンモデルの選択肢が少ないという課題がある。リコーはこれまで、経済産業省とNEDO（新エネルギー・産業技術総合開発機構）が推進する生成AIの開発力強化プロジェクト「GENIAC（Generative AI Accelerator Challenge）」の第2期、第3期に参画し、マルチモーダルLLMを無償公開してきた。

　ガードレールLLMにおいても日本のビジネスの現場で実用的に利用できるモデルは少ない状況があり、本セーフガードモデルをいち早く無償公開することで、その重要性を社会に提起するとともに、生成AIの安全な利活用の推進に貢献していくとしている。

14種類のラベル

　同セーフガードモデルは、LLMに対するガードレールとして機能し、入力されたプロンプト、およびLLMが生成した回答を監視することで、不適切または有害な内容を自動的に検出する。具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された、リコー独自に構築した数千件規模のデータを学習させている。これにより、LLMへの有害情報の入力や、LLMから出力される有害な回答を高精度に判別し、検知・ブロックすることが可能となる。

安全でないプロンプトの場合

LLMからの出力が安全でない場合

ZDNET Japan 記事を毎朝メールでまとめ読み（登録無料）

リコー、LLMの入出力に含まれる有害情報を検知する自社開発の「セーフガードモデル」を無償公開 – ZDNET Japan