ポスト
![]()
Shisa.AIは、日本国内で開発されたモデルとしては過去最高水準の日本語性能を実現した、多言語対応LLM「Llama 3.1 Shisa V2 405B」を、6月3日にオープンソースで公開した。
Llama 3.1 Shisa V2 405Bは、経済産業省が設定した主要な日本語ベンチマーク指標をすべて大幅に上回ったほか、日本語・英語の主要な評価項目においてGPT-4およびGPT-4 Turboを超える性能を示している。
業界標準の日本語ベンチマークであるJA MT-Benchでは、ベースモデルであるLlama 3.1 405Bに対して、全評価カテゴリで性能が向上した。GPT-4を明確に上回るとともに、最新のGPT-4oやDeepSeek-V3といったトップ研究機関によるフラッグシップモデルと同等の性能となっている。
ベースモデルであるLlama 3.1 405Bから全評価カテゴリで性能向上
なお同社は、日本語に特化した新たな評価ベンチマークshisa-jp-ifeval、shisa-jp-rp-bench、shisa-jp-tl-benchも開発しており、今後オープンソースとして公開を予定しているという。
