首位は”使えない”Claude Fable 5——中国発LLM「GLM-5.2」、コーディングで世界2位に(36Kr Japan) – Yahoo!ニュース

LLMのブラインド評価プラットフォーム「Code Arena」などのランキング一覧

「実務でClaude Opusに匹敵」の声も

長時間かつ高難度のソフトウエア開発を測る「FrontierSWE」では、Anthropicの「Claude Opus 4.8」や一部の非公開(クローズド)モデルに次ぐ水準で、トップとの差はわずか1%。オープンソースモデルとしては最上位につけた。デザイン性を競う「Design Arena」でも世界首位を記録したという。

第三者評価でも、独立系のArtificial Analysisが6月17日に公表した知能指数(Intelligence Index v4.1)で、GLM-5.2はオープンウエートモデルの首位に立ち、同じく中国発のMiniMaxやDeepSeek、Kimiの最新版を上回った。Next.jsの生みの親であるギレルモ・ラウク氏が「ゲームチェンジャーだ」と評するなど、国内外の開発者からは「実務レベルでClaude Opusに匹敵する」との声も上がっている。

智谱によると、GLM-5.2は最大100万トークンの長文コンテキストを安定して扱える。中国テック系メディア・智東西の実証では、戦略ゲーム「シヴィライゼーション」風のゲームをゼロから開発し、約87万トークンの文脈を保ったまま16件のバグを修正。数十万トークン前に書いたコードの不具合原因まで特定したとしている。