2026年06月23日 11時46分
AI

高性能AIモデル「GLM-5.2」をローカル環境で実行するためのガイドをAIモデルの量子化やローカル実行環境を手がけるUnslothが公開しました。
GLM-5.2 – How to Run Locally | Unsloth Documentation
https://unsloth.ai/docs/models/glm-5.2
近年の高性能AIは単なるチャット相手ではなく、コードベース全体を読んで計画を立てる開発支援エージェントとして使われる場面が増えています。しかし、ClaudeやChatGPTのようなクラウド型AIを使う場合、ソースコードや社内文書を外部サービスへ送信する必要があり、「未公開プロダクトのコード」「顧客データを含むログ」「社内向けの設計資料」などを扱う場合は外部送信そのものがハードルになります。そこで注目されるのが、AIモデルを手元で実行するローカルAIというわけです。
GLM-5.2は中国のAI企業Z.aiが日本時間2026年6月17日に正式発表した大規模言語モデルで、長時間にわたってコードを修正したり、複数ステップの作業を自律的に進めたりする「長期タスク」向けの性能を重視しています。Z.aiによるとGLM-5.2は100万トークン級の長い文脈を扱えるほか、長期的なコーディング能力を測るFrontierSWEではClaude Opus 4.8を1%下回る一方でGPT-5.5を1%、Claude Opus 4.7を11%上回るなど、高い性能を示しています。
Claude Opus 4.7超えの中華モデル「GLM-5.2」が正式発表される、一部テストではClaude Fable 5を上回りオープンモデルとして誰でもダウンロード可能に – GIGAZINE

GLM-5.2はオープンモデルで誰でもダウンロードしてローカルで使用することが可能ですが、こうした高性能モデルをローカルで動かすには巨大なメモリが必要です。軽量モデルならノートPCでも動かせることがありますが、Claude Opus級のモデルと比較されるような大規模モデルになると、一般的なゲーミングPCや開発用ノートPCのメモリ容量ではまったく足りません。GLM-5.2も例外ではなく、通常の16ビット版では1.51TBという非常に大きなメモリ容量が要求されます。
Unslothのドキュメントが示している解決策は「量子化」です。量子化とは、モデル内部の数値表現を軽くして必要なメモリや保存容量を減らす技術のことで、画質をある程度保ったまま画像ファイルを圧縮するように、AIモデルでも精度とサイズのバランスを取りながら扱いやすい形式に変換できます。UnslothはGLM-5.2をGGUF形式で公開しており、1ビット、2ビット、3ビット、4ビット、5ビット、6ビット、8ビット、16ビットと複数の量子化版を用意しています。
動作に必要なメモリ容量は8ビット版では810GB、4ビット版では372GB~475GB、2ビット版では245GB、1ビット版では223GBです。なお、さらに余裕があった方がパフォーマンスが向上するとのこと。
UnslothはGLM-5.2-GGUFの量子化が精度に与える影響を調べるため、元モデルとの出力分布の違いを見る指標であるKLDも測定しています。以下は縦軸にtop-1%精度、横軸にモデルの容量をとって各種量子化モデルを並べた図。4ビットの量子化モデルはtop-1%精度が約97.5%と元モデルにかなり近い品質です。さらに小さい量子化版でも実用性は高く、1ビット量子化モデルはサイズを86%小さくしながらtop-1%精度で約76.2%を記録しました。なお、top-1%精度は「元のモデルと同じ単語を出力したか」という数字のため、自然な返答でありながら元モデルとは別の単語を選んだ場合も「一致しなかった」として数えられており、実際の出力品質が数字の見た目ほど低下するわけではないとのこと。

ドキュメントでは、256GBの統合メモリを搭載したMacを使用したり、24GBのVRAMを搭載したグラフィックボードと256GBのメモリを搭載したワークステーションで処理の一部をGPU以外のメモリへ逃がす「MoEオフロード」をオンにしたりすることで2ビット量子化モデルをスムーズに動作させられると書かれています。
この記事のタイトルとURLをコピーする
・関連記事
無料で自分のPCで動かせるローカルAIモデルがわかる「LLM Checker」 – GIGAZINE
無料でローカルAI環境を簡単に導入できる「Lemonade」、Windows・Linux・macOSにも対応したオープンソースで特にAMDのGPU・NPUで効果的 – GIGAZINE
日常的なコーディング作業でClaudeやGPTからローカルAIモデルに置き換えた事例まとめ – GIGAZINE
AMD製ローカルAI実行アプリ「Lemonade」にMCPゲートウェイ機能が追加される、MCP対応アプリからLemonadeで実行中のLLMや画像生成AIを呼び出せるように – GIGAZINE
LM Studioに「外出先からスマホで自宅の高性能PCに接続してローカルAIを実行できる機能」が追加される – GIGAZINE