突如実用化した1ビットLLM Bonsai-8B もう推論にGPUはほぼ不要になる。その先に何が起きるか

清水亮 ryo_shimizu

新潟県長岡市生まれ。1990年代よりプログラマーとしてゲーム業界、モバイル業界などで数社の立ち上げに関わる。現在も現役のプログラマーとして日夜AI開発に情熱を捧げている。

ソフトウェアの革命は、突然やってくる。
ように見える。

カリフォルニア工科大学(以下カルテック)のババク・ハッシビ教授が率いる研究チームPrismが発表したBonsai-8Bは、驚異的と言って良い性能を持つ大規模言語モデル(LLM)である。

通常のベンチマークは、ベンチマークに使うデータそのものをモデルが学習してしまう場合があるため、筆者が独自に開発した非公開の日本語要約能力ベンチマークによると、Bonsai-8Bの性能は驚異的だ。

この表では、精度(ROUGE-L)、推論速度(speed)、サイズ(Size)、品質(Tier)の4点から様々なLLMの日本語性能を比較している。

このベンチマークでBonsai-8BはQwen3:235b-a22bに次ぐ3位ということになっているが、2位のQwen3:235b-a22bと比較して、1/100のサイズ、10倍の推論速度を保っている。

先日Googleが鳴物入りで発表したGemma4の二つに対してはBonsai-8Bが精度で1.25倍、速度で3倍でありながら、サイズは1/8〜1/10に抑えられている。

このBonsai-8Bの驚異的なサイズの小ささ(そしてそれは推論速度にも直結する)を可能にしたのは、1-Bit LLMという技術だ。

1-Bit LLMについては、本欄でも以前紹介したことがあるが、これまでは1-Bit LLMについては可能性は大きいものの本格的に学習されたモデルがなく影響は限定的、という評価だった。1-Bit LLMを最初に本格的に開発したのはMicrosoftの研究チームだった。

1-Bit LLMを学習するには、膨大な計算量が必要になり、そうした膨大な計算量を許容するということは、Microsoftの通常のビジネス、つまりAzureやOpenAIの連携といったGPU貸出ビジネスを破壊する可能性がある。だからあまり熱心なように見えなかった。

しかしここでカルテックの新しいスタートアップがパンドラの箱を開けてしまった。
Bonsai-8Bは、初の本格的な1-Bit LLMで、その実用性は従来手法を優に追い抜き、しかもスマートフォンの上で完璧に動作することが証明されてしまったのだ。

筆者自身も以前実験で1-Bitニューラルネットを学習できないか試したことがある。結果は学習は十分可能というもので、これも当時の直感・常識には反していた。

しかし本格的なLLMを訓練するにはそれなりに大規模な計算資源が必要になる。個人には手に余るものだったのだが、今回PrismMLチームは、Googleとカルテックやそのほかベンチャーキャピタルから資金を調達してこの驚異的な成果を実現したことになる。

モデルは公開されているが、これを訓練する方法はまだ非公開だ。

さらに、現在は1.2GBサイズの8B(80億パラメータ)モデルしか公開されていないが、これが少し強力なマシン、ゲーミングPCやメモリ24GB程度を搭載したMacなら十分実用的に動かせる10GBサイズ程度まで広げた時、単純に計算して10倍のパラメータ、80B(800億パラメータ)のモデルが動くとなると、これはかつて一世を風靡したDeepSeek-R1級のものが普通のPCで動くということになる。

PrismMLが次にどのような展開を描いているのか現時点ではまだ不明だが、　DeepSeek以来の台風の目になることは間違いない。

1-Bit LLMがここまで実用的になると、これまで想像できなかったような応用が考えられることになる。

たとえば、ゲームへの応用だ。
ゲーム産業は誕生してから半世紀を経過して、マンネリ化が否めなくなっている。

100億円規模の大予算を使うAAA(トリプルエー)タイトルは、開発に数年を要する。しかし数年後のAIの状態など予測することは不可能であるため、AAAタイトルでAIを積極的に活用したゲーム性は実現されにくい。

また、AAAタイトルは関わる人数が多いため、AI生成物やAIそのものに対する嫌悪感を持つスタッフが巣なくないため、各ゲームプラットフォームも、AIによって作られた素材を用いたゲームに対して慎重な姿勢をとっているケースがある。

また反対に、予算規模が少なくリリース期間が短いスマートフォンなどで隙間時間に遊ぶようなハイパーカジュアルゲームといった分野では、基本無料という原則を守るためには、スマートフォンの中だけで計算を完結させる必要がある。

こうした現状を踏まえると、この世界に生成AIをゲームシステムに本格的に組み込んだゲームの投入はかなり難しいのが現状だ。

筆者はそうした現状を打破すべく、個人プロジェクトとして「AIゲームセンター構想」というクラウドファンディングを始めた。

Bonsai-8Bは今現在はLLMとしての機能しか持たないが、いずれ同じことが画像生成、動画生成でも出てくる可能性は高い。

そうするとハイパーカジュアルゲームのような低予算なものでも、生成AIを積極的に利用したものが出てくるかもしれない。

また、すでにTiktokやInstagramなどの「暇つぶし」媒体では、AIが生成した動画で溢れているが、AIで動画を生成してユーザーに見せるよりも、ユーザーの好みそうな動画をスマホの中でAIが勝手に生成するほうがある時点から有効になる可能性がある。

そうなれば、TikTokやInstagramの経費の大半を占めるネットワークを維持するコストが激減し、収益性が高まる。そのかわり、インフルエンサーのような仕事はさらに先鋭化する。なぜならスマートフォンの中でユーザーにあわせて無限に生成されるAIコンテンツに対して、生身の人間がアイデアと根性で対抗しなければ、もはや誰も目立つことはできないからだ。

YouTubeや筆者のように解説番組を有料配信する配信者にとっても他人事ではいられない。
生成AIによる教材やニュース分析は、既に実用的なレベルに達しつつあるからだ。

たとえば筆者は現在、DGX Sparkチップを内蔵したAscent GX10という60万円台で買える高性能コンピュータの上で完全ローカルで動作する自分専用のAgenticAIであるSikiを動かしている。

このエージェントは、24時間ソーシャルメディアからAIの最新情報や最新論文を探し出し、自動的に解析し、10分程度のニュース番組を動画で構成して数時間ごとに送ってくれるようになっている。

今は60万円のマシンが必要だが、Bonsai-8Bのように1GB前後のサイズでLLMが十分な性能で使えるということは、スマートフォンの中だけで同じことができるようになるということだ。

自分が寝ている間に翌日の仕事に関係しそうなニュースを監視し、朝起きると自分専用のニュース番組ができあがっていて、しかも深掘りする質問も自由にできるようになる。

そんな便利なものと、固定されたコンテンツで情報発信者が対抗していくのは本当に難しくなってくる。

筆者があえて自分の専門分野であるソフトウェアという効率的なサービスではなくゲームセンターという非効率的な体験に興味をシフトしている理由もここにある。

つまり、画面の中だけで簡潔するもの(特にコンテンツ)は、AIが生成するものに品質・体験の両面において勝てなくなるのである。

たとえば、映画のDVDソフトや配信サービスに契約すれば、過去の映画を何度でも自宅で楽しむことができる。にもかかわらず、ディズニーランドやユニバーサルスタジオには休日を潰して敢えて面倒な移動手段を使ってまで行くのである。

これは実はパラドックスで、映画は繰り返しみることができるが、静的なものであり、変化するわけではない。ディズニーランドやユニバーサルスタジオも、用意されているコンテンツはそこまで頻繁に変化するわけではないが、一緒にそれを体験する人(たち)は自分たちだけでなく他の観客も含まれるため毎回違う。パレードやダンスもその場で演じられるため毎回違う。毎回違うが、本質的には同じという性質を持っている。

もしも生成AIコンテンツがあなただけの作品を毎日作ることがあったとしても、人が求めているのは快感だけでなく共感でもある。

同じ映画を見て共感し、興奮して何時間もしゃべったり、同じ場所へ行って体験を共有したりすることの価値はこれからも上がっていく。むしろ盛り上がっていくはずだ。

最近、アメリカにもアーケード(ゲームセンター)回帰の流れがあるらしく、酒場にゲーム機を併設した「バーケード(Barcade)」という文化が広まりつつあるという。

なかでも「Raw Thrills」というメーカーはトップガン・マーベリックやゴジラ、マーベルといった映画を題材にしたバーケード筐体を多数擁する。いわば、もっと手軽なディズニーリゾートでありユニバーサルスタジオというわけだ。

巨大なモデルがその性能を落とさずに縮小していく流れはLLMに限らずあらゆるモデルに対して適用されていく。これは不可避な流れであり、そのテクノロジーの奔流の中で人間はどう生きるか。

1-Bit LLM時代の幕開けはAIと人類の向き合い方の新しい時代の到来を告げる鐘である。

突如実用化した1ビットLLM Bonsai-8B もう推論にGPUはほぼ不要になる。その先に何が起きるか – WirelessWire & Schrödinger’s