Claude CodeのようなAIエージェントを日常的に動かす開発者にとって、入力トークンのコストは最も重い負担になる。毎回のやり取りで、膨大なシステムプロンプトやツールの仕様書が繰り返し送信されるからだ。
この静的な「重荷」をテキストとして送るのではなく、単一の画像に変換してモデルに読ませる。そんなアプローチでトークン費用を大きく削るオープンソースのローカルプロキシ「pxpipe」が登場した。開発者のSteven Chong氏が公開したこのツールは、Fable 5モデルの検証においてエンドツーエンドで59〜70%のコスト削減を達成している。
01.情報密度に依存しない「画像課金」の定額性02.プロンプトキャッシュの限界と最適なユースケース03.代償となる「沈黙の幻覚」とLLM経済圏の今後情報密度に依存しない「画像課金」の定額性
プロンプトの画像化という一見すると奇抜な手法は、LLMの料金体系が抱える構造的なギャップを突いている。テキストは文字数に比例してトークンが課金される一方、画像はピクセルの面積に基づいて固定のトークン数が割り当てられる。
LLMの料金体系は、入力されるデータの形式によって計算方法が異なる。テキストの場合、入力された単語や文字の断片(トークン)の数に比例してそのまま課金される。これはモデルの計算量に直結するため、自然な価格設定と言える。一方、画像の場合はまったく別の計算が適用される。AnthropicのAPIでは、入力された画像のピクセルサイズ(縦横の寸法)に基づいて、固定のトークン数が決まる。画像の中にいくつの物体が写っていようと、どれほど複雑な模様が描かれていようと、画像の面積が同じであれば消費するトークン数は変わらない。
pxpipeは、この情報密度に依存しない画像課金という仕様の隙間を突いている。テキストをそのまま送れば文字数に比例して料金が青天井に増えていくが、文字を画像という定額制のキャンバスに描画してしまえば、どれだけ細かく文字を書き込んでも追加の料金は発生しない。
具体的には、長大なテキストを幅1928ピクセルの画像内にぎっしりと敷き詰める処理を行う。人間が読みやすいように行間や文字間隔を空けることはしない。Claudeの視覚エンコーダが文字として認識できるギリギリの密度を狙い、背景色と文字色のコントラストを最大化しながら、画面いっぱいに文字を描画する。テキストを文字列データとしてではなく、視覚的なピクセルデータの集合としてモデルに渡すのだ。
通常なら約2万5000トークンを消費する4万8000文字のテキストも、この画像化を経由すれば約2700の画像トークンとして処理される。1トークンあたりに詰め込める文字数が、テキスト入力時の約1文字から約3.1文字へと跳ね上がる計算になる。モデルは視覚エンコーダを通じてこの画像を正確に読み取り、通常通りテキストで応答を返す。APIの視覚処理エンジンを、事実上の高効率なテキストデコーダとして流用していることになる。
プロンプトキャッシュの限界と最適なユースケース
LLMの利用コストを下げる手段としては、プロンプトキャッシュ(Prompt Caching)という安全で確実なアプローチがすでに存在する。AnthropicのClaude APIでも標準提供されており、一度送信したシステムプロンプトをサーバー側に一定時間保持することで、二回目以降のトークン費用を引き下げることができる。
では、なぜわざわざ不確実な画像化を行うのか。答えは、キャッシュの有効期限とユースケースの相性にある。プロンプトキャッシュは通常、5分から数十分の間に同じコンテキストに連続してアクセスする用途で真価を発揮する。しかし、コーディングアシスタントのように開発者が数時間のインターバルを空けて断続的に質問を投げる場合、キャッシュはすでに揮発している。また、RAG(検索拡張生成)のように検索結果のテキストが毎回微妙に入れ替わるシステムでも、完全に一致するコンテキストとしてキャッシュを再利用することは難しい。
pxpipeによる画像化は、キャッシュの仕組み上カバーしきれない領域で強い威力を発揮する。画像化されたプロンプトはキャッシュの有効期限に依存せず、いつでも固定の低コストでコンテキストを供給できる。例えば、数万行に及ぶプロジェクト固有のコーディング規約や、頻繁に変更されないシステムの全体設計図など、静的で巨大な背景知識を提供する用途に適している。
また、大規模なリポジトリ全体を読み込ませるような場合も、すべてのテキストファイルを一つの長大な画像に結合して送信することで、トークン消費を抑え込める。RAGシステムにおいても、検索で引き当てた複数のドキュメントを動的に一枚の画像にパックして送信するアーキテクチャを構築すれば、都度テキストで送るよりも安価にコンテキストを注入できるようになる。テキスト情報であれば何でも画像としてパッケージ化できる柔軟性は、これまでのAPIの常識を覆すポテンシャルを秘めている。
代償となる「沈黙の幻覚」とLLM経済圏の今後
大幅なコスト削減をもたらすpxpipeだが、万能の解決策ではない。テキストから画像への変換は非可逆(lossy)な圧縮であり、最大の代償として精度の低下を伴う。
モデルが画像内の文字を読み違えた際、エラーを出さずに独自の解釈でもっともらしい誤答を返す危険がある。IDやハッシュ値、パスワードなどの正確な文字列が求められる場面では、このサイレントな幻覚が致命傷になり得る。実際、pxpipeの検証でも12文字の16進数文字列を読み取らせた場合、Fable 5では15回中13回の成功にとどまり、Opusモデルでは全滅している。視覚モデルは文脈から単語を推測する能力には長けているが、意味を持たないランダムな文字列を正確に転写することは依然として苦手としている。
このため、pxpipeはすべての入力を画像化するわけではない。正確性が必須となる直近の対話履歴や、ソースコードの精密な修正指示、画像化の恩恵が薄い短いテキストはそのまま送信する。大量の静的な指示書やAPIの仕様書など、大意さえ掴めればよい文脈に限定して画像化を適用する戦略をとっている。リスクの高い領域と安全な領域を切り分け、コストと精度のバランスを取る工夫が求められる。
プロンプトを画像化してトークンを圧縮する発想自体は、研究領域でも注目を集めている。DeepSeekは以前、視覚モデルを用いてテキストを約10倍に圧縮しつつ、高い精度を保つOCRシステムを発表した。pxpipeの試みは、将来のモデルが標準で実装するかもしれない視覚的なコンテキスト圧縮を、現在の商業APIの仕様上で先取りしたものと言える。
画像化による削減は、プロンプトキャッシュなどの基本策を導入した上で、多少の読み落としを許容できるワークロードに対してのみ切るべきカードだ。速度、精度、コストというシステム開発の三大要素において、コストを極限まで削る代わりに精度にリスクを負うという新たな選択肢が生まれた形になる。
今後、この手法が広く普及すれば、AnthropicをはじめとするAI企業は画像処理のトークン単価を見直す可能性もある。現時点では、ピクセルの隙間にテキストを詰め込むこのハックは、精度と経済性のトレードオフを計算できる開発者にとって、強力で鋭利な道具となる。
XenoSpectrum サポータープログラム 広告のない XenoSpectrum を。
月額¥580。広告が消え、ブックマーク無制限。独立した記事制作を支えられます。いつでも解約可。
サポーターになる(¥580/月)
まずは無料で。AI・半導体・先端技術の最前線を週1通でメール受信。
広告のない XenoSpectrum を。
月額¥580、ログイン済みなのですぐ始められます。
サポーターになる
まずは無料で。最新ニュースをメールで受け取る。
いつもありがとうございます。
あなたのご支援で、独立した記事を届け続けられています。広告は非表示です。
もう一度応援する