GGUF (GPT-Generated Unified Format) の略。
GGUFは、大規模言語モデル(LLM)の重み(パラメーター)や必要なメタデータを効率的に保存するために設計されたバイナリファイル形式です。
これは、人気の高いLLM推論エンジンである「llama.cpp」チームによって開発された、旧フォーマットのGGMLの後継として、2023年8月頃に導入されました。
GGUFの最大の目的は、さまざまなデバイスでLLMをより簡単に、高速に、少ないメモリで実行できるようにすることです。
🔹 GGUFの主要な特徴と利点
1. 量子化による軽量化と省メモリ
GGUF形式は、モデルの重みを極めて低い精度(2ビットから8ビット)に圧縮する量子化(Quantization)をサポートしています。
メリット: モデルのファイルサイズを大幅に削減(例:数十GBを数GBに圧縮)し、低スペックなPCやVRAM容量の少ないコンシューマー向けGPUでも大規模モデルを実行可能にします。
関連記号: モデル名に見られる
Q4_K_M、Q5_K_Sなどの表記は、このGGUFの量子化アルゴリズムとビット数を示しています。
2. シングルファイルによる管理の容易さ
GGUFファイルは、モデルの重みだけでなく、トークナイザー情報やプロンプトテンプレートなどの推論に必要なすべてのメタデータを単一のファイル(.gguf)にまとめて保存します。
メリット: モデルをロードする際に複数のファイルを扱う必要がなくなり、管理と配布が非常に容易になります。
3. 高速なロードと推論
GGUFはメモリマップ方式での読み込みを前提として設計されています。
メリット: ファイル全体をRAM/VRAMにコピーしなくても直接アクセスできるため、モデルの初期ロード時間が大幅に短縮され、推論も効率的に行えます。
4. 拡張性と高い互換性
GGUFは、特定のモデル(元々はMetaのLLaMA)だけでなく、さまざまなアーキテクチャのLLMをサポートするように設計されています。
エコシステム:
llama.cppはもちろん、LM StudioやOllama、KoboldCppなど、ローカルでのLLM実行をサポートする多くのアプリケーションで標準形式として広く採用されています。
要するに、GGUFは、大規模なAIモデルを一般のユーザーのPCでも動かしやすくするための、非常に重要な「共通の軽量モデル形式」であると言えます。