GGUF とは

GGUF (GPT-Generated Unified Format) の略。

GGUFは、大規模言語モデル（LLM）の重み（パラメーター）や必要なメタデータを効率的に保存するために設計されたバイナリファイル形式です。

これは、人気の高いLLM推論エンジンである「llama.cpp」チームによって開発された、旧フォーマットのGGMLの後継として、2023年8月頃に導入されました。

GGUFの最大の目的は、さまざまなデバイスでLLMをより簡単に、高速に、少ないメモリで実行できるようにすることです。

GGUF形式は、モデルの重みを極めて低い精度（2ビットから8ビット）に圧縮する量子化（Quantization）をサポートしています。

メリット: モデルのファイルサイズを大幅に削減（例：数十GBを数GBに圧縮）し、低スペックなPCやVRAM容量の少ないコンシューマー向けGPUでも大規模モデルを実行可能にします。
関連記号: モデル名に見られるQ4_K_M、Q5_K_Sなどの表記は、このGGUFの量子化アルゴリズムとビット数を示しています。

GGUFファイルは、モデルの重みだけでなく、トークナイザー情報やプロンプトテンプレートなどの推論に必要なすべてのメタデータを単一のファイル（.gguf）にまとめて保存します。

GGUFはメモリマップ方式での読み込みを前提として設計されています。

GGUFは、特定のモデル（元々はMetaのLLaMA）だけでなく、さまざまなアーキテクチャのLLMをサポートするように設計されています。

エコシステム: llama.cppはもちろん、LM StudioやOllama、KoboldCppなど、ローカルでのLLM実行をサポートする多くのアプリケーションで標準形式として広く採用されています。

要するに、GGUFは、大規模なAIモデルを一般のユーザーのPCでも動かしやすくするための、非常に重要な「共通の軽量モデル形式」であると言えます。