一文定義
C++で実装されたLLM推論ライブラリ。GGUF形式のモデルをCPU/GPU上で効率的に実行。OllamaやLM Studioの基盤として広く利用される。
詳細解説
llama.cpp(ラマ・シーピーピー)とは、Georgi Gerganovが開発したC++製のLLM推論ライブラリです。依存関係を最小限に抑えた純粋なC/C++実装により、NVIDIA GPU・Apple Silicon(Metal)・CPU(AVX/AVX2命令セット)など幅広いハードウェアで動作します。GGUFフォーマットの量子化モデルを効率的に実行でき、ローカルLLM実行エコシステムの基盤として多くのツールに組み込まれています。
主な特徴として、(1)マルチプラットフォーム:macOS・Linux・Windows・iOS・Android・WebAssembly(ブラウザ内実行も可能)、(2)量子化サポート:2〜8ビット量子化(Q2_K〜Q8_0)により7Bモデルを4GB以下のRAMで実行可能、(3)OpenAI互換APIサーバー:内蔵のHTTPサーバーがOpenAI API形式でリクエストを受け付け既存コードをそのまま利用可能、(4)ツール連携:OllamaとLM StudioはllaMa.cppをバックエンドとして採用しています。
GGUFフォーマットは2023年8月にGPTQの代替として登場したモデル保存形式で、量子化設定・トークナイザー情報・メタデータを単一ファイルにまとめています。Hugging Faceでは多数のモデルがGGUF形式で公開されており、「TheBloke」などのコミュニティが主要モデルのGGUF変換・配布を担っています。
プライバシー重視の用途(社内文書処理・医療データ)や、インターネット接続なしの完全オフライン推論環境での活用が増えています。
参考情報・出典
- ▸ggerganov/llama.cpp – GitHub— GitHub(参照日: 2026-02-26)
- ▸GGUF Format Specification— GitHub / ggml(参照日: 2026-02-26)