一文定義
ニューラルネットワークの重要度の低い重みや層を除去して、精度を保ちながらモデルサイズを削減する圧縮技術。
詳細解説
モデル剪定(Model Pruning)とは、訓練済みニューラルネットワークから重要度の低い重みパラメータ・ニューロン・層を識別して除去することで、モデルサイズを削減し推論速度を向上させながら精度の低下を最小限に抑える圧縮技術です。量子化・知識蒸留と並ぶモデル軽量化の主要手法の一つです。
剪定の種類として、(1)非構造化剪定(Unstructured Pruning):重みの絶対値が小さいものをスパースにゼロ化する手法。高圧縮率を達成できるが特殊なハードウェアが必要、(2)構造化剪定(Structured Pruning):ニューロン・チャンネル・層全体を丸ごと除去する手法。汎用ハードウェアでそのまま高速化できる利点がある、(3)ヘッド剪定:Transformerの不要なアテンションヘッドを除去するLLM特有の手法があります。
剪定のワークフローは一般に、(1)完全モデルの訓練、(2)重要度スコアによる剪定対象の選定(Large Final Weights・テイラー展開・Wanda等の基準)、(3)剪定の実行(スパース化またはサブネットワーク化)、(4)精度回復のためのファインチューニング(Pruning + Fine-tuning)という流れです。
LLM向けの最新手法としてSparseGPT・Wandaがゼロショット剪定(追加訓練なしに大規模LLMを剪定)を実現しており、Llama・GPTなどの50〜60%スパース化が報告されています。エッジデバイスへのLLMデプロイにおいて量子化と組み合わせた圧縮が標準的になっています。
参考情報・出典
- ▸Learning both Weights and Connections for Efficient Neural Networks— arXiv / Han et al. (2015)(参照日: 2026-02-26)
- ▸SparseGPT: Massive Language Models Can Be Accurately Pruned in One Shot— arXiv(参照日: 2026-02-26)