一文定義
単一GPUに収まらない超大規模モデルを複数GPUに分割して学習・推論する技術。テンソル並列・パイプライン並列・シーケンス並列など複数の手法がある。
詳細解説
モデル並列(Model Parallelism)とは、単一のGPUのメモリに収まらない大規模なニューラルネットワークを、複数のGPU(またはTPU等のアクセラレータ)に分割して配置し、協調して学習・推論を行う技術の総称です。数十億〜数兆パラメータを持つ現代のLLMの学習・推論には不可欠な技術であり、データ並列と組み合わせた3D並列化がLLM開発の標準的なアプローチとなっています。
主要な並列化手法として、(1)テンソル並列(Tensor Parallelism / TP):個々のレイヤー(行列演算)を複数GPUに分割。Megatron-LMが提案したColumn/Row Parallelismにより、Attention・MLPレイヤーの行列積を複数GPUで分担。GPU間通信が頻繁なためノード内(NVLink接続)で使用、(2)パイプライン並列(Pipeline Parallelism / PP):モデルのレイヤーを連続するグループに分割し、各グループを異なるGPUに配置。マイクロバッチでパイプラインを構成してGPUのアイドル時間(バブル)を削減、(3)シーケンス並列(Sequence Parallelism / SP):入力シーケンス(トークン列)を分割して並列処理。長文脈モデルの学習・推論で使用、(4)データ並列(Data Parallelism / DP):学習データを複数GPUに分割し、各GPUが同一モデルのコピーで異なるデータバッチを処理。ZeROオプティマイザでメモリ効率を向上があります。
3D並列化として、実際のLLM学習ではTP + PP + DPを組み合わせた3D並列化が標準です。例えば、8GPU×16ノード=128GPUの構成で、TP=8(ノード内)、PP=4(4ノード間)、DP=4(残りのグループ間)のように設定します。
主要フレームワークとして、Megatron-LM(NVIDIA)・DeepSpeed(Microsoft)・FSDP(PyTorch)・Alpa(Google)等がモデル並列の実装を提供しています。
参考情報・出典
- ▸Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism— arXiv / NVIDIA(参照日: 2026-02-26)
- ▸DeepSpeed Documentation – Model Parallelism— Microsoft / DeepSpeed(参照日: 2026-02-26)