実装

モデル並列(Model Parallelism)

モデルへいれつ

一文定義

単一GPUに収まらない超大規模モデルを複数GPUに分割して学習・推論する技術。テンソル並列・パイプライン並列・シーケンス並列など複数の手法がある。

詳細解説

モデル並列(Model Parallelism)とは、単一のGPUのメモリに収まらない大規模なニューラルネットワークを、複数のGPU(またはTPU等のアクセラレータ)に分割して配置し、協調して学習・推論を行う技術の総称です。数十億〜数兆パラメータを持つ現代のLLMの学習・推論には不可欠な技術であり、データ並列と組み合わせた3D並列化がLLM開発の標準的なアプローチとなっています。

主要な並列化手法として、(1)テンソル並列(Tensor Parallelism / TP):個々のレイヤー(行列演算)を複数GPUに分割。Megatron-LMが提案したColumn/Row Parallelismにより、Attention・MLPレイヤーの行列積を複数GPUで分担。GPU間通信が頻繁なためノード内(NVLink接続)で使用、(2)パイプライン並列(Pipeline Parallelism / PP):モデルのレイヤーを連続するグループに分割し、各グループを異なるGPUに配置。マイクロバッチでパイプラインを構成してGPUのアイドル時間(バブル)を削減、(3)シーケンス並列(Sequence Parallelism / SP):入力シーケンス(トークン列)を分割して並列処理。長文脈モデルの学習・推論で使用、(4)データ並列(Data Parallelism / DP):学習データを複数GPUに分割し、各GPUが同一モデルのコピーで異なるデータバッチを処理。ZeROオプティマイザでメモリ効率を向上があります。

3D並列化として、実際のLLM学習ではTP + PP + DPを組み合わせた3D並列化が標準です。例えば、8GPU×16ノード=128GPUの構成で、TP=8(ノード内)、PP=4(4ノード間)、DP=4(残りのグループ間)のように設定します。

主要フレームワークとして、Megatron-LM(NVIDIA)・DeepSpeed(Microsoft)・FSDP(PyTorch)・Alpa(Google)等がモデル並列の実装を提供しています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る