データ拡張とは？わかりやすく解説

一文定義

既存学習データに反転・回転・クロップ・ノイズ付加等の変換を加えてデータ量を人工的に増やす手法。過学習防止に有効。

詳細解説

データ拡張（Data Augmentation）とは、既存の学習データに意味を保ちながら様々な変換を加えることで、仮想的にデータ量を増やす手法です。モデルの汎化性能（未知データへの対応力）を高め、過学習を防ぐ効果があります。特に医療画像・衛星画像など大量ラベル付きデータの収集が困難なドメインで不可欠な技術です。

画像データに対する代表的な拡張手法として、(1)幾何変換：水平・垂直反転、回転（±10〜30度）、クロップ（Random Crop）、(2)色調変換：明度・コントラスト・彩度・色相のランダム変化、グレースケール変換、(3)ノイズ付加：ガウシアンノイズ・ブラー、(4)カットアウト/MixUp/CutMix：画像の一部を消去または他画像と混合する高度な手法があります。

テキストデータの拡張手法として、同義語置換・バックトランスレーション（他言語に翻訳して戻す）・ランダム削除・LLMによるパラフレーズ生成が使われています。LLMを用いた合成データ生成はデータ拡張の現代的な発展形です。

LLMのファインチューニングにおいても、少量のシードデータからLLMが類似の訓練例を自動生成するデータ拡張が「Self-Instruct」として注目されており、Alpaca等の研究で実証されています。

参考情報・出典

▸
A survey on Image Data Augmentation for Deep Learning— Journal of Big Data / Shorten & Khoshgoftaar (2019)（参照日: 2026-02-26）
▸
Data augmentation – Wikipedia— Wikipedia（参照日: 2026-02-26）

データ拡張

一文定義

詳細解説

参考情報・出典

関連用語

AIスキルだけでなく、自分と未来を再設計する