一文定義
能動学習とは、モデルが最も学習効果の高いサンプルを自ら選択してラベル付けを依頼する、効率的なデータ収集・学習手法です。アノテーションコストを最小化しながら性能を最大化します。
詳細解説
能動学習(Active Learning)とは、機械学習モデルが大量のラベルなしデータの中から「ラベル付けされれば最も学習効果が高い」サンプルを自律的に選び出し、人間のアノテーターに優先的にラベル付けを依頼するデータ効率化手法です。受動的に与えられたデータで学習する通常の教師あり学習と対比されます。
能動学習が重要な理由は、実世界の機械学習プロジェクトでデータのラベル付けコスト(人件費・時間)が大きなボトルネックとなっているためです。医療画像の診断ラベル・法律文書の分類・専門的な翻訳評価など、専門家による高コストなアノテーションが必要な場合、能動学習によってラベル付けすべきサンプル数を大幅に削減できます。
主なサンプル選択戦略として、不確実性サンプリング(モデルが最も不確かなサンプルを選択)、多様性サンプリング(既存の学習データと最も異なるサンプルを選択)、コアセット選択(代表的なサンプル群を選択)などがあります。LLMの文脈では、fine-tuning用のデモンストレーションデータ選定やRLHF用の比較データ収集の効率化に能動学習的な考え方が応用されています。synthetic-dataと組み合わせて少量の高品質人間ラベルと大量の合成データを組み合わせるアプローチも研究されています。
参考情報・出典
- ▸Active Learning Literature Survey— Settles (2009) / University of Wisconsin(参照日: 2026-02-26)
- ▸Active learning - Wikipedia— Wikipedia(参照日: 2026-02-26)