基礎概念

セルフプレイ(Self-Play)

セルフプレイ

一文定義

AIが自分自身を相手に対戦・競争を繰り返して学習する強化学習手法。AlphaGoがチェスや囲碁で人間を超え、LLMの自己改善トレーニングにも応用される。

詳細解説

セルフプレイ(Self-Play)とは、AIエージェントが人間や固定データではなく、自分自身(または自分のコピー)を相手として対戦・競争を繰り返すことで学習する強化学習の手法です。外部の教師データや人間のフィードバックを必要とせずに、エージェント自身が学習のデータを生成しながら際限なく能力を向上させられる点が最大の特徴です。

歴史と代表例として、(1)TD-Gammon(1992年):Gerald Tessauroが開発したバックギャモンAI。セルフプレイで人間のプロレベルに到達した先駆的な事例、(2)AlphaGo/AlphaGo Zero(DeepMind, 2016〜2017年):囲碁AIでセルフプレイを本格的に活用。AlphaGo Zeroは人間の棋譜なしで40日間のセルフプレイのみで世界最強レベルに到達、(3)AlphaZero(DeepMind, 2017年):チェス・将棋・囲碁の3ゲームで24時間のセルフプレイで人間の歴代最強プログラムを超えた、(4)OpenAI Five(2019年):Dota 2のチームゲームで延べ1万年分のセルフプレイ経験で世界最強のプロチームを撃破があります。

技術的な仕組みとして、セルフプレイは(1)現在のモデルのコピー(対戦相手)を生成、(2)自分自身と対戦し、勝敗・報酬を記録、(3)その経験から強化学習でパラメータを更新、(4)更新されたモデルを新たな「最新版」として対戦相手を更新、(5)このサイクルを繰り返すことで「共進化」的に能力が向上する、という流れで動作します。

LLMへの応用として、(1)Constitutional AI:モデルが自分の出力を批評し改善するセルフクリティークは、セルフプレイの概念の応用、(2)自己対話データ生成:モデルが役割(質問者/回答者)を演じてデータを生成し、ファインチューニングに活用(STaR等)、(3)GRPO/RLHF:モデルが複数回答を生成し、自己評価で学習する手法はセルフプレイの変形と見なせます。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る