一文定義
機械学習で最も使われる損失関数の一つ。予測確率分布と正解分布の差を測定する。LLMの学習では次トークンの予測誤差を最小化するために使用される。
詳細解説
交差エントロピー(Cross-Entropy)とは、情報理論に基づく2つの確率分布間の差異を測定する指標であり、機械学習における最も基本的かつ重要な損失関数の一つです。モデルの予測確率分布が正解の確率分布からどれだけ乖離しているかを数値化し、この値を最小化することでモデルを学習させます。
数学的定義として、正解分布pに対する予測分布qの交差エントロピーはH(p,q) = -Σ p(x) log q(x)で定義されます。分類タスクでは正解クラスの予測確率のみが関係するため、正解クラスkに対してL = -log q(k)に簡略化されます。この値は正解クラスの予測確率が1に近いほど0に近づき、0に近いほど無限大に発散します。
LLMの学習における役割として、LLMの事前学習は「次トークン予測」タスクとして定式化されます。文章「AIは人類の」の次のトークンとして「味方」の確率を高く予測できるよう、交差エントロピー損失を最小化する方向にパラメータを更新します。語彙サイズ(3万〜10万トークン)にわたる確率分布を出力するsoftmax関数と組み合わせて使用され、この損失値を学習データ全体で平均したものがモデルの「訓練損失」として報告されます。
関連概念として、(1)パープレキシティ(Perplexity):交差エントロピーの指数関数。PPL = exp(H(p,q))。言語モデルの評価指標として使われ、値が低いほど良い性能を示す、(2)KLダイバージェンス:2つの分布間の「非対称な距離」。交差エントロピーからエントロピーを引いたもの。知識蒸留やRLHFで使用、(3)Binary Cross-Entropy:2値分類に特化した交差エントロピー。シグモイド関数と組み合わせて使用があります。
参考情報・出典
- ▸CrossEntropyLoss – PyTorch Documentation— PyTorch(参照日: 2026-02-26)
- ▸Cross-entropy – Wikipedia— Wikipedia(参照日: 2026-02-26)