一文定義
LLMのテキスト生成時に次トークン候補を確率上位K個に絞って選択するサンプリング手法。temperatureやtop-pと組み合わせて多様性と品質を制御する。
詳細解説
Top-K サンプリング(Top-K Sampling)とは、LLMがテキストを生成する際に、次のトークンを選ぶ候補を語彙全体からではなく確率スコア上位K個のトークンに制限するデコーディング手法です。低確率の「ありえない」トークンを候補から除外することで、生成テキストの品質を保ちながら適度な多様性を実現します。
仕組みとして、LLMは各ステップで語彙全体(数万〜数十万トークン)に対して確率分布を出力します。Top-K=50の場合、確率上位50個のトークンのみを候補とし、残りの確率を0にして再正規化してからサンプリングします。K=1は毎回最も確率の高いトークンを選ぶ「貪欲デコーディング(Greedy Decoding)」と同義です。
Top-K の課題として、最適なKの値がコンテキストによって異なる点があります。次のトークンの分布が広い場合(多様な続き方が考えられる場合)はKが小さすぎると質の高い候補を除外してしまい、分布が狭い場合(ほぼ1択の場合)はKが大きすぎると低確率の不自然なトークンが混入します。
この問題を解決するためにTop-P(Nucleus Sampling)が提案されており、確率の累積和がPに達するまでの上位トークンを動的に選ぶことで、分布の形状に応じた適応的な候補数絞り込みを実現します。実際のAPIでは temperature・top-k・top-p を組み合わせて生成品質と創造性のバランスを調整します。
参考情報・出典
- ▸Hierarchical Neural Story Generation— arXiv / Fan et al. (2018)(参照日: 2026-02-26)
- ▸Text generation strategies – Hugging Face Documentation— Hugging Face(参照日: 2026-02-26)