一文定義
位置エンコーディングとは、Transformerがシーケンスのトークンごとにどこにあるかという位置情報を取り込むための表現手法です。正弦波・RoPE・ALiBiなどの方式があり、長文(ロングコンテキスト)対応能力に直接影響します。
詳細解説
位置エンコーディング(Positional Encoding)とは、TransformerモデルがAttentionを計算する際に「このトークンはシーケンスの何番目にあるか」という位置情報を認識できるようにするための表現手法です。CNNやRNNと異なり、Transformerは全トークンを並列処理するため、位置情報を別途明示的に与える必要があります。
位置エンコーディングが重要な理由は、テキストにおいて語順は意味を決定する重要な要素(「猫が犬を追う」と「犬が猫を追う」では意味が逆)であり、位置情報なしではTransformerが語順を無視した処理になるためです。また位置エンコーディングの設計が、モデルがどこまで長いコンテキストを扱えるかに直結します。
主な方式として、元のTransformer論文の正弦波位置エンコーディング(絶対位置、事前定義)、学習可能な絶対位置埋め込み(BERTで採用)、RoPE(Rotary Position Embedding、回転行列で相対位置を表現、GPT-NeoX・LLaMAで採用)、ALiBi(Attention with Linear Biases、外挿性能が高い)などがあります。現代のLLMではRoPEが主流であり、RoPEのスケーリング手法によって訓練時より長いコンテキストへの対応(long-context拡張)が研究されています。
参考情報・出典
- ▸Attention Is All You Need— arXiv / Vaswani et al. (2017)(参照日: 2026-02-26)
- ▸RoFormer: Enhanced Transformer with Rotary Position Embedding— arXiv / Su et al. (2021)(参照日: 2026-02-26)