一文定義
BERTとは、Googleが2018年に開発した双方向Transformerエンコーダモデルです。文脈を左右両方向から読む設計で高精度な自然言語理解(NLU)を実現し、多くのNLPタスクで当時の最高性能を記録しました。
詳細解説
BERT(Bidirectional Encoder Representations from Transformers)とは、Googleが2018年に発表した事前学習済みNLPモデルです。従来のGPTが左から右への一方向の文脈を読むのに対し、BERTはTransformerのエンコーダーを使って文章を双方向に読み込むことで、より深い文脈理解を実現しました。
BERTが重要な理由は、「マスク言語モデリング(MLM)」と「次文予測(NSP)」という2つの事前学習タスクを通じて、ラベルなし大規模テキストから豊かな言語表現を学習し、少量のラベルデータでfine-tuningするだけで多様なNLPタスクに高精度を発揮したためです。GLUE・SQuADなど11のNLPベンチマークで当時の最高性能を達成し、事前学習+fine-tuningのパラダイムを確立しました。
BERTの派生モデルとして、RoBERTa(事前学習の最適化)、ALBERT(軽量化)、DistilBERT(knowledge-distillationによる圧縮)、DeBERTa(注意機構の改善)などがあります。日本語対応版としてTohoku大学のJapanese BERTも公開されています。現在はGPT系のデコーダーオンリーLLMが主流ですが、embeddingや文書分類タスクではBERT系エンコーダーモデルが現役で活用されています。
参考情報・出典
- ▸BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding— arXiv / Devlin et al. (2018)(参照日: 2026-02-26)
- ▸BERT - Wikipedia— Wikipedia(参照日: 2026-02-26)