一文定義
センテンストランスフォーマーズとは、文章・段落を固定長の高品質ベクトルに変換するPythonライブラリで、BERTを双方向エンコーダとして文単位で学習させたSBERTが基盤となり、意味検索・RAG・類似度計算に広く使われます。
詳細解説
Sentence Transformers(センテンストランスフォーマーズ)とは、文・段落・文書を意味的に近いものが近い距離に配置されるような密ベクトル(Dense Vector)に変換するPythonライブラリです。Nils Reimers が開発し、sbert.net で公開されています。
中核となるSBERT(Sentence-BERT)は、BERTをシャムネットワーク(Siamese Network)構造で学習させ、文ペアの類似度を効率的に計算できるようにした手法です。従来のBERTでは2文の類似度計算のたびにモデルへの入力が必要でしたが、SBERTは各文を独立してエンコードできるため、数百万件規模の文書検索が現実的な時間で可能になります。
実用面では、RAGシステムのリトリーバル(検索)コンポーネント、意味検索エンジン、重複コンテンツ検出、クラスタリング、文書分類など幅広い用途に使われています。1000以上の事前学習済みモデルが提供されており、日本語対応モデルも複数存在します。
OpenAIのtext-embedding-ada-002やCohere Embedも同種の用途ですが、Sentence TransformersはオープンソースでローカルGPU上でも動作するため、コストとプライバシーを重視するユースケースに適しています。
参考情報・出典
- ▸Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks— arXiv / Reimers & Gurevych(参照日: 2026-02-26)
- ▸Sentence Transformers Documentation— sbert.net(参照日: 2026-02-26)