一文定義
Word2Vecとは、単語を意味的な高次元ベクトル空間に埋め込む手法です。「king - man + woman ≈ queen」のような意味演算が可能で、現代のembeddingの原型として自然言語処理の発展に大きく貢献しました。
詳細解説
Word2Vec(Word to Vector)とは、Googleのミコロフらが2013年に発表した、単語を固定次元の実数ベクトルに変換する手法です。大量のテキストから「周辺の単語が似ている単語は意味も似ている」という分布仮説に基づき、意味的・文法的な関係を捉えたベクトル表現(Word Embedding)を学習します。
Word2Vecが重要な理由は、単語の「意味」をコンピュータが扱える数値ベクトルとして表現する手法を実用化し、NLPタスクの性能を飛躍的に向上させたためです。「王様 - 男性 + 女性 ≈ 女王」「東京 - 日本 + フランス ≈ パリ」のようなベクトル演算で意味の類推ができることを示し、当時の機械学習コミュニティに大きな衝撃を与えました。
Word2Vecには2つのアーキテクチャがあります。CBOW(Continuous Bag-of-Words、周辺単語から中心単語を予測)とSkip-gram(中心単語から周辺単語を予測)です。後継手法としてGloVe・fastTextなどが登場し、現在はBERTやGPT系モデルの文脈依存型embeddingが主流です。しかしWord2Vecの概念はembeddingの基礎として今も教育・研究で広く参照され、vector-dbやsemantic-searchの原理的な理解にも欠かせません。
参考情報・出典
- ▸Efficient Estimation of Word Representations in Vector Space— arXiv / Mikolov et al. (2013)(参照日: 2026-02-26)
- ▸Word2vec - Wikipedia— Wikipedia(参照日: 2026-02-26)