一文定義
セマンティックチャンキングとは、RAGにおいてドキュメントを意味的な塊(チャンク)に分割する手法です。固定文字数分割と異なり意味的な境界で分割するため、検索精度と回答品質が向上します。
詳細解説
セマンティックチャンキング(Semantic Chunking)とは、RAGシステムにおいて長文ドキュメントをベクトル化・検索可能な単位(チャンク)に分割する際、文字数や段落番号などの表面的な基準ではなく、「意味的なまとまり」を基準に分割する手法です。テキストの内容的なまとまりを保ちながら分割することで、検索時のコンテキスト整合性が向上します。
セマンティックチャンキングが重要な理由は、固定文字数(例:512トークン)での機械的な分割では文章の途中で切れてしまい、意味的な文脈が失われた不完全なチャンクが生成されるためです。「質問:○○とは何か」→検索されたチャンクが文の途中で切れていて答えが含まれない、というケースが頻発します。セマンティックチャンキングによって各チャンクが意味的に完結した情報単位になり、検索と回答生成の品質が改善します。
主な実装アプローチとして、文埋め込みの類似度を使って近い意味の文を同じチャンクにまとめる手法(LangChain SemanticChunker)、LLMを使って意味的な段落境界を検出する手法、文書の構造(見出し・リスト・表)を活用する構造ベース分割があります。チャンクサイズのオーバーラップ(連続するチャンクが一部のテキストを共有)と組み合わせることでコンテキストの切断を防ぐことも一般的です。information-retrievalの精度向上に直結する重要な前処理ステップです。
参考情報・出典
- ▸Semantic Chunker - LangChain Documentation— LangChain(参照日: 2026-02-26)
- ▸Chunking Strategies for LLM Applications - Pinecone— Pinecone(参照日: 2026-02-26)