一文定義
データキュレーションとは、LLM学習のためにデータを体系的に収集・選別・クリーニング・品質評価する工程で、FineWebやRedPajamaなどの高品質コーパス構築で重要性が増し、「データの質がモデル性能を左右する」ことが広く認識されています。
詳細解説
データキュレーション(Data Curation)とは、機械学習・LLM学習のために、生データを収集・選別・クリーニング・品質評価・整理する一連の工程です。「キュレーション」は博物館の学芸員(Curator)が展示品を選定・整理することが語源です。
**なぜデータキュレーションが重要なのか:** スケーリング則の研究(Chinchilla等)により、「データの量だけでなく質が性能に大きく影響する」ことが明らかになりました。低品質データで大量学習するより、高品質データで適切な量を学習する方が効果的な場合が多くあります。
**主なプロセス:**
**1. データ収集(Collection)** - Webクロール(Common Crawl等)でテキストを大量収集 - 書籍・論文・コード・多言語データなどを組み合わせ
**2. フィルタリング(Filtering)** - **品質フィルター**:低品質・スパム・重複コンテンツの除去 - **安全フィルター**:有害コンテンツ・個人情報の除去 - **ドメインフィルター**:学術・ニュース等の高品質ソースを優先 - **言語フィルター**:対象言語の特定
**3. 重複除去(Deduplication)** 完全一致・近傍重複の除去。同じ文章を何度も学習すると過学習・丸暗記のリスクがあります。
**4. 品質スコアリング** - **FastText分類器**:高品質なWikipedia等に近いものを選別 - **Perplexityフィルター**:小モデルで低確率(=品質が低い可能性)のテキストを除外
**代表的な高品質コーパス:** - **FineWeb(HuggingFace、2024年)**:15Tトークン、厳格なフィルタリング - **RedPajama-Data**:オープンソースの学習データセット - **The Pile(EleutherAI)**:多様なドメインの混合データ
データキュレーションは非常に労働集約的な作業であり、高品質なデータセットの作成はLLM開発における競争優位の源泉となっています。
参考情報・出典
- ▸The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale— arXiv / HuggingFace(参照日: 2026-02-26)
- ▸RedPajama-Data: An Open Source Recipe to Reproduce LLaMA Training Dataset— Together AI(参照日: 2026-02-26)