データキュレーションとは？わかりやすく解説

一文定義

データキュレーションとは、LLM学習のためにデータを体系的に収集・選別・クリーニング・品質評価する工程で、FineWebやRedPajamaなどの高品質コーパス構築で重要性が増し、「データの質がモデル性能を左右する」ことが広く認識されています。

データキュレーション（Data Curation）とは、機械学習・LLM学習のために、生データを収集・選別・クリーニング・品質評価・整理する一連の工程です。「キュレーション」は博物館の学芸員（Curator）が展示品を選定・整理することが語源です。

**なぜデータキュレーションが重要なのか：** スケーリング則の研究（Chinchilla等）により、「データの量だけでなく質が性能に大きく影響する」ことが明らかになりました。低品質データで大量学習するより、高品質データで適切な量を学習する方が効果的な場合が多くあります。

**主なプロセス：**

**1. データ収集（Collection）** - Webクロール（Common Crawl等）でテキストを大量収集 - 書籍・論文・コード・多言語データなどを組み合わせ

**2. フィルタリング（Filtering）** - **品質フィルター**：低品質・スパム・重複コンテンツの除去 - **安全フィルター**：有害コンテンツ・個人情報の除去 - **ドメインフィルター**：学術・ニュース等の高品質ソースを優先 - **言語フィルター**：対象言語の特定

**3. 重複除去（Deduplication）** 完全一致・近傍重複の除去。同じ文章を何度も学習すると過学習・丸暗記のリスクがあります。

**4. 品質スコアリング** - **FastText分類器**：高品質なWikipedia等に近いものを選別 - **Perplexityフィルター**：小モデルで低確率（=品質が低い可能性）のテキストを除外

**代表的な高品質コーパス：** - **FineWeb（HuggingFace、2024年）**：15Tトークン、厳格なフィルタリング - **RedPajama-Data**：オープンソースの学習データセット - **The Pile（EleutherAI）**：多様なドメインの混合データ

データキュレーションは非常に労働集約的な作業であり、高品質なデータセットの作成はLLM開発における競争優位の源泉となっています。