実装

データキュレーション

データキュレーション

一文定義

データキュレーションとは、LLM学習のためにデータを体系的に収集・選別・クリーニング・品質評価する工程で、FineWebやRedPajamaなどの高品質コーパス構築で重要性が増し、「データの質がモデル性能を左右する」ことが広く認識されています。

詳細解説

データキュレーション(Data Curation)とは、機械学習・LLM学習のために、生データを収集・選別・クリーニング・品質評価・整理する一連の工程です。「キュレーション」は博物館の学芸員(Curator)が展示品を選定・整理することが語源です。

**なぜデータキュレーションが重要なのか:** スケーリング則の研究(Chinchilla等)により、「データの量だけでなく質が性能に大きく影響する」ことが明らかになりました。低品質データで大量学習するより、高品質データで適切な量を学習する方が効果的な場合が多くあります。

**主なプロセス:**

**1. データ収集(Collection)** - Webクロール(Common Crawl等)でテキストを大量収集 - 書籍・論文・コード・多言語データなどを組み合わせ

**2. フィルタリング(Filtering)** - **品質フィルター**:低品質・スパム・重複コンテンツの除去 - **安全フィルター**:有害コンテンツ・個人情報の除去 - **ドメインフィルター**:学術・ニュース等の高品質ソースを優先 - **言語フィルター**:対象言語の特定

**3. 重複除去(Deduplication)** 完全一致・近傍重複の除去。同じ文章を何度も学習すると過学習・丸暗記のリスクがあります。

**4. 品質スコアリング** - **FastText分類器**:高品質なWikipedia等に近いものを選別 - **Perplexityフィルター**:小モデルで低確率(=品質が低い可能性)のテキストを除外

**代表的な高品質コーパス:** - **FineWeb(HuggingFace、2024年)**:15Tトークン、厳格なフィルタリング - **RedPajama-Data**:オープンソースの学習データセット - **The Pile(EleutherAI)**:多様なドメインの混合データ

データキュレーションは非常に労働集約的な作業であり、高品質なデータセットの作成はLLM開発における競争優位の源泉となっています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る