一文定義
データの収集・クレンジング・変換・保存・配信を自動化する一連のプロセス。AI/MLシステムの学習・推論データ供給を担う。
詳細解説
データパイプライン(Data Pipeline)とは、データソースからデータを収集・変換・加工・保存・配信するまでの一連の自動化されたプロセスフローです。AI/MLシステムにとって「良質なデータが継続的に供給されること」は性能の根幹であり、データパイプラインはAI基盤の重要インフラです。
データパイプラインの主要コンポーネントとして、(1)データ収集(Ingestion):データベース・API・ファイル・ストリーミングデータの取り込み、(2)データ変換(Transform):クレンジング・正規化・結合・集計・特徴量生成、(3)データストレージ:データウェアハウス(BigQuery・Snowflake)・データレイク(S3・GCS)への保存、(4)オーケストレーション:パイプライン全体のスケジューリング・依存関係管理・エラーリトライがあります。
アーキテクチャとして、(1)バッチパイプライン:定期的(毎時・毎日)にデータを処理する方式、(2)ストリーミングパイプライン:Kafka・Flink等でリアルタイムにデータを処理する方式、(3)ラムダアーキテクチャ:バッチとストリーミングを組み合わせる方式があります。
AI/ML向けのMLデータパイプラインでは、学習データのバージョン管理(DVC)・データ品質チェック(Great Expectations)・特徴量ストア(Feast)が追加コンポーネントとして重要です。RAGシステムでは文書の定期クロール・前処理・埋め込み生成・ベクトルDB更新を自動化する専用パイプラインが不可欠です。
参考情報・出典
- ▸Apache Airflow Documentation— Apache Software Foundation(参照日: 2026-02-26)
- ▸Prefect – Modern Dataflow Automation— Prefect(参照日: 2026-02-26)