実装

データパイプライン

データパイプライン

一文定義

データの収集・クレンジング・変換・保存・配信を自動化する一連のプロセス。AI/MLシステムの学習・推論データ供給を担う。

詳細解説

データパイプライン(Data Pipeline)とは、データソースからデータを収集・変換・加工・保存・配信するまでの一連の自動化されたプロセスフローです。AI/MLシステムにとって「良質なデータが継続的に供給されること」は性能の根幹であり、データパイプラインはAI基盤の重要インフラです。

データパイプラインの主要コンポーネントとして、(1)データ収集(Ingestion):データベース・API・ファイル・ストリーミングデータの取り込み、(2)データ変換(Transform):クレンジング・正規化・結合・集計・特徴量生成、(3)データストレージ:データウェアハウス(BigQuery・Snowflake)・データレイク(S3・GCS)への保存、(4)オーケストレーション:パイプライン全体のスケジューリング・依存関係管理・エラーリトライがあります。

アーキテクチャとして、(1)バッチパイプライン:定期的(毎時・毎日)にデータを処理する方式、(2)ストリーミングパイプライン:Kafka・Flink等でリアルタイムにデータを処理する方式、(3)ラムダアーキテクチャ:バッチとストリーミングを組み合わせる方式があります。

AI/ML向けのMLデータパイプラインでは、学習データのバージョン管理(DVC)・データ品質チェック(Great Expectations)・特徴量ストア(Feast)が追加コンポーネントとして重要です。RAGシステムでは文書の定期クロール・前処理・埋め込み生成・ベクトルDB更新を自動化する専用パイプラインが不可欠です。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る