一文定義
機械学習モデルの性能を高めるために生データから有用な入力変数(特徴量)を設計・選択・変換するプロセス。
詳細解説
特徴量エンジニアリング(Feature Engineering)とは、機械学習モデルへの入力として使う変数(特徴量)を生データから設計・抽出・変換・選択するプロセスです。「Garbage In, Garbage Out」という言葉が示すように、入力特徴量の品質がモデル性能に直結するため、伝統的な機械学習では特徴量エンジニアリングがプロジェクト成否を左右する最重要工程の一つでした。
主要な特徴量エンジニアリング手法として、(1)数値特徴量の変換:対数変換(歪んだ分布の正規化)・正規化(0〜1スケーリング)・標準化(平均0・分散1)、(2)カテゴリ変数のエンコーディング:ワンホットエンコーディング・ラベルエンコーディング・ターゲットエンコーディング、(3)特徴量生成:2変数の積・比・差による交互作用特徴量、時系列データのラグ特徴量・移動平均、(4)特徴量選択:相関分析・情報利得・LASSOによる不要特徴量の除去があります。
深層学習の普及により「自動特徴量学習」が可能になり、画像・テキストなどの非構造化データでは手動の特徴量エンジニアリングが不要になりました。しかし表形式データ(業務データベース・Excelシートなど)では依然として重要なスキルです。
LLMの登場後は、テキストをLLMで前処理・変換・要約して機械学習モデルの特徴量とする「LLM特徴量エンジニアリング」も登場しています。
参考情報・出典
- ▸Feature Engineering for Machine Learning – Zheng & Casari (2018)— O'Reilly Media(参照日: 2026-02-26)
- ▸Feature engineering – Wikipedia— Wikipedia(参照日: 2026-02-26)