基礎概念

データアノテーション

データアノテーション

一文定義

データアノテーションとは、機械学習の学習データに対して人間がラベル・タグ・説明などの正解情報を付与する作業です。AIモデルの品質に直結する重要なプロセスで、RLHFでは人間の好みを学習させるための比較評価が中心です。

詳細解説

データアノテーション(Data Annotation)とは、機械学習・深層学習モデルを訓練するために必要な「正解ラベル(教師信号)」を人間が生データに付与する作業の総称です。ラベリング・タギングとも呼ばれます。教師あり学習においてモデルの性能はアノテーションの品質・量・多様性に大きく依存します。

データアノテーションが重要な理由は、「AIの品質はデータの品質で決まる」という原則があるためです。ChatGPTの成功を支えたRLHFでは、数千〜数万件の人間による「どちらの回答が良いか」という比較評価(プリファレンスデータ)が学習の核心です。また画像認識では物体の境界線を正確に描くセマンティックセグメンテーション、音声認識では音声と文字起こしのアライメントなど、タスクによって様々な形式のアノテーションが必要です。

アノテーションのコスト・速度・品質のバランスが実務上の大きな課題です。Scale AI・Appen・Labelboxなどの専業プラットフォームや、クラウドソーシング(Amazon Mechanical Turk等)が活用されます。品質管理のためにアノテーター間一致率(Inter-Annotator Agreement、IAA)の測定が重要です。active-learningを使ったアノテーション効率化や、synthetic-dataによるアノテーション削減も研究されています。

参考情報・出典

最終更新: 2026-02-26← 用語集一覧へ

AIスキルだけでなく、自分と未来を再設計する

生成AI活用力を体系的に習得し、自己理解・キャリアデザインを深め、志を同じくする仲間と共に学ぶ場がここにあります。

AIリブートアカデミーを見る