一文定義
LLMの学習データが収集された最終日時。それ以降の出来事はモデルが知らない。RAGやWeb検索で補完され、ユーザーがAIを使う際に必ず意識すべき重要な制約。
詳細解説
知識カットオフ(Knowledge Cutoff)とは、LLMの事前学習に使用されたデータセットの収集が終了した日時(カットオフ日)を指します。モデルはこの日付以降に発生した出来事・発表・変化について知識を持たないため、「最新情報」を求めるユーザーとのミスマッチが生じます。LLMを活用する上で必ず理解しておくべき根本的な制約の一つです。
主要モデルのカットオフ例として、(1)GPT-4o(2024年版):学習データカットオフは2024年4月頃、(2)Claude 3.5 Sonnet(2024年版):カットオフは2024年4月頃、(3)Llama 3.1(Meta, 2024年):カットオフは2023年12月頃、とモデルのバージョンにより異なります。重要なのは、モデルのリリース日とカットオフ日が異なることです。通常、カットオフから数ヶ月〜1年以上経過してモデルがリリースされます。
実用上の問題として、(1)ハルシネーションリスク:カットオフ後の人物・製品・法律について質問すると、古い情報で答えたり、存在しない情報を生成するリスクがある、(2)誤った最新情報:「現在の〇〇は?」という質問に対し、モデルは学習時点の情報を「最新」として回答してしまう、(3)存在しないものへの参照:カットオフ後に登場した製品・研究・人物について、存在するかのように回答してしまう場合があります。
補完策として、(1)RAG(Retrieval-Augmented Generation):最新ドキュメント・データベースをリアルタイムで検索して文脈に注入、(2)Web検索ツール:ChatGPTのBrowsing・Perplexity AI等のWeb検索機能でリアルタイム情報を取得、(3)Function Calling:外部APIを呼び出して最新データ(株価・天気・ニュース等)を動的に取得、(4)ユーザー側の提示:「以下の情報を踏まえて回答してください」と最新情報を直接プロンプトに含める手法があります。
参考情報・出典
- ▸GPT-4 Technical Report— OpenAI(参照日: 2026-02-26)
- ▸Claude Model Documentation – Anthropic— Anthropic(参照日: 2026-02-26)