一文定義
Geminiとは、Google DeepMindが開発したマルチモーダルLLMシリーズです。Ultra・Pro・Nanoの3スケールで展開し、Gemini 1.5ではロングコンテキスト(最大100万トークン)対応が特徴です。
詳細解説
Gemini(ジェミニ)とは、Google DeepMindが2023年12月に発表したマルチモーダル大規模言語モデルシリーズです。テキスト・コード・画像・音声・動画を統合的に処理できるnatively multimodalな設計が特徴で、Ultra・Pro・Nanoの3つのサイズバリアントで提供されました。
Geminiが重要な理由は、Googleが持つ検索・翻訳・YouTube等の大規模サービスとの統合を見据えた、GPT-4に対抗するGoogleの主力AI基盤として位置づけられているためです。GeminiはChatGPTに相当するGoogle製チャットサービス「Gemini(旧Bard)」の基盤モデルでもあります。
Gemini 1.5 Pro(2024年2月発表)では最大100万トークンのコンテキストウィンドウを実現し、長編文書・動画全体・大規模コードベースを一度に処理できるようになりました。Gemini 1.5 Flashは高速・低コストモデルとして、Gemini 2.0では強化されたreasoning能力とマルチモーダル出力(画像・音声生成)を実装。Google AI Studio・Vertex AI経由でAPIも提供されており、日本語性能も継続的に強化されています。
参考情報・出典
- ▸Gemini: A Family of Highly Capable Multimodal Models— arXiv / Google DeepMind (2023)(参照日: 2026-02-26)
- ▸Gemini - Google DeepMind— Google DeepMind(参照日: 2026-02-26)