一文定義
多言語LLMとは複数言語で学習・推論できるLLMで、mBERT・XLM-R・Ayaが代表的。日本語特化モデルにはSwallow・Tanukiがあり、言語間転移学習により少数言語でも高い性能を発揮します。
詳細解説
多言語LLM(Multilingual LLM)とは、英語だけでなく複数の言語のデータで学習し、それらの言語で理解・生成・推論ができる大規模言語モデルです。
**なぜ多言語対応が重要なのか:** インターネットコンテンツの大半は英語ですが、世界人口の大多数は英語以外を母語とします。多言語LLMは英語以外の言語ユーザーへのAI恩恵の民主化と、言語の壁を超えたビジネス活用を実現します。
**主要な多言語モデルの系譜:**
**エンコーダー系(理解特化):** - **mBERT(2019年)**:Googleが104言語でBERTを学習した先駆け - **XLM-R(2020年)**:Facebook AIが100言語・2.5TBのデータで学習。mBERTを大幅に上回る性能
**デコーダー系(生成特化):** - **Aya(Cohere、2024年)**:101言語対応の生成モデル。コミュニティ参加型で多様な言語のデータ収集 - **Qwen(Alibaba)**:中国語・英語を中心とした多言語対応 - **Llama 3(Meta)**:多言語対応を強化し日本語も含む
**日本語特化・日本語強化モデル:** - **Swallow(東京科学大学)**:Llama 2をベースに日本語追加学習 - **Tanuki(東京大学松尾研)**:日本語能力を重視した独自モデル - **Sarashina(SB Intuitions)**:日本語LLM
**言語間転移学習の仕組み:** 大量データがある英語で学んだ知識・推論能力が、少ないデータしかない言語にも転移(Transfer)します。ゼロショット言語転移と呼ばれ、学習時に見ていない言語でも一定の性能が出ます。
**課題:** 英語と非英語言語間の性能差(言語間格差)は依然として存在します。特に文字体系・語順・形態論が英語と大きく異なる言語では差が広がりやすく、継続的な研究と日本語特化学習(継続事前学習)が進められています。
参考情報・出典
- ▸Unsupervised Cross-lingual Representation Learning at Scale (XLM-R)— arXiv / Conneau et al. / Facebook AI(参照日: 2026-02-26)
- ▸Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model— arXiv / Cohere For AI(参照日: 2026-02-26)