ページ

2026年1月19日月曜日

BYOL:LLMに自国語を取り込もう

#aidexx #news

2026年01月19日


## 要約:
この論文では、言語リソースの偏りを解消するため、LLM開発のためのBYOLというフレームワークを提案します。言語資源のレベルに応じて統合パスを選択し、低リソース言語に対してはデータ改善パイプラインを構築しました。さらに、機械翻訳を利用して極端な低リソース言語への対応も可能にし、既存のモデルを改善しています。

---

## 翻訳:
arXiv:2601.10804v1 の発表Type: new
概要:大規模言語モデル(LLM)は強力な多言語能力を示しますが、世界中の言語リソースの深刻な不均衡によって本質的に制約されています。世界中で7,000以上の言語が話されていますが、現代のLLMトレーニングに意味のある影響を与えるデジタルプレゼンスが十分な言語は、ごく一部(100未満)に過ぎません。この格差は、低リソース言語と極端な低リソース言語の話し手にとって、体系的な性能低下、文化的ミスマッチ、および限られたアクセスにつながります。この格差を解消するために、各言語のデジタルフットプリントに合わせた、スケーラブルで言語に配慮したLLM開発のための統一フレームワークであるBring Your Own Language(BYOL)を紹介します。BYOLは、キュレーションされたウェブスケールコーパスを使用して言語を4つの階層(極端な低リソース、低リソース、中位、高位)にマッピングし、この分類を使用して適切な統合パスを選択します。低リソース言語の場合、コーパスのクリーニング、合成テキストの生成、継続的な事前学習、および教師ありファインチューニングを組み合わせたフルスタックのデータ改善パイプラインを提案します。シチェワ語とマオリ語に適用すると、このパイプラインは12のベンチマークで強力な多言語ベースラインと比較して平均12パーセントの改善を達成し、重み空間モデルのマージにより英語および多言語機能を維持します。極端な低リソース言語の場合、翻訳を介した包含パスを導入し、イヌクティット語で、カスタマイズされた機械翻訳システムが4のBLEUで商用ベースラインを上回ることを示し、直接言語モデリングが実現不可能な場合に高精度のLLMアクセスを可能にします。最後に、シチェワ語、マオリ語、イヌクティット語でGlobal MMLU-Liteベンチマークの翻訳されたバージョンをリリースし、コードベースとモデルをhttps://github.com/microsoft/byolで一般公開します。

[📰 原文はこちら](https://arxiv.org/abs/2601.10804)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Xの運用開始からフォロワー1000人を集めるための30日間ロードマップ

#aidexx #X運用 #AIノウハウ 【保存版】 Xの運用開始からフォロワー1000人を集めるための30日間ロードマップ 1. 今日から30日間、毎日Xに最低3本の投稿を行う。 2. 最初の7日間は、自身の専門分野に関連するキーワードを5つずつ調査し、...