2026年01月26日
## 要約:
本研究では、視覚言語モデルの多言語数学的推論能力を評価するための大規模なデータセット「M3Kang」を構築しました。これは、世界最大級の数学コンテスト「カンガルー数学コンテスト」を基に、108言語に翻訳されており、既存モデルの課題や、多言語化技術の有効性を示しました。データセットおよび構築に使用したフレームワークは公開されています。
---
## 翻訳:
抄録:最先端の視覚言語モデル(VLM)は強力な推論能力を示していますが、特に人間のパフォーマンスと比較すると、多言語数学的推論におけるその性能は十分に調査されていません。このギャップを埋めるために、私たちはVLMのための最初の大規模な多言語多様体数学的推論データセットであるM3Kangを紹介します。これは、世界最大の数学コンテストである「カンガルー数学コンテスト」に由来し、毎年18歳未満の参加者600万人以上が90カ国以上で参加しています。M3Kangには、学年別の難易度で構成された1747の問題が含まれており、これらは108の文化的・言語的に多様な言語に翻訳されており、その問題を解決するために不可欠な図面を含むものもあります。このデータセットを使用して、クローズドソースおよびオープンソースのSOTAモデルの両方で広範なベンチマークを実施しました。最近の進歩にもかかわらず、モデルは依然として基本的な数学と図面に基づいた推論に苦労しており、その性能は言語の存在とモデルサイズに応じてスケールしますが、学年レベルに応じてはスケールしません。また、多言語技術はマルチモーダル環境に効果的に拡張でき、ベースラインアプローチに対して大幅な改善をもたらすことがわかりました。私たちの分析には、68,000人以上の学生のパフォーマンスデータも含まれており、人間のパフォーマンスとの直接比較を可能にしています。私たちは、英語のみのサブセットであるM2Kangとともに、データセットを構築するために使用されたフレームワークとコードベースもオープンソース化しています。
[📰 原文はこちら](https://arxiv.org/abs/2601.16218)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。