ページ

2026年5月26日火曜日

EchoDistill: ノイズからのセルフ蒸留によるロバストな音声LLM

#aidexx #news

2026年05月26日




## 要約:
EchoDistillは、ノイズによる音声LLMの性能低下に対処する新しいフレームワークです。教師モデルのクリーンな音声を参照し、ノイズ環境下での推論を最適化することで、誤った推論を抑制し、性能を向上させます。この手法は、追加の計算コストなしに音声LLMの信頼性とタスク性能を向上させることが可能です。

---

## 翻訳:
arXiv:2605.23954v1 Announce Type: new
Abstract: 音声大規模言語モデル(ALLMs)は、現実世界のノイズに対して非常に脆弱であり、しばしば深刻な意味論的ドリフトとハルシネーションを引き起こします。既存のロバストネス手法は、主に波形レベルのアコースティックエンハンスメント、回答レベルの教師あり学習、またはノイズ表現の内的な抑制に依存しています。これらの問題を解決するために、ここではアライメントベースのノイズからクリーンへの自己蒸留フレームワークであるechodistillを提案します。Echodistillは、凍結されたクリーンオーディオ教師を利用して、推論時のノイズオーディオ生徒に対して意味論的な参照を提供します。具体的には、生徒はノイズ状態下で候補応答をサンプリングし、そのテスト時動作を露出させます。これらの軌道は、その後、グループ相対ポリシー最適化(GRPO)によって最適化されます。ここで、教師とのトークンレベルの一貫性は報酬ボーナスとして機能します。ノイズのある生徒の候補応答をクリーンな意味論的証拠に合わせ、音声に配慮した報酬シェーピングを適用することにより、当社の方法は、正しく、かつ真に音響的に基づいた推論軌道の両方を奨励します。Echodistillは、複雑なノイズ下での音声LLMの意味論的信頼性とタスクパフォーマンスを大幅に向上させます。広範な実験により、(I) 最も強力なベースラインと比較して、echodistillは強いノイズ下で平均4.18%↑のGSRの改善を達成します。(II) Qwen-Omniにおけるアブレーション結果は、さらにechodistillがGRPOのみのバリアントよりもAccで3.02%↑、Noisyで3.89%↑、GSRで4.53%↑の平均改善をもたらすことを示します。当社のコードは、https://anonymous.4open.science/r/echodistill-10DEで入手できます。

[📰 原文はこちら](https://arxiv.org/abs/2605.23954)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。