2026年04月13日

## 要約:
本研究では、計算資源とメモリ消費を抑えつつ、高品質な音声合成を実現するWANDフレームワークを提案します。WANDは、グローバル注意とローカルウィンドウ注意を組み合わせ、知識蒸留を活用することで、元のモデルの品質を維持しつつメモリ効率と処理速度を大幅に向上させます。実験結果から、既存のAR-TTSモデルでKVキャッシュメモリを最大66.2%削減できることが示されました。
---
## 翻訳:
arXiv:2604.08558v1 Announce Type: new
Abstract: 近年のデコーダーのみの自己回帰テキスト読み上げ (AR-TTS) モデルは高忠実度の音声を生成するが、全自己注意機構により、シーケンス長に対してメモリと計算コストが二乗で増加する。本論文では、事前学習済みのAR-TTSモデルを、一定の計算およびメモリ複雑性で動作するように適応させるフレームワークである、ウィンドウ化された注意と知識蒸留 (WAND) を提案する。WANDは、注意機構を2つに分割する:条件付けトークンに対する持続的なグローバル注意と、生成されたトークンに対するローカルスライディングウィンドウ注意。ファインチューニングを安定させるために、注意ウィンドウを段階的に締め付けるカリキュラム学習戦略を採用する。さらに、教師モデルからの知識蒸留を利用して、高いデータ効率で高忠実度の合成品質を回復させる。3つの最新のAR-TTSモデルで評価した結果、WANDは元の品質を維持しながら、最大66.2%のKVキャッシュメモリ削減と、長さ非依存のほぼ一定のステップごとの遅延を達成した。
[📰 原文はこちら](https://arxiv.org/abs/2604.08558)
---
※本記事はAI(Ollama)による自動翻訳・要約です。
BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/
AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/
頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。
動画の最後にお得な情報がありますので、
最後までご覧ください。