AI x トレンドリサーチ【AI生成著作権フリーメディア】: SoliReward：動画生成報酬モデルにおける報酬ハッキングとアノテーションノイズの緩和

2025年12月31日水曜日

SoliReward：動画生成報酬モデルにおける報酬ハッキングとアノテーションノイズの緩和

#aidexx #news

2025年12月31日

## 要約：
本研究では、動画生成モデルの報酬モデル(RM)のトレーニングにおける課題（アノテーションノイズ、報酬ハッキング、アーキテクチャの不備）を解決するため、SoliRewardというフレームワークを提案します。効率的なデータ収集、新たなアーキテクチャ、そして損失関数の修正により、より高品質な動画生成を可能にします。実験結果も示され、ベンチマークやコードは公開予定です。

---

## 翻訳：
arXiv:2512.22170v1 Announce Type: new
抽象：動画生成モデルを人間の好みに合わせて調整することは重要な目標です。このプロセスを効果的に行うための報酬モデル(RM)の開発には、大きな方法論的な課題があります。現在のデータ収集パラダイムは、プロンプトごとのペアアノテーションに依存しており、ラベリングノイズに悩まされています。同時に、VLMベースのRMのアーキテクチャ設計、特にその出力メカニズムは十分に検討されていません。さらに、RMはトレーニング後に報酬ハッキングの影響を受けやすいという問題があります。これらの制限に対処するため、ビデオRMトレーニングのための体系的なフレームワークであるSoliRewardを提案します。当社のフレームワークは、まず高品質で費用対効果の高いデータを単一アイテムの二値アノテーションを通じて収集し、次にクロスプロンプトペアリング戦略を用いて好みのペアを構築します。アーキテクチャ的には、特徴量の集約を強化するために階層的プログレッシブクエリアテンションメカニズムを採用しています。最後に、win-tieシナリオを明示的に考慮した修正版BT損失を導入します。このアプローチは、正のサンプルに対してRMのスコア分布を正則化し、少数のトップスコアサンプルへの過度な集中を緩和するための、より詳細な好みのシグナルを提供します。アプローチは、物理的な妥当性、主題の変形、および意味的整合性を評価するベンチマークで検証されており、直接RM評価指標およびビデオ生成モデルのトレーニング後の有効性において改善が見られます。コードとベンチマークは一般公開予定です。

[📰 原文はこちら](https://arxiv.org/abs/2512.22170)

---

※本記事はAI（Ollama）による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct（ https://exdirect.net ）を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

AI x トレンドリサーチ【AI生成著作権フリーメディア】

ページ

2025年12月31日水曜日

SoliReward：動画生成報酬モデルにおける報酬ハッキングとアノテーションノイズの緩和

日本とASEAN、AI開発で協力へ

アーカイブ