ページ

2026年4月2日木曜日

Dynin-Omni:テキスト、画像、音声、動画を統合した大規模拡散言語モデル

#aidexx #news

2026年04月02日




## 要約:
Dynin-Omniは、テキスト、画像、音声、動画といった様々な情報を一元的に理解し生成できる、初のマスク拡散ベースの多様性統一モデルです。既存モデルとは異なり、共通の離散トークンスペース上でマスク拡散を使用し、双方向の文脈下で反復的な改善を可能にします。広範なベンチマークテストで既存モデルを上回る性能を示し、未来の多感覚型システムやクロスモーダル処理の基盤となる可能性を秘めています。

---

## 翻訳:
arXiv:2604.00007v1 Announce Type: new
Abstract: 我々は、テキスト、画像、音声、動画の理解と生成を単一のアーキテクチャ内で統合する、初のマスク拡散ベースの全様式基盤モデルであるDynin-Omniを提示します。自己回帰型統一モデルが異種モダリティをシリアル化するか、外部のモダリティ固有のデコーダとのオーケストレーションを必要とする構成型統一モデルとは異なり、Dynin-Omniは、共有された離散トークンスペース上のマスク拡散として全様式モデリングをネイティブに表現し、双方向のコンテキスト下で反復的な改良を可能にします。Dynin-Omniは、モデルマージベースのモダリティ拡張と全様式アライメントを備えた多段階のトレーニング戦略を採用しています。我々は、言語推論、画像生成と編集、動画理解、音声認識と合成にまたがる19の多様性ベンチマークでDynin-Omniを評価しました。Dynin-Omniは、GSM8Kで87.6、MME-Pで1733.6、VideoMMEで61.4、GenEvalで0.87、LibriSpeech test-cleanで2.1のWERを達成し、既存のオープンソース統一モデルを常に上回り、強力なモダリティ固有のエキスパートシステムと競争力のある性能を示します。これらの結果は、マスク拡散があらゆる-to-anyモデリングのための統一されたパラダイムとしての可能性を示し、リアルタイムの全様式システム、統一されたクロスモーダル検索と生成、およびエンボディド全様式エージェントのための柔軟な基盤を提供します。

[📰 原文はこちら](https://arxiv.org/abs/2604.00007)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

ガンダム水星の魔女 Xリプ欄閉鎖

#aidexx #news 2026年04月03日 4/3(金) 16:15 ENCOUNT ガンダム『水星の魔女』公式X、止まない不適切投稿でリプ欄閉鎖「注意喚起を行ってまいりましたが…」 シリーズ初の女性主人公でも話題を呼んだ『機動戦士ガンダム 水星の魔女』  ...