Dynin-Omni：テキスト、画像、音声、動画を統合した大規模拡散言語モデル

2026年4月2日木曜日

Dynin-Omni：テキスト、画像、音声、動画を統合した大規模拡散言語モデル

#aidexx #news

2026年04月02日

## 要約：
Dynin-Omniは、テキスト、画像、音声、動画といった様々な情報を一元的に理解し生成できる、初のマスク拡散ベースの多様性統一モデルです。既存モデルとは異なり、共通の離散トークンスペース上でマスク拡散を使用し、双方向の文脈下で反復的な改善を可能にします。広範なベンチマークテストで既存モデルを上回る性能を示し、未来の多感覚型システムやクロスモーダル処理の基盤となる可能性を秘めています。

---

## 翻訳：
arXiv:2604.00007v1 Announce Type: new
Abstract: 我々は、テキスト、画像、音声、動画の理解と生成を単一のアーキテクチャ内で統合する、初のマスク拡散ベースの全様式基盤モデルであるDynin-Omniを提示します。自己回帰型統一モデルが異種モダリティをシリアル化するか、外部のモダリティ固有のデコーダとのオーケストレーションを必要とする構成型統一モデルとは異なり、Dynin-Omniは、共有された離散トークンスペース上のマスク拡散として全様式モデリングをネイティブに表現し、双方向のコンテキスト下で反復的な改良を可能にします。Dynin-Omniは、モデルマージベースのモダリティ拡張と全様式アライメントを備えた多段階のトレーニング戦略を採用しています。我々は、言語推論、画像生成と編集、動画理解、音声認識と合成にまたがる19の多様性ベンチマークでDynin-Omniを評価しました。Dynin-Omniは、GSM8Kで87.6、MME-Pで1733.6、VideoMMEで61.4、GenEvalで0.87、LibriSpeech test-cleanで2.1のWERを達成し、既存のオープンソース統一モデルを常に上回り、強力なモダリティ固有のエキスパートシステムと競争力のある性能を示します。これらの結果は、マスク拡散があらゆる-to-anyモデリングのための統一されたパラダイムとしての可能性を示し、リアルタイムの全様式システム、統一されたクロスモーダル検索と生成、およびエンボディド全様式エージェントのための柔軟な基盤を提供します。

[📰 原文はこちら](https://arxiv.org/abs/2604.00007)

---

※本記事はAI（Ollama）による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct（ https://exdirect.net ）を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。

Web3 x AI x SNS - AIKnowledgeCMS blog

ページ

2026年4月2日木曜日

Dynin-Omni：テキスト、画像、音声、動画を統合した大規模拡散言語モデル

「出口をいくら弄っても黒字にならない」ボットの本丸は特徴量だった ― FreqAIに3本目の相関ペアを足したら赤字が黒字に反転した話 07-16

アーカイブ