ページ

2026年2月3日火曜日

ELLMPEG:エッジコンピューティングを活用したLLMによる動画処理ツール

#aidexx #news

2026年02月03日


## 要約:
本論文は、クラウドへの依存を減らし、プライバシーと信頼性を向上させるために、エッジコンピューティング環境で動作する動画処理ツール「ELLMPEG」を提案します。 LLMとRAGを組み合わせ、FFmpegやVVenCのコマンドを自動生成・ローカル検証することで、APIコストを削減し、エネルギー効率を高めます。 実験により、Qwen2.5が他のモデルを大きく上回る性能を発揮しました。

---

## 翻訳:
arXiv:2602.00028v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)は、ChatGPTのような生成AIシステムの基盤であり、マルチメディア分野を含む多くの分野やアプリケーションを変革しています。しかし、クラウドベースのLLMの展開には、高い計算およびエネルギー需要、リモート処理によるプライバシーと信頼性のリスク、そして繰り返しのAPIコストという3つの重要な制限があります。近年、特に構造化された推論とツール使用におけるエージェントAIの進歩は、オープンソースでローカルに展開されたツールとLLMを活用するためのより良い方法を提供します。本論文では、動画処理コマンドの自動生成を可能にする、エッジ対応エージェントLLMフレームワークであるELLMPEGを紹介します。ELLMPEGは、ツール認識型Retrieval-Augmented Generation(RAG)と反復的な自己内省を統合し、エッジで直接実行可能なFFmpegおよびVersatile Video Codec(VVC)エンコーダ(VVenC)コマンドを生成およびローカルで検証し、外部クラウドAPIへの依存をなくします。ELLMPEGを評価するために、480の多様なクエリで構成される専用プロンプトデータセットを収集しました。このデータセットは、FFmpegおよびVersatile Video Codec(VVC)エンコーダ(VVenC)コマンドのさまざまなカテゴリを網羅しています。コマンド生成精度を検証し、コマンドの有効性、1秒あたり生成されるトークン数、推論時間、およびエネルギー効率に基づいて4つのオープンソースLLMを評価します。また、生成されたコマンドを実行して、実行時の正確性と実用的な適用性を評価します。実験結果は、ELLMPEGフレームワークで拡張されたQwen2.5が、APIコストゼロで、平均コマンド生成精度78%を達成し、FFmpegおよびVVenCデータセットの両方で他のすべてのオープンソースモデルを上回っていることを示しています。

[📰 原文はこちら](https://arxiv.org/abs/2602.00028)

---

※本記事はAI(Ollama)による自動翻訳・要約です。

BittensorManがお勧めするメーカーリスト
https://exbridge.jp/xdirect/

AI時代の技術と知識のまとめ(AI生成メディア) - AIDexx
https://exbridge.jp/aidexx/

頑張って働く人に向けて、プロ用仕事アイテムを格安でネット販売しているX-Direct( https://exdirect.net )を、BittensorManは応援しています。

動画の最後にお得な情報がありますので、
最後までご覧ください。