arXiv Open Access 2026

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Ziwei Zhou Zeyuan Lai Rui Wang Yifan Yang Zhen Xing +4 lainnya

Lihat Sumber

Abstrak

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.

Topik & Kata Kunci

cs.CV cs.AI cs.CL

Penulis (9)

Ziwei Zhou

Zeyuan Lai

Rui Wang

Yifan Yang

Zhen Xing

Yuqing Yang

Qi Dai

Lili Qiu

Chong Luo

Format Sitasi

APA MLA BibTeX

Zhou, Z., Lai, Z., Wang, R., Yang, Y., Xing, Z., Yang, Y. et al. (2026). AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation. https://arxiv.org/abs/2604.08540

Akses Cepat

Lihat di Sumber

Informasi Jurnal

Tahun Terbit: 2026
Bahasa: en
Sumber Database: arXiv
Akses: Open Access ✓