arXiv Open Access 2023

Audio-Visual Speech Enhancement with Score-Based Generative Models

Julius Richter Simone Frintrop Timo Gerkmann

Lihat Sumber

Abstrak

This paper introduces an audio-visual speech enhancement system that leverages score-based generative models, also known as diffusion models, conditioned on visual information. In particular, we exploit audio-visual embeddings obtained from a self-super\-vised learning model that has been fine-tuned on lipreading. The layer-wise features of its transformer-based encoder are aggregated, time-aligned, and incorporated into the noise conditional score network. Experimental evaluations show that the proposed audio-visual speech enhancement system yields improved speech quality and reduces generative artifacts such as phonetic confusions with respect to the audio-only equivalent. The latter is supported by the word error rate of a downstream automatic speech recognition model, which decreases noticeably, especially at low input signal-to-noise ratios.

Topik & Kata Kunci

eess.AS cs.LG

Penulis (3)

Julius Richter

Simone Frintrop

Timo Gerkmann

Format Sitasi

APA MLA BibTeX

Richter, J., Frintrop, S., Gerkmann, T. (2023). Audio-Visual Speech Enhancement with Score-Based Generative Models. https://arxiv.org/abs/2306.01432

Akses Cepat

Lihat di Sumber

Informasi Jurnal

Tahun Terbit: 2023
Bahasa: en
Sumber Database: arXiv
Akses: Open Access ✓