arXiv Open Access 2026

Moving Speaker Separation via Parallel Spectral-Spatial Processing

Yuzhu Wang Archontis Politis Konstantinos Drossos Tuomas Virtanen

Lihat Sumber

Abstrak

Multi-channel speech separation in dynamic environments is challenging as time-varying spatial and spectral features evolve at different temporal scales. Existing methods typically employ sequential architectures, forcing a single network stream to simultaneously model both feature types, creating an inherent modeling conflict. In this paper, we propose a dual-branch parallel spectral-spatial (PS2) architecture that separately processes spectral and spatial features through parallel streams. The spectral branch uses a bi-directional long short-term memory (BLSTM)-based frequency module, a Mamba-based temporal module, and a self-attention module to model spectral features. The spatial branch employs bi-directional gated recurrent unit (BGRU) networks to process spatial features that encode the evolving geometric relationships between sources and microphones. Features from both branches are integrated through a cross-attention fusion mechanism that adaptively weights their contributions. Experimental results demonstrate that the PS2 outperforms existing state-of-the-art (SOTA) methods by 1.6-2.2 dB in scale-invariant signal-to-distortion ratio (SI-SDR) for moving speaker scenarios, with robust separation quality under different reverberation times (RT60), noise levels, and source movement speeds. Even with fast source movements, the proposed model maintains SI-SDR improvements of over 13 dB. These improvements are consistently observed across multiple datasets, including WHAMR! and our generated WSJ0-Demand-6ch-Move dataset.

Topik & Kata Kunci

eess.AS cs.SD

Penulis (4)

Yuzhu Wang

Archontis Politis

Konstantinos Drossos

Tuomas Virtanen

Format Sitasi

APA MLA BibTeX

Wang, Y., Politis, A., Drossos, K., Virtanen, T. (2026). Moving Speaker Separation via Parallel Spectral-Spatial Processing. https://arxiv.org/abs/2602.22487

Akses Cepat

Lihat di Sumber

Informasi Jurnal

Tahun Terbit: 2026
Bahasa: en
Sumber Database: arXiv
Akses: Open Access ✓