DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model

作者: Lei Zhao, Sizhou Chen, Linfeng Feng, Xiao-Lei Zhang, Xuelong Li

发布时间: 2025-02-28

来源: arxiv

研究方向: 文本到空间音频生成（Text-to-Spatial-Audio, TTSA）

主要内容

该研究提出了一种名为DualSpec的文本到空间音频生成框架，旨在通过文本描述直接生成空间音频。该框架结合了变分自编码器（VAE）和扩散模型，并使用两种声学特征（Mel频谱图和短时傅里叶变换频谱图）来同时提高生成质量和方位精度。

1. 提出了一种名为DualSpec的创新性双频谱图引导的TTSA生成框架。

2. 设计了多个VAE，可以高效地将不同的声学特征压缩成低维的潜在表示。

3. 提出了一种构建空间音频数据集的流程。

4. 采用了空间感知指标来评估生成空间音频的方向准确性。

1. 变分自编码器（VAE）

2. 扩散模型（LDM）

3. 文本编码器（FLAN-T5）

4. 声学特征提取（Mel频谱图和STFT频谱图）

5. 声源定位模型

实验结果表明，DualSpec能够在保证方向一致性的同时生成高质量的空间音频。与基线方法相比，DualSpec在多个性能指标上表现出显著优势。

未来工作可以探索以下方向：1. 进一步提高TTSA生成质量；2. 研究更有效的声学特征提取方法；3. 探索新的文本到空间音频生成框架。