DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model

作者: Lei Zhao, Sizhou Chen, Linfeng Feng, Xiao-Lei Zhang, Xuelong Li

发布时间: 2025-02-28

来源: arxiv

研究方向: 文本到空间音频生成(Text-to-Spatial-Audio, TTSA)

主要内容

该研究提出了一种名为DualSpec的文本到空间音频生成框架,旨在通过文本描述直接生成空间音频。该框架结合了变分自编码器(VAE)和扩散模型,并使用两种声学特征(Mel频谱图和短时傅里叶变换频谱图)来同时提高生成质量和方位精度。

主要贡献

1. 提出了一种名为DualSpec的创新性双频谱图引导的TTSA生成框架。

2. 设计了多个VAE,可以高效地将不同的声学特征压缩成低维的潜在表示。

3. 提出了一种构建空间音频数据集的流程。

4. 采用了空间感知指标来评估生成空间音频的方向准确性。

研究方法

1. 变分自编码器(VAE)

2. 扩散模型(LDM)

3. 文本编码器(FLAN-T5)

4. 声学特征提取(Mel频谱图和STFT频谱图)

5. 声源定位模型

实验结果

实验结果表明,DualSpec能够在保证方向一致性的同时生成高质量的空间音频。与基线方法相比,DualSpec在多个性能指标上表现出显著优势。

未来工作

未来工作可以探索以下方向:1. 进一步提高TTSA生成质量;2. 研究更有效的声学特征提取方法;3. 探索新的文本到空间音频生成框架。