Visual Acoustic Fields

作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang

发布时间: 2025-04-02

来源: arxiv

研究方向: 跨模态学习与3D场景音频生成与定位

主要内容

本文提出了一种名为Visual Acoustic Fields的框架,用于在3D场景中整合视觉和听觉信号。该框架利用3D高斯分层(3DGS)来表示场景,并将其与冲击声音相关联。该框架实现了两个关键任务:基于视觉条件的音频生成和声音定位。

主要贡献

1. 提出了一种新的数据收集流程,以收集场景级别的视觉-声音样本对。

2. 创建了第一个连接3D场景中视觉和听觉信号的数据库。

3. 通过实验证明了Visual Acoustic Fields在生成合理的冲击声音和准确定位冲击源方面的有效性。

研究方法

1. 3D高斯分层(3DGS)

2. 条件扩散模型

3. AudioCLIP

4. Stable Audio模型

5. 对比预训练

6. Segment Anything Model(SAM)

7. 结构光束(SfM)

8. OWL-v2对象检测网络

实验结果

实验结果表明,Visual Acoustic Fields在声音生成和定位方面都取得了显著的效果。在声音生成方面,与im2wav模型相比,Visual Acoustic Fields在多个指标上均取得了更好的结果。在声音定位方面,Visual Acoustic Fields的定位准确率显著高于基线模型。

未来工作

未来工作将包括扩展数据集以包括更多环境和对象,以及改进模型以考虑听众的位置对声音感知的影响。