Visual Acoustic Fields
作者: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang
发布时间: 2025-04-02
来源: arxiv
研究方向: 跨模态学习与3D场景音频生成与定位
主要内容
本文提出了一种名为Visual Acoustic Fields的框架,用于在3D场景中整合视觉和听觉信号。该框架利用3D高斯分层(3DGS)来表示场景,并将其与冲击声音相关联。该框架实现了两个关键任务:基于视觉条件的音频生成和声音定位。
主要贡献
1. 提出了一种新的数据收集流程,以收集场景级别的视觉-声音样本对。
2. 创建了第一个连接3D场景中视觉和听觉信号的数据库。
3. 通过实验证明了Visual Acoustic Fields在生成合理的冲击声音和准确定位冲击源方面的有效性。
研究方法
1. 3D高斯分层(3DGS)
2. 条件扩散模型
3. AudioCLIP
4. Stable Audio模型
5. 对比预训练
6. Segment Anything Model(SAM)
7. 结构光束(SfM)
8. OWL-v2对象检测网络
实验结果
实验结果表明,Visual Acoustic Fields在声音生成和定位方面都取得了显著的效果。在声音生成方面,与im2wav模型相比,Visual Acoustic Fields在多个指标上均取得了更好的结果。在声音定位方面,Visual Acoustic Fields的定位准确率显著高于基线模型。
未来工作
未来工作将包括扩展数据集以包括更多环境和对象,以及改进模型以考虑听众的位置对声音感知的影响。