From Vision to Sound: Advancing Audio Anomaly Detection with Vision-Based Algorithms

作者: Manuel Barusco, Francesco Borsatti, Davide Dalle Pezze, Francesco Paissan, Elisabetta Farella, Gian Antonio Susto

发布时间: 2025-02-27

来源: arxiv

研究方向: 音频异常检测（AAD）

主要内容

该研究旨在将视觉异常检测（VAD）技术应用于音频领域，以解决音频异常检测问题。研究重点关注利用预训练的特征提取器生成的嵌入来检测音频信号中的异常。

1. 将VAD技术应用于音频异常检测，提高了异常检测的可解释性。

2. 提出了一种新的评估指标，用于评估算法在频谱图中识别异常区域的有效性。

3. 在工业和环境基准测试中评估了所提出的方法，证明了VAD技术在音频异常检测中的有效性。

1. 使用预训练的特征提取器生成音频信号的嵌入。

2. 应用VAD算法于生成的嵌入，以检测异常。

3. 提出新的评估指标，包括样本级、时频定位、时域定位和忠实度。

4. 在MIMII和EnvMix数据集上评估了所提出的方法。

实验结果表明，VAD算法在音频异常检测中是有效的，并且比基线方法表现更好。PatchCore在EnvMix数据集上表现最佳，而STFPM在MIMII数据集上表现最佳。此外，所提出的方法在可解释性方面也表现出色。

未来工作将探索以下方向：1）测试不同的特征提取器，以生成更有效的特征表示；2）改进忠实度指标，以更好地评估模型在音频异常检测中的性能。