FaultGPT: Industrial Fault Diagnosis Question Answering System by Vision Language Models

作者: Jiao Chen, Ruyi Huang, Zuohong Lv, Jianhua Tang, Weihua Li

发布时间: 2025-02-25

来源: arxiv

研究方向: 工业故障诊断

主要内容

本文提出了一种名为FaultGPT的新型工业故障诊断问答系统，该系统利用大型视觉语言模型（LVLM）直接从原始振动信号中生成故障诊断报告。

1. 提出了故障诊断问答（FDQA）这一新的研究范式，实现了从振动信号自动生成诊断报告。

2. 构建了一个包含振动时间-频率图像、人类指令和配对诊断报告的综合多模态指令数据集。

3. 提出了一种有效的指令微调方法，通过多尺度跨模态图像解码器（MCID）提取细粒度故障语义，使LLM能够准确解释振动时间-频率图像并生成精确的故障诊断报告。

4. 进行了广泛的实验，包括故障诊断报告生成、多数据集的少样本和零样本评估，验证了FaultGPT在多样化工业场景中的优越性能和适应性。

1. 大型视觉语言模型（LVLM）

2. 文本基于的监督

3. 多尺度跨模态图像解码器（MCID）

4. 指令微调

5. Grad-CAM

实验结果表明，FaultGPT在生成故障诊断报告和进行零样本测试方面表现出色。LLMs在大多数评估指标上优于较小的语言模型，预训练模型在跨模态对齐方面表现优异。指令微调在提高模型性能方面发挥了关键作用。

未来研究将探索复合故障诊断的表示和报告生成，并将FaultGPT的应用扩展到其他工业领域，如预测剩余使用寿命，进一步提高准确性和适应性。