FaultGPT: Industrial Fault Diagnosis Question Answering System by Vision Language Models

作者: Jiao Chen, Ruyi Huang, Zuohong Lv, Jianhua Tang, Weihua Li

发布时间: 2025-02-25

来源: arxiv

研究方向: 工业故障诊断

主要内容

本文提出了一种名为FaultGPT的新型工业故障诊断问答系统,该系统利用大型视觉语言模型(LVLM)直接从原始振动信号中生成故障诊断报告。

主要贡献

1. 提出了故障诊断问答(FDQA)这一新的研究范式,实现了从振动信号自动生成诊断报告。

2. 构建了一个包含振动时间-频率图像、人类指令和配对诊断报告的综合多模态指令数据集。

3. 提出了一种有效的指令微调方法,通过多尺度跨模态图像解码器(MCID)提取细粒度故障语义,使LLM能够准确解释振动时间-频率图像并生成精确的故障诊断报告。

4. 进行了广泛的实验,包括故障诊断报告生成、多数据集的少样本和零样本评估,验证了FaultGPT在多样化工业场景中的优越性能和适应性。

研究方法

1. 大型视觉语言模型(LVLM)

2. 文本基于的监督

3. 多尺度跨模态图像解码器(MCID)

4. 指令微调

5. Grad-CAM

实验结果

实验结果表明,FaultGPT在生成故障诊断报告和进行零样本测试方面表现出色。LLMs在大多数评估指标上优于较小的语言模型,预训练模型在跨模态对齐方面表现优异。指令微调在提高模型性能方面发挥了关键作用。

未来工作

未来研究将探索复合故障诊断的表示和报告生成,并将FaultGPT的应用扩展到其他工业领域,如预测剩余使用寿命,进一步提高准确性和适应性。