A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis

作者: Xiang Liu, Zhaoxiang Liu, Huan Hu, Zezhou Chen, Kohou Wang, Kai Wang, Shiguo Lian

发布时间: 2025-03-11

来源: arxiv

研究方向: 农业领域中的多模态图像-文本问答系统,特别是在作物病害诊断中的应用。

主要内容

本文提出了一种名为CDDM的数据集,用于作物病害诊断的多模态学习。该数据集包含137,000张作物病害图像和1百万个问答对,旨在通过结合视觉和文本数据,提高作物病害诊断的准确性和实用性。

主要贡献

1. 构建了CDDM数据集,这是一个包含作物病害图像和问答对的多模态数据集。

2. 提出了一种基于LoRA的模型微调策略,用于在不冻结视觉编码器的情况下微调多模态模型。

3. 展示了该数据集和微调策略在作物病害诊断中的有效性,显著提高了诊断的准确性。

研究方法

1. 数据收集和标注:包括网络数据收集、私人数据收集和专家标注。

2. 问答数据生成:利用GPT-4生成问答对,包括作物病害诊断和作物病害知识问答。

3. 模型微调:采用LoRA技术,同时调整语言模型、视觉编码器和位置感知视觉语言适配器的参数。

实验结果

实验结果表明,在CDDM数据集上微调的模型在作物病害诊断和知识问答方面取得了显著的性能提升。模型在不冻结视觉编码器的情况下微调,比冻结视觉编码器的情况有更好的性能。

未来工作

探索如何处理数据集之外的疾病,例如通过在提示中添加一些域外示例来引导模型处理域内和域外的疾病。