Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition
作者: Bin Chen, Yu Zhang, Hongfei Ye, Ziyi Huang, Hongyang Chen
发布时间: 2025-03-07
来源: arxiv
研究方向: 多模态对话意图识别,特别是在电子商务领域
主要内容
本文针对电子商务领域中多模态对话意图识别的挑战,提出了一种名为知识解耦协同学习(KDSL)的新方法。该方法通过使用小型模型将知识转化为可解释的规则,并应用大型模型的后续训练,以解决知识干扰和任务不平衡的问题。
主要贡献
1. 提出了一种名为知识解耦协同学习(KDSL)的新框架,用于解决多模态和多任务学习中的知识干扰和任务不平衡问题。
2. 通过使用小型模型进行规则生成,将知识从模型参数中解耦,提高了搜索效率。
3. 通过数据增强和规则库,增强了模型对隐含模式的学习能力。
4. 通过协作预测,实现了大型和小型多模态语言模型之间的协同预测,显著提高了识别性能。
研究方法
1. 使用小型多模态语言模型(MLLM)进行规则生成,并存储在规则库中。
2. 使用蒙特卡洛树搜索(MCTS)策略来生成和收集规则。
3. 对大型MLLM进行微调,以学习特定领域的知识。
4. 通过数据增强技术提高模型的泛化能力。
5. 结合大型MLLM和规则库进行协作预测。
实验结果
在两个真实的淘宝数据集上,KDSL在在线加权F1分数上分别提高了6.37%和6.28%,优于现有方法,验证了该框架的有效性。
未来工作
未来工作可以进一步探索以下方面:1) 在更多领域和任务中应用KDSL;2) 研究更有效的知识表示和规则生成方法;3) 探索更先进的协作预测策略。