A Zero-shot Learning Method Based on Large Language Models for Multi-modal Knowledge Graph Embedding
作者: Bingchen Liu, Jingchen Li, Naixing Xu, Xin Li
发布时间: 2025-03-11
来源: arxiv
研究方向: 多模态知识图谱嵌入与零样本学习
主要内容
该论文提出了一种名为ZSLLM的零样本学习框架,用于多模态知识图谱的嵌入表示学习。该框架利用大型语言模型(LLMs)的能力,通过文本提示来增强LLMs的推理能力,实现不同模态之间未见类别的语义信息传递,从而提升未见类别在多模态知识图谱中的嵌入表示学习效果。
主要贡献
1. 首次将LLMs应用于多模态知识图谱的零样本嵌入表示学习,展示了LLMs在该问题上的优越性。
2. 基于ZSLLM模型,在多模态知识图谱场景中实现了未见类别的有效语义信息传递,实现了零样本嵌入表示学习。
3. 在多个真实世界数据集上的实验表明,所提出的方法优于所有现有基线方法。
研究方法
1. 利用LLMs的文本提示能力,将未见类别的已知信息作为提示,辅助生成未知信息的相似辅助特征。
2. 通过知识蒸馏模型,将可见类别的知识迁移到未见类别的分类问题中。
3. 结合多模态知识图谱的结构信息,使用图卷积网络(GCN)对未见类别图像进行分类。
实验结果
在ImageNet、AWA2和Attribute Pascal and Yahoo(aPY)三个数据集上进行的实验表明,ZSLLM框架在多模态知识图谱分类任务中优于所有基线模型,实现了最优性能。
未来工作
进一步探索LLMs在更多复杂场景下的应用,以及如何结合其他机器学习技术进一步提升零样本学习的性能。