VirtualXAI: A User-Centric Framework for Explainability Assessment Leveraging GPT-Generated Personas

作者: Georgios Makridis, Vasileios Koukos, Georgios Fatouros, Dimosthenis Kyriazis

发布时间: 2025-03-08

来源: arxiv

研究方向: 可解释人工智能(XAI)

主要内容

本文提出了一种名为VirtualXAI的用户中心框架,用于评估XAI方法的可解释性。该框架结合了定量基准测试和定性用户评估,通过虚拟角色来模拟用户反馈,并利用基于内容的推荐系统来匹配数据集、AI模型和XAI方法。

主要贡献

1. 开发了一个用于表格数据的XAI评分框架,该框架集成了保真度、简单性、稳定性和准确性/精确度指标。

2. 引入了一种基于LLM的定性评估方法,以捕获以用户为中心的定性评估。

3. 创建了一个基于内容的推荐系统,以帮助用户通过将数据集特征与历史基准进行匹配来选择数据集、AI模型和XAI方法。

研究方法

1. 定量评估:通过测量保真度、稳定性、简单性和准确性/精确度来基准测试XAI方法。

2. 定性用户评估:使用GPT-4o-mini生成虚拟角色,并根据LLM生成的背景故事进行模拟。

3. 调查信息模型评估:整合来自大规模调查的发现,以反映多个领域的当前最佳实践和趋势。

4. 基于内容的推荐系统:利用数据集特征来估计XAI分数,并推荐适当的AI和XAI方法。

实验结果

实验结果表明,某些领域(如健康和医学)包含更多数据集,这强调了在临床环境中对可解释性的重视。定量指标因领域和XAI方法而异,表明没有一种方法在所有情况下都占主导地位。最终用户的感知可解释性评分往往与技术指标(如保真度或简单性)不同,强调了用户驱动评估的必要性。

未来工作

计划将这种方法扩展到其他数据模态(例如文本、图像),并完善确定领域奖金的协同模型。