Effect of Selection Format on LLM Performance

作者: Yuchen Han, Yucheng Wu, Jeffrey Willard

发布时间: 2025-03-11

来源: arxiv

研究方向: 自然语言处理,提示工程,特定领域任务

主要内容

本文研究了大型语言模型(LLM)性能的关键方面:在提示中分类任务选项的最佳格式。通过广泛的实验研究,比较了两种选择格式——项目符号和普通英语——以确定它们对模型性能的影响。

主要贡献

1. 正式提出了研究问题:使用项目符号是否优于普通描述在LLM提示中的表现?

2. 通过涵盖九个特定领域任务的全面实验研究,我们的发现表明,项目符号通常比普通描述产生更好的结果。

3. 基于我们的实验结果,我们提出了进一步改进LLM性能的潜在研究方向。

研究方法

1. 实验研究

2. 性能评估

3. 加权平均精确度、召回率和F1分数作为评估指标

4. 比较两种选择格式:项目符号和普通描述

5. 选择十个新颖的研究类型作为测试平台,代表LLM参与的多样化实践。

实验结果

实验结果表明,项目符号格式在大多数类别中的一致性地提高了精确度,比基线格式有显著提高。普通描述格式在许多类别中与基线和项目符号格式相比,精确度有所下降。项目符号格式在召回率方面也显示出比基线格式更有效,而普通描述格式对多个类别的召回率产生了显著影响。最终,项目符号格式在大多数任务中提高了性能,在召回率和F1分数方面取得了显著进步。

未来工作

分析预训练或微调语料库中的格式是否会影响下游任务中的模型性能。例如,先前的[40]、[58]、[59]通过在具有空间注释的语料库上进行微调,在空间信息提取方面取得了良好的结果。[60]通过在特定领域语料库上进行微调,在旅行注释方面取得了成功。同时,尽管LLM在许多领域(如推荐系统和假新闻检测)变得越来越受欢迎,但隐私风险也开始受到广泛关注。[64]为了解决隐私问题,我们旨在分析在利用LLM处理特定领域任务时如何保证差分隐私。