Effects of Prompt Length on Domain-specific Tasks for Large Language Models

作者: Qibang Liu, Wenzhe Wang, Jeffrey Willard

发布时间: 2025-02-24

来源: arxiv

研究方向: 自然语言处理,大型语言模型(LLMs)在特定领域任务中的应用

主要内容

该研究旨在探究提示长度对大型语言模型在特定领域任务(如金融情绪分析、货币政策理解等)中的性能影响。

主要贡献

1. 对九个特定领域任务进行了广泛的实验,揭示了LLMs在默认提示长度下仍难以处理需要足够领域知识的任务。

2. 发现长提示(提供更多关于任务所属领域的背景知识)通常有益于模型性能。

3. 即使拥有长提示中的背景知识,LLMs在特定领域任务中的性能仍然落后于人类,平均F1分数远低于1.0。

研究方法

1. 实验设计:在三种提示长度设置下(默认、短指令、长指令)进行九组实验。

2. 评估指标:使用加权平均精度、召回率和F1分数作为评估指标。

3. 实验重复:每个实验在相同的实验设置下重复10次,报告平均结果。

实验结果

长提示通常比短提示和默认长度的提示更能提高模型性能。然而,即使提供了详细的背景知识,LLMs在处理特定领域任务时仍然面临挑战。

未来工作

探索不同提示技术如何影响LLMs在特定领域任务中的性能。