Effects of Prompt Length on Domain-specific Tasks for Large Language Models

作者: Qibang Liu, Wenzhe Wang, Jeffrey Willard

发布时间: 2025-02-24

来源: arxiv

研究方向: 自然语言处理，大型语言模型（LLMs）在特定领域任务中的应用

主要内容

该研究旨在探究提示长度对大型语言模型在特定领域任务（如金融情绪分析、货币政策理解等）中的性能影响。

1. 对九个特定领域任务进行了广泛的实验，揭示了LLMs在默认提示长度下仍难以处理需要足够领域知识的任务。

2. 发现长提示（提供更多关于任务所属领域的背景知识）通常有益于模型性能。

3. 即使拥有长提示中的背景知识，LLMs在特定领域任务中的性能仍然落后于人类，平均F1分数远低于1.0。

1. 实验设计：在三种提示长度设置下（默认、短指令、长指令）进行九组实验。

2. 评估指标：使用加权平均精度、召回率和F1分数作为评估指标。

3. 实验重复：每个实验在相同的实验设置下重复10次，报告平均结果。

长提示通常比短提示和默认长度的提示更能提高模型性能。然而，即使提供了详细的背景知识，LLMs在处理特定领域任务时仍然面临挑战。

探索不同提示技术如何影响LLMs在特定领域任务中的性能。