Effects of Prompt Length on Domain-specific Tasks for Large Language Models
作者: Qibang Liu, Wenzhe Wang, Jeffrey Willard
发布时间: 2025-02-24
来源: arxiv
研究方向: 自然语言处理,大型语言模型(LLMs)在特定领域任务中的应用
主要内容
该研究旨在探究提示长度对大型语言模型在特定领域任务(如金融情绪分析、货币政策理解等)中的性能影响。
主要贡献
1. 对九个特定领域任务进行了广泛的实验,揭示了LLMs在默认提示长度下仍难以处理需要足够领域知识的任务。
2. 发现长提示(提供更多关于任务所属领域的背景知识)通常有益于模型性能。
3. 即使拥有长提示中的背景知识,LLMs在特定领域任务中的性能仍然落后于人类,平均F1分数远低于1.0。
研究方法
1. 实验设计:在三种提示长度设置下(默认、短指令、长指令)进行九组实验。
2. 评估指标:使用加权平均精度、召回率和F1分数作为评估指标。
3. 实验重复:每个实验在相同的实验设置下重复10次,报告平均结果。
实验结果
长提示通常比短提示和默认长度的提示更能提高模型性能。然而,即使提供了详细的背景知识,LLMs在处理特定领域任务时仍然面临挑战。
未来工作
探索不同提示技术如何影响LLMs在特定领域任务中的性能。