A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG
作者: Arshia Kermani, Veronica Perez-Rosas, Vangelis Metsis
发布时间: 2025-04-02
来源: arxiv
研究方向: 心理健康文本分析中的大语言模型(LLM)策略研究
主要内容
该研究对比了三种LLM策略(微调、提示工程、检索增强生成)在心理健康文本分析中的应用,包括情绪分类和心理健康状况检测。使用LLaMA 3模型在两个数据集上评估了这些方法。
主要贡献
1. 首次全面比较了提示工程、RAG和微调方法在心理健康文本分类中的效果。
2. 证明了基于LLaMA 3的模型在心理健康评估任务中的有效性。
3. 提供了关于每种方法的实施挑战和资源需求的实际见解。
4. 为开发可靠的、可扩展的心理健康评估工具做出了贡献。
研究方法
1. 微调:使用LLaMA 3模型,并采用LoRA进行参数高效的微调。
2. 提示工程:包括零样本和少量样本提示。
3. 检索增强生成(RAG):结合知识库和LLM进行文本分类。
4. 数据集:DAIR-AI情感数据集和Reddit自杀观察及心理健康收藏(SWMH)。
5. 评估指标:F1分数、精确度和召回率。
实验结果
微调在情绪分类和心理健康状况检测中取得了最高的准确率(情绪分类91%,心理健康状况80%),但需要大量的计算资源和训练数据。提示工程和RAG提供了更灵活的部署方式,性能适中(40-68%的准确率)。
未来工作
探索结合多种方法的混合方法,开发更高效的微调技术,以及提高对细微心理状态的检测能力。