A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

作者: Arshia Kermani, Veronica Perez-Rosas, Vangelis Metsis

发布时间: 2025-04-02

来源: arxiv

研究方向: 心理健康文本分析中的大语言模型(LLM)策略研究

主要内容

该研究对比了三种LLM策略(微调、提示工程、检索增强生成)在心理健康文本分析中的应用,包括情绪分类和心理健康状况检测。使用LLaMA 3模型在两个数据集上评估了这些方法。

主要贡献

1. 首次全面比较了提示工程、RAG和微调方法在心理健康文本分类中的效果。

2. 证明了基于LLaMA 3的模型在心理健康评估任务中的有效性。

3. 提供了关于每种方法的实施挑战和资源需求的实际见解。

4. 为开发可靠的、可扩展的心理健康评估工具做出了贡献。

研究方法

1. 微调:使用LLaMA 3模型,并采用LoRA进行参数高效的微调。

2. 提示工程:包括零样本和少量样本提示。

3. 检索增强生成(RAG):结合知识库和LLM进行文本分类。

4. 数据集:DAIR-AI情感数据集和Reddit自杀观察及心理健康收藏(SWMH)。

5. 评估指标:F1分数、精确度和召回率。

实验结果

微调在情绪分类和心理健康状况检测中取得了最高的准确率(情绪分类91%,心理健康状况80%),但需要大量的计算资源和训练数据。提示工程和RAG提供了更灵活的部署方式,性能适中(40-68%的准确率)。

未来工作

探索结合多种方法的混合方法,开发更高效的微调技术,以及提高对细微心理状态的检测能力。