A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

作者: Arshia Kermani, Veronica Perez-Rosas, Vangelis Metsis

发布时间: 2025-04-02

来源: arxiv

研究方向: 心理健康文本分析中的大语言模型（LLM）策略研究

主要内容

该研究对比了三种LLM策略（微调、提示工程、检索增强生成）在心理健康文本分析中的应用，包括情绪分类和心理健康状况检测。使用LLaMA 3模型在两个数据集上评估了这些方法。

1. 首次全面比较了提示工程、RAG和微调方法在心理健康文本分类中的效果。

2. 证明了基于LLaMA 3的模型在心理健康评估任务中的有效性。

3. 提供了关于每种方法的实施挑战和资源需求的实际见解。

4. 为开发可靠的、可扩展的心理健康评估工具做出了贡献。

1. 微调：使用LLaMA 3模型，并采用LoRA进行参数高效的微调。

2. 提示工程：包括零样本和少量样本提示。

3. 检索增强生成（RAG）：结合知识库和LLM进行文本分类。

4. 数据集：DAIR-AI情感数据集和Reddit自杀观察及心理健康收藏（SWMH）。

5. 评估指标：F1分数、精确度和召回率。

微调在情绪分类和心理健康状况检测中取得了最高的准确率（情绪分类91%，心理健康状况80%），但需要大量的计算资源和训练数据。提示工程和RAG提供了更灵活的部署方式，性能适中（40-68%的准确率）。

探索结合多种方法的混合方法，开发更高效的微调技术，以及提高对细微心理状态的检测能力。