Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data

作者: Fatemeh Mohammadi, Tommaso Romano, Samira Maghool, Paolo Ceravolo

发布时间: 2025-04-02

来源: arxiv

研究方向: 自然语言处理、合成数据生成、语言检测

主要内容

本文研究了使用大型语言模型（LLMs）生成合成数据，以解决语言检测任务中数据稀缺和隐私问题，并评估了合成数据在提高语言检测模型性能方面的有效性。

1. 提出了一种合成数据生成流程，以解决资源受限环境中的数据稀缺问题。

2. 概述了一个工作流程，包括使用合成训练数据微调LLM，然后使用微调和预训练模型在合成测试数据上进行推理，以评估合成数据的有效性。

3. 关注包容性语言检测，这是一个研究不足且具有挑战性的任务，特别是在像意大利语这样的性别化语言中。

4. 通过表明在合成数据上训练的微调模型在真实和合成测试数据上都优于其他模型，证明了合成数据作为成本效益高、可扩展的解决方案的潜力。

1. 合成数据生成：通过将真实数据和生成数据相结合来创建合成数据集。

2. 提示生成：使用基于不同方法的提示生成策略来优化LLM的响应质量。

3. LLM微调：使用Unsloth库和Phi3-mini模型进行LLM的微调。

4. 推理：使用微调和预训练模型在合成和真实测试数据集上进行推理。

5. 综合比较分析：使用多种指标和任务对不同的LLM进行评估，重点关注在招聘广告中检测非包容性语言。

实验结果表明，在合成数据上训练的微调模型在真实和合成测试数据上都优于其他模型，证明了合成数据在提高语言检测模型性能方面的有效性。

将该方法扩展到招聘描述以外的领域，并使用GPT-4o1和Gemini等更先进的LLM在合成数据上进行微调，以比较不同微调模型之间的性能。