LLM-C3MOD: A Human-LLM Collaborative System for Cross-Cultural Hate Speech Moderation
作者: Junyeong Park, Seogyeong Jeong, Seyoung Song, Yohan Lee, Alice Oh
发布时间: 2025-03-11
来源: arxiv
研究方向: 跨文化仇恨言论监测与内容审核
主要内容
本文提出了一种名为LLM-C3MOD的人机协作系统,用于跨文化仇恨言论监测。该系统通过RAG增强的文化背景注释、基于LLM的初步监测和针对LLM不一致案例的针对性人工监测三个步骤,有效地辅助非母语审核员进行仇恨言论监测。
主要贡献
1. 通过用户研究,实证地识别出非母语审核员在跨文化仇恨言论监测中面临的挑战。
2. 开发了一种RAG增强的文化注释系统,显著提高了人类和LLM的仇恨言论监测准确性。
3. 提出了LLM-C3MOD,这是一种有效的人机协作流程,策略性地整合了机器效率和人类判断。
研究方法
1. 用户研究
2. RAG增强的文化背景注释
3. 基于LLM的初步监测
4. 针对性人工监测
5. A/B测试
6. 性能比较
7. 统计分析和假设检验
实验结果
在KOLD数据集上,LLM-C3MOD系统达到了78%的准确率,超过了GPT-4o的71%基线,同时减少了83.6%的人工工作量。实验结果表明,在需要理解文化和网络文化的情况下,人工审核员在细微的任务中表现优于LLM。
未来工作
未来工作将探索将LLM-C3MOD扩展到不同的文化和语言组合,以检验其在更广泛的应用中的有效性。此外,还将研究如何提高LLM在复杂案例中的性能,并探索更先进的流程来处理LLM的错误判断。