Large Language Models Are Effective Human Annotation Assistants, But Not Good Independent Annotators

作者: Feng Gu, Zongxia Li, Carlos Rafael Colon, Benjamin Evans, Ishani Mondal, Jordan Lee Boyd-Graber

发布时间: 2025-03-11

来源: arxiv

研究方向: 自然语言处理、事件标注、人工智能辅助标注

主要内容

该研究探讨了大型语言模型(LLM)在事件标注中的应用,评估了LLM作为辅助工具的效果,并分析了其作为独立标注者的局限性。

主要贡献

1. 证明了LLM在事件集合编纂中的有效性,并展示了其如何减少专家在变量标注上的时间和精力。

2. 确定了LLM在提取事件变量方面与人类专家的高度一致性。

3. 分析了LLM在事件集合编纂和变量标注中的误差来源,并提出了改进建议。

研究方法

1. 事件集合编纂:使用TF-IDF、嵌入模型和LLM-CLS+SEG算法来识别和编纂事件集合。

2. 变量标注:将变量标注任务视为问答任务,并使用人类标注者与LLM提取的变量进行比较。

3. 误差分析:对自动生成的和人工编纂的事件集合进行了比较,并分析了LLM在变量标注中的误差来源。

实验结果

LLM在事件集合编纂中优于传统方法,但在变量标注中仍存在局限性。LLM辅助标注可以显著减少专家的标注时间,并且与人类专家的标注结果具有高度一致性。

未来工作

改进LLM在事件集合编纂中的性能,使其能够更准确地识别和编纂事件集合。探索将LLM与其他自然语言处理技术结合,以提高变量标注的准确性和效率。