Large Language Models Are Effective Human Annotation Assistants, But Not Good Independent Annotators

作者: Feng Gu, Zongxia Li, Carlos Rafael Colon, Benjamin Evans, Ishani Mondal, Jordan Lee Boyd-Graber

发布时间: 2025-03-11

来源: arxiv

研究方向: 自然语言处理、事件标注、人工智能辅助标注

主要内容

该研究探讨了大型语言模型（LLM）在事件标注中的应用，评估了LLM作为辅助工具的效果，并分析了其作为独立标注者的局限性。

1. 证明了LLM在事件集合编纂中的有效性，并展示了其如何减少专家在变量标注上的时间和精力。

2. 确定了LLM在提取事件变量方面与人类专家的高度一致性。

3. 分析了LLM在事件集合编纂和变量标注中的误差来源，并提出了改进建议。

1. 事件集合编纂：使用TF-IDF、嵌入模型和LLM-CLS+SEG算法来识别和编纂事件集合。

2. 变量标注：将变量标注任务视为问答任务，并使用人类标注者与LLM提取的变量进行比较。

3. 误差分析：对自动生成的和人工编纂的事件集合进行了比较，并分析了LLM在变量标注中的误差来源。

LLM在事件集合编纂中优于传统方法，但在变量标注中仍存在局限性。LLM辅助标注可以显著减少专家的标注时间，并且与人类专家的标注结果具有高度一致性。

改进LLM在事件集合编纂中的性能，使其能够更准确地识别和编纂事件集合。探索将LLM与其他自然语言处理技术结合，以提高变量标注的准确性和效率。