Benchmarking LLMs for Political Science: A United Nations Perspective
作者: Yueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu
发布时间: 2025-02-24
来源: arxiv
研究方向: 人工智能与政治科学交叉领域
主要内容
本文研究了大型语言模型(LLMs)在联合国决策过程中的应用,通过构建UNBench基准,评估LLMs在政治科学领域的潜力与挑战。
主要贡献
1. 构建了涵盖联合国安全理事会(UNSC)记录的全新数据集,包括草案决议、投票记录和外交演讲。
2. 提出了第一个综合基准UNBench,用于评估LLMs在政治科学领域的表现。
3. 对数据集和基准进行了广泛的实验分析,展示了当前LLMs在处理复杂政治任务中的有效性和局限性。
4. 为AI与政治科学的交叉领域提供了新的研究方向和实际应用途径。
研究方法
1. 数据收集与处理:从公开可用的UNSC记录中收集数据,包括草案决议、投票记录和外交演讲。
2. 数据集构建:将收集到的数据转换为适合LLMs处理的格式。
3. 基准设计:设计四个相互关联的政治科学任务,涵盖联合国决策过程的三个阶段:起草、投票和讨论。
4. 实验分析:使用多种LLMs在UNBench上进行实验,评估其性能。
实验结果
实验结果表明,GPT-4o在多个任务中表现出色,特别是在多选任务和文本生成任务中。其他模型如DeepSeek-V3和Qwen2.5-7B也在特定任务中表现出良好的性能。
未来工作
未来研究可以进一步探索LLMs在政治科学领域的应用,包括改进LLMs的地理政治推理能力、时间序列分析和偏见分析。此外,还可以研究如何将LLMs应用于其他国际组织或全球治理领域。