Bridging the Creativity Understanding Gap: Small-Scale Human Alignment Enables Expert-Level Humor Ranking in LLMs

作者: Kuan Lok Zhou, Jiayi Chen, Siddharth Suresh, Reuben Narad, Timothy T. Rogers, Lalit K Jain, Robert D Nowak, Bob Mankoff, Jifan Zhang

发布时间: 2025-02-28

来源: arxiv

研究方向: 人工智能,自然语言处理,幽默理解与生成

主要内容

本文研究了大型语言模型(LLMs)在幽默理解与评价方面的局限性,并提出了通过改进视觉理解、幽默推理和人类偏好对齐来提升LLMs在幽默评价任务上的性能。

主要贡献

1. 将幽默理解分解为三个基本组成部分:视觉理解、幽默推理和人类偏好对齐。

2. 通过改进所有三个组成部分,特别是在偏好对齐方面,实现了与人类专家相当准确率的标题排名模型。

3. 实验结果表明,基于角色的提示与基于微调的方法相比,性能提升有限,揭示了当前LLMs在理解子组和个体偏好方面的局限性。

4. 提出在创意领域中系统收集人类偏好数据对于实现创造性通用智能(AGI)的重要性。

研究方法

1. 人工辅助标注

2. LLM生成的幽默推理和解释

3. 基于角色的提示

4. 监督式微调(SFT)

5. 多模型LLM辅助

实验结果

通过改进视觉理解、幽默推理和人类偏好对齐,该方法的标题排名准确率从67%提升至82.4%,与该领域世界知名的人类专家表现相当。此外,基于角色的提示对性能的提升有限,而基于微调的方法则显著提高了准确率。

未来工作

研究创意领域中人类偏好数据的系统收集和整合,以实现创造性通用智能(AGI)在创意任务上的应用。