Learning a Canonical Basis of Human Preferences from Binary Ratings

作者: Kailas Vodrahalli, Wei Wei, James Zou

发布时间: 2025-04-02

来源: arxiv

研究方向: 人工智能与人类偏好研究

主要内容

该研究旨在通过分析人类在二值评分数据中表达的偏好,发现人类偏好的共同特征,并构建一个能代表人类偏好的典型基础集。研究重点关注从大量数据中提取具有代表性的偏好类别,以及如何将这些偏好应用于模型评估和训练。

主要贡献

1. 开发了一种从二值选择数据中推断人类偏好的方法。

2. 从大量数据中提取了一个包含21个偏好类别的典型基础集,这些类别涵盖了超过89%的偏好变化。

3. 提出了一种将偏好应用于模型评估和训练的方法,提高了模型与人类偏好的对齐度。

4. 通过合成和实证方法验证了所发现的偏好集的有效性。

5. 构建了一个包含偏好和主题分类的数据集,并作为研究成果发布。

研究方法

1. 将二元选择数据转换为偏好和主题注释。

2. 通过聚合和独立细化偏好和主题,得到一个包含大多数原始数据集的偏好子集。

3. 使用合成和实证方法验证偏好集。

4. 在模型评估中使用偏好类别提供更深入的模型对齐见解。

5. 在模型训练中,通过在偏好定义的子集上进行微调,成功地对齐模型。

实验结果

实验结果表明,所提出的偏好基础集在数据集和特定主题层面上都具有很好的泛化能力。在模型评估中,偏好类别提供了对模型对齐的更深入理解。在模型训练中,对偏好定义的子集进行微调显著提高了模型性能。

未来工作

未来研究可以进一步探索如何将发现的偏好基础集应用于更广泛的领域,例如个性化推荐系统、教育评估等。此外,还可以研究如何将这些偏好与更复杂的模型结构相结合,以进一步提高模型的性能。