FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset

作者: Shuhe Wang, Xiaoya Li, Jiwei Li, Guoyin Wang, Xiaofei Sun, Bob Zhu, Han Qiu, Mo Yu, Shengjie Shen, Eduard Hovy

发布时间: 2025-03-11

来源: arxiv

研究方向: 人脸识别定制与文本到图像生成

主要内容

本文提出FaceID-6M，一个包含600万高质量文本-图像对的开放源代码人脸识别定制数据集。该数据集通过从LAION-5B中筛选并经过严格的图像和文本过滤步骤构建，旨在为训练强大的FaceID定制模型提供高质量数据，并促进该领域的研究和发展。

1. 收集并发布了第一个大规模、开源的FaceID定制数据集FaceID-6M。

2. 使代码、数据集和模型完全公开，以支持并推进FaceID定制社区的研究。

3. 在FaceID-6M数据集上训练的模型在性能上与现有工业模型相当，甚至略好。

1. 从LAION-5B中收集文本-图像对。

2. 对图像进行分辨率、人脸检测和面积限制等过滤。

3. 对文本进行关键词过滤，保留包含与人类相关的术语的描述。

4. 使用预训练的扩散模型和FaceID定制框架（如IP-Adapter）进行训练。

5. 在COCO2017和Unsplash-50等数据集上进行定量评估。

6. 进行用户研究以收集人类评估数据。

实验结果表明，在FaceID-6M数据集上训练的模型在FaceID保真度、提示对齐和图像质量方面都优于现有工业模型。此外，随着数据集规模的增加，模型性能也随之提高。

未来工作可以包括探索FaceID-6M数据集在更多FaceID定制框架中的应用，以及研究如何进一步提高模型的性能和泛化能力。