FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset
作者: Shuhe Wang, Xiaoya Li, Jiwei Li, Guoyin Wang, Xiaofei Sun, Bob Zhu, Han Qiu, Mo Yu, Shengjie Shen, Eduard Hovy
发布时间: 2025-03-11
来源: arxiv
研究方向: 人脸识别定制与文本到图像生成
主要内容
本文提出FaceID-6M,一个包含600万高质量文本-图像对的开放源代码人脸识别定制数据集。该数据集通过从LAION-5B中筛选并经过严格的图像和文本过滤步骤构建,旨在为训练强大的FaceID定制模型提供高质量数据,并促进该领域的研究和发展。
主要贡献
1. 收集并发布了第一个大规模、开源的FaceID定制数据集FaceID-6M。
2. 使代码、数据集和模型完全公开,以支持并推进FaceID定制社区的研究。
3. 在FaceID-6M数据集上训练的模型在性能上与现有工业模型相当,甚至略好。
研究方法
1. 从LAION-5B中收集文本-图像对。
2. 对图像进行分辨率、人脸检测和面积限制等过滤。
3. 对文本进行关键词过滤,保留包含与人类相关的术语的描述。
4. 使用预训练的扩散模型和FaceID定制框架(如IP-Adapter)进行训练。
5. 在COCO2017和Unsplash-50等数据集上进行定量评估。
6. 进行用户研究以收集人类评估数据。
实验结果
实验结果表明,在FaceID-6M数据集上训练的模型在FaceID保真度、提示对齐和图像质量方面都优于现有工业模型。此外,随着数据集规模的增加,模型性能也随之提高。
未来工作
未来工作可以包括探索FaceID-6M数据集在更多FaceID定制框架中的应用,以及研究如何进一步提高模型的性能和泛化能力。