FaceCaption-15M
收藏FaceCaption-15M 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 数据量: 10M < n < 100M
- 任务类别: 图像到文本、文本到图像
- 标签: 计算机视觉、人脸、数据集
数据集描述
FaceCaption-15M 是一个大规模、多样化和高质量的人脸图像及其自然语言描述(面部图像到文本)的数据集。该数据集包含超过1500万对人脸图像及其对应的自然语言描述,是目前最大的人脸图像描述数据集。
更新记录
- 24/07/17: 发布了名为FLIP的模型。
- 24/07/06: 更新了引用信息。
- 24/07/05: 发布了FaceCaption-15M-V1版本。
数据集版本
- FaceCaption-15M-V1: 包含url、人脸框、laion_caption、face_caption等信息。
- 即将发布: HumanCaption V2版本,包含人脸图像描述、短描述和详细描述。
使用方法
python
使用Datasets库:
from datasets import load_dataset ds = load_dataset("OpenFace-CQUPT/FaceCaption-15M")
使用pandas库:
import pandas as pd df = pd.read_parquet("hf://datasets/OpenFace-CQUPT/FaceCaption-15M/FaceCaption-v1.parquet")
数据集构建流程
1.1 人脸图像收集
- 图像收集: 从LAION-Face数据集获取原始数据,该数据集包含超过5000万对图像-文本对。
- 人脸分割: 使用RetinaFace模型从LAION-Face中筛选出约3700万张含有人脸的图像,并通过裁剪、对齐和过滤,最终保留约2300万张高质量人脸图像。
1.2 人脸属性标注
- 属性设计: 设计了40个外观属性用于人脸特征描述。
- 自动标注: 使用开源算法进行自动标注,保留预测概率超过0.85的标签,并保留至少有五个有效预测标签的样本,最终数据集大小为1500万。
1.3 人脸描述生成
- 原始文本生成: 将属性标注输入设计的语法模板生成原始文本。
- 重写文本: 将原始文本输入大型语言模型(LLM)生成自然、多样和准确的文本描述。
1.4 统计分析
- 与其他人脸图像数据集的比较: 包括样本数量、平均分辨率、标注数量和平均字数等。
- 图像质量评分分布: 使用BRISQUE和CLIPIQA进行评估。
- 文本分布: 包括标注类别分布、句子字数分布、4-gram分布等。
限制与讨论
- 数据集偏见: 在数据清洗和制作过程中可能引入一定程度的偏见,将持续更新数据集以最小化偏见的影响。
- 法律合规性: 遵循LAION数据集的开源发布模式,发布图像原始链接、清洗后的文本描述和人脸在原图中的位置坐标。
- 隐私保护: 如果发现个人图像在数据集中且不希望被使用,请联系我们进行处理。
联系信息
- 邮箱: 2018211556@stu.cqupt.edu.cn 或 dw_dai@163.com
许可证信息
FaceCaption-15M数据集遵循Creative Commons Attribution 4.0 International License (CC-BY 4.0),仅限用于科研和教育目的。
引用信息
tex @misc{dai202415mmultimodalfacialimagetext, title={15M Multimodal Facial Image-Text Dataset}, author={Dawei Dai and YuTang Li and YingGe Liu and Mingming Jia and Zhang YuanHui and Guoyin Wang}, year={2024}, eprint={2407.08515}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.08515}, }




