LiveBeauty
收藏arXiv2025-01-05 更新2025-01-08 收录
下载链接:
http://arxiv.org/abs/2501.02509v1
下载链接
链接失效反馈官方服务:
资源简介:
LiveBeauty是由阿里巴巴集团和上海交通大学联合创建的首个大规模直播场景下的面部吸引力预测数据集。该数据集包含10,000张从直播平台直接采集的人脸图像,并通过精心设计的主观实验获得了200,000条吸引力评分,使其成为直播场景下最大的开放访问FAP数据集。数据集的创建过程包括五步自动采样流程、主观实验和数据清洗方法,确保了数据的高质量。该数据集旨在解决直播场景中面部吸引力预测的挑战,应用于面部美化、内容推荐等领域。
LiveBeauty is the first large-scale dataset for facial attractiveness prediction (FAP) in live streaming scenarios, jointly created by Alibaba Group and Shanghai Jiao Tong University. This dataset contains 10,000 facial images directly collected from live streaming platforms, and has obtained 200,000 attractiveness ratings through well-designed subjective experiments, making it the largest open-access FAP dataset in live streaming scenarios. The creation of the dataset includes a five-step automatic sampling pipeline, subjective experiments and data cleaning methods, which ensure the high quality of the data. This dataset aims to address the challenges of facial attractiveness prediction in live streaming scenarios, and can be applied to fields such as facial beautification and content recommendation.
提供机构:
阿里巴巴集团, 上海交通大学
创建时间:
2025-01-05
搜集汇总
数据集介绍

构建方式
LiveBeauty数据集的构建基于直播平台的实际场景,旨在解决现有面部吸引力预测数据集在多样性和泛化能力上的不足。数据集包含10,000张从直播平台直接采集的面部图像,并通过精心设计的主观实验获得了200,000条吸引力评分。为确保数据质量,采用了五步自动采样流程,包括面部区域检测、模糊检测、姿态估计、面部比例评估和重复人物去除。此外,通过人工评估进一步筛选,确保数据集中不包含虚拟人物、不完整面部特征或异常表情的图像。最终,数据集涵盖了超过9,500场直播中的10,000张不同面部图像。
特点
LiveBeauty数据集的特点在于其大规模、多样性和真实性。数据集中的图像均来自真实的直播场景,涵盖了不同的光照条件、表情、拍摄角度和背景噪声,极大提升了数据集的挑战性。此外,数据集的吸引力评分通过20名标注者的主观实验获得,确保了评分的多样性和可靠性。数据集的评分分布呈现出高斯形状,符合现实世界中面部吸引力的分布规律,女性样本的吸引力评分普遍高于男性样本。
使用方法
LiveBeauty数据集的使用方法主要围绕面部吸引力预测任务展开。研究人员可以利用该数据集训练和评估多模态面部吸引力预测模型。数据集中的图像和评分可以用于提取全局面部先验知识和多模态美学语义特征,并通过跨模态融合模块进行特征整合。此外,数据集还可用于跨数据集验证,评估模型在不同场景下的泛化能力。通过结合个性化面部先验和多模态特征,研究人员可以开发出更具适应性和泛化能力的面部吸引力预测模型。
背景与挑战
背景概述
LiveBeauty数据集由阿里巴巴集团和上海交通大学的研究团队于2024年提出,旨在解决直播场景中的面部吸引力预测问题。该数据集包含从直播平台直接收集的10,000张面部图像,并通过精心设计的主观实验获得了200,000个吸引力评分,成为目前最大的公开面部吸引力预测数据集。LiveBeauty的创建填补了直播场景中面部吸引力预测研究的空白,推动了计算机视觉领域在直播内容推荐、面部美化等应用中的发展。该数据集不仅为研究者提供了一个高质量的基准,还为多模态面部吸引力预测模型的开发提供了丰富的数据支持。
当前挑战
LiveBeauty数据集在构建和应用中面临多重挑战。首先,直播场景中的面部图像具有高度的动态性和多样性,光照、表情、拍摄角度和背景噪声等因素使得传统的面部吸引力预测模型难以泛化。其次,数据集的构建过程中需要确保图像的高质量和多样性,研究者通过五步自动采样流程和主观实验来保证数据的可靠性。此外,现有的面部吸引力预测模型在处理多模态特征时往往缺乏有效的融合策略,导致模型在直播场景中的表现受限。LiveBeauty的提出不仅解决了数据稀缺的问题,还为开发更具泛化能力的多模态预测模型提供了新的研究方向。
常用场景
经典使用场景
LiveBeauty数据集主要用于直播场景中的面部吸引力预测研究。该数据集通过从直播平台直接采集的10,000张人脸图像,结合20名标注者的20万次主观评分,为研究者提供了一个大规模、多样化的基准数据集。其经典使用场景包括直播视频的美颜处理、内容推荐系统优化等,特别是在直播环境中,由于光线、表情、角度等不可控因素,面部吸引力预测的挑战性显著增加。
解决学术问题
LiveBeauty数据集解决了以往面部吸引力预测研究中数据集规模小、多样性不足、泛化能力有限的问题。通过提供大规模、开放的数据集,研究者能够更好地训练和评估模型,特别是在直播场景下的面部吸引力预测任务中,显著提升了模型的泛化能力和适应性。此外,该数据集还推动了多模态面部吸引力预测方法的发展,通过结合面部先验知识和多模态美学语义特征,进一步提升了预测精度。
衍生相关工作
LiveBeauty数据集的发布推动了多模态面部吸引力预测方法的研究。基于该数据集,研究者提出了多种创新模型,如结合Swin Transformer和FaceNet的多模态融合方法,显著提升了面部吸引力预测的准确性。此外,该数据集还激发了跨领域的研究兴趣,如结合心理学和计算机视觉的面部美学分析,进一步拓展了面部吸引力预测的应用边界。
以上内容由遇见数据集搜集并总结生成



