FaceCaption-15M; AVSpeech; SFHQ; CelebA; FairFace; FIW-BMI; MCD-rPPG

Name: FaceCaption-15M; AVSpeech; SFHQ; CelebA; FairFace; FIW-BMI; MCD-rPPG
Creator: Sber AI Lab
Published: 2026-02-16 19:51:46
License: 暂无描述

arXiv2026-02-16 更新2026-02-18 收录

下载链接：

https://huggingface.co/boretsyury/MeFEm

下载链接

链接失效反馈

官方服务：

资源简介：

MeFEm模型使用了多个数据集进行训练和评估，主要包括FaceCaption-15M、AVSpeech和SFHQ等训练数据集，总计约644万条数据。这些数据集涵盖了丰富的面部图像，包括真实和合成图像，用于自监督学习。评估数据集包括CelebA、FairFace等，用于测试模型在年龄、性别和BMI预测等任务上的性能。数据来源包括公开数据集和自定义收集的数据，旨在解决医学面部分析中的领域偏差问题，并提升模型在临床应用中的泛化能力。

The MeFEm model was trained and evaluated using multiple datasets. The primary training datasets include FaceCaption-15M, AVSpeech, and SFHQ, totaling approximately 6.44 million data samples. These datasets encompass a diverse range of facial images, including both real and synthetic ones, and are utilized for self-supervised learning. The evaluation datasets such as CelebA and FairFace are employed to test the model's performance on tasks including age, gender, and BMI prediction. The data sources cover public datasets and custom-collected data, with the aim of addressing domain bias in medical facial analysis and enhancing the model's generalization ability for clinical applications.

提供机构：

Sber AI Lab

创建时间：

2026-02-16

搜集汇总

数据集介绍

构建方式

在医学视觉分析领域，构建高质量数据集面临隐私与标注成本的双重挑战。MeFEm模型的训练数据集通过整合多源公开面部图像资源构建而成，其核心来源包括FaceCaption-15M、AVSpeech和SFHQ。FaceCaption-15M提供了带边界框标注的图像，经过严格的清洗流程，剔除了无法正确裁剪或分辨率不足的样本，最终保留了约460万张可用图像。AVSpeech数据集中的视频片段被抽取单帧以增加数据多样性，经相同预处理后贡献了约150万样本。此外，合成数据集SFHQ的50万张高质量生成图像被纳入训练，进一步丰富了年龄、种族和表情的变异谱。整个构建过程强调空间对齐与语义一致性，为自监督学习提供了稳定而多样的视觉基础。

使用方法

该数据集主要用于训练基于联合嵌入预测架构的自监督视觉模型。在训练阶段，模型通过轴向条纹掩码策略进行预训练，该策略强制模型根据图像中未被掩码的连续条纹区域，在潜在空间中预测被掩码部分的表征，从而学习面部的高级语义结构。训练过程中引入了环形损失加权机制，依据图像块与中心距离动态调整其损失贡献，使模型更聚焦于面部核心区域。数据集支持两种下游任务评估方式：一是利用注意力池化器对所有图像块嵌入进行整体表征学习；二是仅使用通过概率性分配的CLS令牌进行线性探测。模型在CelebA、FairFace等公开数据集上进行年龄、性别等生物特征预测任务的评估，并在整合的BMI专用数据集上测试其从面部形态估计体脂指数的能力，以此验证其医学表征的泛化性。

背景与挑战

背景概述

随着大规模基础模型在语言与视觉任务中展现出前所未有的能力，医学领域成为极具潜力却尚未充分探索的应用方向。然而，医学数据通常面临严峻的稀缺性挑战，特别是包含敏感生物特征信息的面部图像数据集。为应对这一瓶颈，Sber AI Lab的研究团队于2026年提出了MeFEm模型，其核心研究问题在于如何利用自监督学习从大规模非医学面部图像中提取稳健的、与医学相关的特征表示，从而在有限的标注数据下有效支持下游生物计量与医学预测任务。该工作通过整合FaceCaption-15M、AVSpeech和SFHQ等多个公开数据集，构建了一个约644万样本的训练集，旨在为面部生物医学分析建立新的基准，推动该领域从通用视觉模型向专业化医学嵌入模型的范式转变。

当前挑战

该数据集构建与应用面临双重挑战。在领域问题层面，其旨在解决从面部图像中估计身体质量指数、年龄、性别等生物计量参数，以及探索与血红蛋白、血压等临床指标关联的艰巨任务。这些任务要求模型捕捉极其细微的面部表型标记，并克服不同人群、成像条件与健康状态间的高度复杂性，同时需应对现有数据中普遍存在的领域偏差与泛化能力不足的问题。在构建过程中，挑战主要源于高质量医学标注数据的稀缺性，这受限于严格的隐私伦理约束与专业标注的高昂成本；此外，原始数据源如FaceCaption-15M和AVSpeech存在链接失效问题，且包含一定比例的无关或错误样本，需经过严格的清洗与筛选才能形成可用训练集，这进一步增加了数据整合的难度与不确定性。

常用场景

经典使用场景

在医学人工智能领域，面部图像作为非侵入性生物标志物来源的价值日益凸显。MeFEm模型所依托的数据集FaceCaption-15M、AVSpeech和SFHQ，其经典应用场景在于为自监督学习提供大规模、多样化的面部图像资源。这些数据集通过整合真实世界场景下的自然图像与高质量合成面孔，构建了覆盖不同年龄、种族和表情的视觉语料库，为模型学习面部本质结构提供了丰富素材。在训练过程中，模型通过轴向条纹掩码等策略专注于语义相关区域，从而提取与生理特征密切相关的视觉表示。

解决学术问题

该数据集体系有效应对了医学人工智能领域长期存在的数据稀缺与隐私困境。传统医学图像数据集通常规模有限且涉及敏感信息，难以公开共享。通过整合非医学来源的大规模面部图像，该方案为自监督预训练提供了可行路径，使模型能够从海量无标签数据中学习普适性面部特征。其核心贡献在于弥合了通用视觉模型与专业医学任务之间的表征鸿沟，通过纯视觉的自监督目标避免了文本描述带来的语义偏差，使模型能够专注于捕捉与BMI、年龄、性别等生物计量指标相关的细微表型特征。

实际应用

在实际医疗场景中，该数据集支撑的模型展现出在远程健康监测和初步筛查方面的应用潜力。基于面部图像的生物计量分析可实现无接触式的BMI估算、年龄性别识别等基础生理参数评估，为公共卫生研究和个性化健康管理提供技术支撑。在资源有限的环境中，这种低成本、易获取的筛查方式尤其具有价值。模型在血红蛋白、血糖等复杂生理指标的初步预测尝试，虽未达到临床诊断标准，但揭示了视觉特征与系统性疾病之间可能存在的关联线索，为后续多模态医疗分析奠定了基础。

数据集最近研究