SynPAIN
收藏arXiv2025-07-26 更新2025-08-13 收录
下载链接:
https://borealisdata.ca/dataset.xhtml?persistentId=doi:10.5683/SP3/WCXMAP
下载链接
链接失效反馈官方服务:
资源简介:
SynPAIN是一个大规模的合成数据集,包含10710张面部表情图像(5355对中性/表情图像),跨越五个种族/民族,代表两个年龄组(年轻:20-35岁,老年:75岁以上),以及两个性别。使用商业生成式AI工具,我们创建了人口统计上平衡的合成身份,具有临床上有意义的疼痛表情。我们的验证表明,合成疼痛表情表现出预期的疼痛模式,使用基于面部动作单元分析的临床验证的疼痛评估工具,得分显著高于中性和非疼痛表情。我们通过实验证明SynPAIN在识别现有疼痛检测模型中的算法偏差方面的实用性。通过全面的偏差评估,我们揭示了在人口统计特征方面存在重大性能差异。这些性能差异以前在较小、不太多样化的数据集中是无法检测到的。此外,我们还证明,年龄匹配的合成数据增强提高了在真实临床数据上的疼痛检测性能,平均精确度提高了7.0%。SynPAIN通过提供第一个公开可用的、人口统计上多样化的合成数据集,专门为老年人疼痛检测而设计,同时建立了一个衡量和减轻算法偏差的框架,从而解决了疼痛评估研究中的关键差距。数据集可在SynPAIN获取。
SynPAIN is a large-scale synthetic dataset containing 10,710 facial expression images (5,355 pairs of neutral/expression images) spanning five racial/ethnic groups, covering two age groups (young: 20–35 years old, elderly: 75 years and older) and two genders. Using commercial generative AI tools, we developed demographically balanced synthetic identities with clinically meaningful pain expressions. Our validation experiments show that the synthetic pain expressions exhibit expected pain patterns, with scores significantly higher than those of neutral and non-pain expressions as measured by clinically validated pain assessment tools based on facial action unit analysis. We experimentally demonstrate the utility of SynPAIN in identifying algorithmic bias in existing pain detection models. Through comprehensive bias assessments, we reveal significant performance disparities across demographic characteristics, which were previously undetectable in smaller, less diverse datasets. Furthermore, we show that age-matched synthetic data augmentation improves pain detection performance on real clinical data, with a 7.0% increase in mean average precision. SynPAIN addresses critical gaps in pain assessment research by providing the first publicly available, demographically diverse synthetic dataset specifically designed for pain detection in the elderly, while establishing a framework for measuring and mitigating algorithmic bias. The dataset is accessible at SynPAIN.
提供机构:
多伦多大学计算机科学系, KITE Research Institute, Toronto Rehabilitation Institute, University Health Network, Institute of Biomedical Engineering, University of Toronto, Vector Institute, 多伦多, 加拿大; 里贾纳大学, 里贾纳, 加拿大
创建时间:
2025-07-26
搜集汇总
数据集介绍

构建方式
SynPAIN数据集的构建采用了先进的生成式人工智能技术,通过商业化的AI工具(Ideogram 2.0和RunwayML Gen-4 Alpha)程序化生成了10,710张面部表情图像(5,355对中性/表情配对)。数据集涵盖了五种种族/民族、两个年龄组(年轻:20-35岁,老年:75岁以上)和两种性别,确保了人口统计学的平衡性。每对图像都经过严格的质量控制,排除了不符合要求的图像(如侧视图或存在生成伪影的图像),并采用面部动作单元分析验证了疼痛表情的临床有效性。
使用方法
SynPAIN数据集主要用于训练和评估疼痛检测算法,特别适用于研究算法在不同人口统计学群体中的表现差异。研究人员可以利用该数据集进行跨年龄、性别和种族/民族的算法偏见分析。数据集中的配对图像设计支持基于个体中性基线的疼痛检测方法。此外,SynPAIN还可用作训练数据增强,实验证明年龄匹配的合成数据增强能将真实临床数据上的疼痛检测平均精度提高7.0%。数据集提供的视频序列还可用于研究疼痛表情的时序动态特征。
背景与挑战
背景概述
SynPAIN数据集由多伦多康复研究所KITE研究中心的Babak Taati团队于2025年创建,旨在解决临床疼痛评估中的关键挑战。该数据集针对认知障碍老年患者的非语言疼痛识别需求,通过生成式AI技术构建了包含10,710张跨五种族、两年龄段、两性别的合成面部表情图像。作为首个公开的针对老年疼痛检测的多样化合成数据集,SynPAIN填补了传统数据集中老年群体代表性不足的空白,并通过面部动作单元分析验证了合成疼痛表情的临床有效性,为医疗AI系统的算法公平性研究提供了重要基准。
当前挑战
在疼痛识别领域,现有数据集面临三大核心挑战:样本多样性不足导致算法存在人口统计学偏差,隐私限制阻碍临床数据共享,以及老年群体面部形态变化带来的特征提取困难。SynPAIN在构建过程中需克服生成式AI的固有局限:1)保持跨种族/年龄的面部动作单元真实性;2)确保身份一致性在疼痛/非疼痛图像对中的精确对齐;3)解决生成图像在特定人口组别(如东亚女性)中出现的多样性不足问题。数据集验证显示商业AU检测系统对黑人和疼痛表情的识别失败率分别达11.4%和12.4%,凸显了算法偏见检测的必要性。
常用场景
经典使用场景
SynPAIN数据集在医疗健康领域具有广泛的应用前景,特别是在自动疼痛评估系统中。该数据集通过生成多样化的合成面部表情图像,为研究人员提供了一个标准化的基准,用于开发和验证疼痛检测算法。其经典使用场景包括训练和测试机器学习模型,以识别和分类疼痛与非疼痛面部表情,尤其适用于老年痴呆患者等无法自我报告疼痛的群体。
解决学术问题
SynPAIN数据集解决了疼痛检测研究中数据稀缺和多样性不足的关键问题。传统数据集往往缺乏老年人和不同种族/民族的代表性,导致算法在实际应用中存在偏差。SynPAIN通过合成数据填补了这一空白,使研究人员能够系统评估算法在不同人口统计学特征上的性能差异,并开发更具包容性的疼痛检测模型。
实际应用
在实际应用中,SynPAIN数据集可用于开发临床决策支持系统,帮助医护人员更准确地评估无法自我报告疼痛的患者的疼痛水平。此外,该数据集还可用于养老院和长期护理机构的智能监控系统,通过实时分析患者面部表情,及时发现疼痛迹象并通知护理人员,从而改善疼痛管理和患者生活质量。
数据集最近研究
最新研究方向
在医疗健康领域,特别是针对老年痴呆症患者的疼痛评估,SynPAIN数据集的推出标志着合成数据技术在临床疼痛识别研究中的重大突破。该数据集通过生成式AI工具构建了涵盖五种族裔、两个年龄组及两种性别的平衡样本,为疼痛表情识别算法提供了前所未有的多样性基准。近期研究聚焦于三大方向:一是利用该数据集揭示并缓解现有疼痛检测模型在跨人口统计学特征(如老年群体与少数族裔)中的算法偏见,实验证明其可检测到传统小规模数据无法发现的性能差异;二是探索合成数据增强对真实临床数据的性能提升,研究表明年龄匹配的合成数据能使疼痛检测平均精度提升7%;三是建立合成疼痛表情的临床有效性验证框架,通过面部动作单元分析证实生成的表情符合PSPI疼痛评估标准。这些进展不仅解决了疼痛研究中数据稀缺和隐私保护的瓶颈问题,更为开发公平、可靠的老年护理监测系统提供了关键基础设施。
相关研究论文
- 1SynPAIN: A Synthetic Dataset of Pain and Non-Pain Facial Expressions多伦多大学计算机科学系, KITE Research Institute, Toronto Rehabilitation Institute, University Health Network, Institute of Biomedical Engineering, University of Toronto, Vector Institute, 多伦多, 加拿大; 里贾纳大学, 里贾纳, 加拿大 · 2025年
以上内容由遇见数据集搜集并总结生成



