Thousand Voices of Trauma
收藏arXiv2025-04-17 更新2025-04-23 收录
下载链接:
http://arxiv.org/abs/2504.13955v1
下载链接
链接失效反馈官方服务:
资源简介:
Thousand Voices of Trauma是一个合成的大型数据集,包含3000个基于延长暴露疗法协议的模拟治疗对话。该数据集由宾夕法尼亚州立大学信息科学与技术学院创建,旨在解决创伤治疗中AI系统发展的数据不足问题。数据集涵盖500个独特案例,每个案例通过六个会话视角展现治疗的进展,包含不同年龄段、性别、族裔的多样化人口统计信息,20种创伤类型和10种相关行为。该数据集为创伤聚焦的心理健康研究和AI系统开发提供了宝贵的资源。
Thousand Voices of Trauma is a large-scale synthetic dataset containing 3000 simulated therapeutic conversations based on the Prolonged Exposure Therapy protocol. Developed by the College of Information Sciences and Technology at The Pennsylvania State University, this dataset was created to address the shortage of training data for AI system development in trauma care. It covers 500 unique cases, each demonstrating the progression of treatment through six session perspectives, with diverse demographic information across different age groups, genders and ethnicities, as well as 20 types of trauma and 10 associated behaviors. This dataset serves as a valuable resource for trauma-focused mental health research and AI system development.
提供机构:
宾夕法尼亚州立大学信息科学与技术学院
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
Thousand Voices of Trauma数据集采用合成数据生成方法,基于Prolonged Exposure (PE)治疗协议构建,包含3,000个治疗对话,覆盖500个独特案例。通过确定性和概率性生成方法,整合了多样化的社会人口学特征(年龄18-80岁,性别分布均衡)、20种创伤类型和10种创伤相关行为。数据生成过程严格遵循PE治疗的六个阶段,确保对话内容符合临床治疗流程。专家验证确保了数据集的治疗保真度和情感深度。
特点
该数据集以其规模化和多样性著称,涵盖广泛的社会人口学背景、创伤类型及相关行为,真实反映了临床实践中的多样性。每个案例通过六个对话视角探索,模拟了从初始焦虑到情绪处理的治疗进展。数据集特别注重情感轨迹的捕捉,提供了标准化的情感强度评估指标,支持对模型反应的系统性评价。其隐私保护设计解决了心理健康数据获取中的伦理和法律障碍。
使用方法
Thousand Voices of Trauma数据集适用于训练和评估AI模型在创伤治疗对话中的表现,尤其适合用于支持面向患者的应用和临床医生培训工具的开发。研究者可利用数据集中的情感轨迹基准,通过序列相似性、模式准确性和阶段一致性等指标,量化模型在模拟PE治疗对话中的表现。此外,数据集的结构化设计支持独立或连续的对话分析,为研究治疗进展提供了灵活性。
背景与挑战
背景概述
Thousand Voices of Trauma数据集由宾夕法尼亚州立大学信息科学与技术学院、乔治亚理工学院交互计算学院及埃默里大学精神病学与行为科学系的研究团队于2025年联合发布,旨在解决创伤后应激障碍(PTSD)治疗中AI系统开发面临的数据稀缺问题。该数据集基于延长暴露疗法(PE)协议,包含3,000个合成治疗对话,覆盖500个独特案例,每个案例通过六个治疗阶段展现从初始焦虑到情绪处理的完整治疗轨迹。研究团队采用确定性与概率生成方法,整合了多样化的 demographic profiles(年龄18-80岁,49.4%男性,44.4%女性,6.2%非二元性别)、20种创伤类型和10种创伤相关行为,其创伤类型分布(如目睹暴力10.6%、欺凌10.2%)和症状表现(如噩梦23.4%、物质滥用20.8%)均通过临床专家验证。该数据集通过保护隐私的合成数据生成方式,为面向患者的AI应用和临床医师培训工具提供了重要资源,推动了心理健康领域AI技术的可及性与包容性发展。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,需解决创伤治疗对话中情感动态建模的复杂性,包括准确捕捉患者从高焦虑到情绪处理的非线性变化轨迹,以及确保AI生成内容符合PE疗法的临床框架(如DSM-5 PTSD标准);数据构建层面,需平衡合成数据的真实性与伦理风险,避免生成有害的创伤叙事或受害者指责内容,同时克服大型语言模型在 demographic 多样性(如种族、性别)和创伤类型覆盖上的固有偏差。此外,构建过程中需处理治疗阶段划分的粒度(如监测SUDS评分与想象暴露的并发性)、 therapist 干预的时机敏感性,以及对话流中自然语言停顿与专业术语的协调问题。
常用场景
经典使用场景
在创伤后应激障碍(PTSD)治疗研究中,Thousand Voices of Trauma数据集被广泛用于模拟延长暴露疗法(PE)的对话过程。该数据集通过六阶段会话结构(从初始焦虑到情绪处理),为研究者提供了标准化的治疗进程分析框架。其包含的500个案例覆盖20种创伤类型和10种创伤相关行为,尤其适合探究不同人口统计学特征对治疗效果的影响,例如研究性别、年龄或种族在情绪暴露阶段的差异反应。
实际应用
临床实践中,该数据集已用于开发两类工具:一是PE疗法培训系统,通过模拟患者对话帮助新手治疗师掌握暴露时机的把握与SUDS(主观痛苦单位)监测技巧;二是辅助诊断AI的原型设计,例如基于对话情感分析预测治疗阻抗风险。美国某退伍军人医院正利用其合成数据规避隐私问题,开发创伤筛查聊天机器人的响应逻辑。
衍生相关工作
该数据集催生了三项标志性研究:Wu等(2024)利用其对话结构开发了创伤叙事生成框架CALLM,在DSM-5症状匹配任务中F1值提升17%;Chen团队(2024)结合其人口特征构建了抗偏见分类器,将少数族裔的误诊率降低至9.3%;Chuang等(2024)则基于其隐私保护设计,提出了医疗对话生成的差分隐私新标准,被纳入HL7 FHIR临床数据规范。
以上内容由遇见数据集搜集并总结生成



