Thousand Voices of Trauma

Name: Thousand Voices of Trauma
Creator: 宾夕法尼亚州立大学信息科学与技术学院、乔治亚理工学院互动计算学院、乔治亚理工学院心理学学院、埃默里大学精神病学与行为科学系
Published: 2025-05-01 00:56:56
License: 暂无描述

arXiv2025-05-01 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21800v1

下载链接

链接失效反馈

官方服务：

资源简介：

Thousand Voices of Trauma数据集包含200个真实世界和200个合成的长期暴露治疗对话。该数据集旨在帮助解决心理健康领域训练和评估临床模型的数据稀缺问题。数据集内容涵盖了不同类型的创伤、治疗阶段和人口统计数据。数据集的创建是为了在保护患者隐私的同时，提供可扩展的注释，并扩大人口和创伤类型的覆盖范围。该数据集用于评估合成数据在模拟真实对话方面的能力，并旨在解决心理健康领域数据稀缺和隐私保护的问题。

The Thousand Voices of Trauma dataset comprises 200 real-world and 200 synthetic long-term exposure therapy conversations. This dataset is designed to mitigate the data scarcity problem encountered during the training and evaluation of clinical models in the mental health domain. The dataset covers a wide range of trauma types, treatment stages, and demographic attributes. It was developed to offer scalable annotations while safeguarding patient privacy, and to broaden the coverage of demographic groups and trauma categories. This dataset is utilized to assess the capacity of synthetic data to simulate authentic clinical conversations, with the goal of addressing both data scarcity and privacy protection challenges in the mental health field.

提供机构：

宾夕法尼亚州立大学信息科学与技术学院、乔治亚理工学院互动计算学院、乔治亚理工学院心理学学院、埃默里大学精神病学与行为科学系

创建时间：

2025-05-01

搜集汇总

数据集介绍

构建方式

Thousand Voices of Trauma数据集通过Anthropic的Claude Sonnet 3.5模型生成，采用PE治疗协议的特定提示框架，模拟真实治疗对话的结构和内容。数据生成过程严格遵循临床指南，确保对话的多样性和真实性，涵盖了不同创伤类型、治疗阶段和人口统计学特征。所有生成的对话经过标准化格式化处理，并通过ModernBERT进行分析，以去除非语言线索，专注于对话内容的评估。

特点

该数据集的特点在于其高度结构化的对话生成，能够准确模拟真实PE治疗中的转接模式（如说话者切换比例0.98 vs. 0.99）和治疗师-客户对话比例。然而，合成对话在语句长度和词汇多样性方面与真实对话存在差异，反映了大型语言模型在生成自然对话时的局限性。数据集特别强调了治疗协议的忠实性，包括创伤叙事连贯性、情绪参与度和回避行为处理等关键临床指标。

使用方法

Thousand Voices of Trauma数据集主要用于训练和评估临床模型，特别是在隐私敏感和真实数据稀缺的场景下。研究人员可以利用该数据集进行系统级的对话分析，包括语言特征、结构特性和治疗协议忠实性评估。数据集还支持开发新的评估框架，以检测合成对话中的临床忠实性漏洞。使用时应结合临床专家的评估，以确保合成数据在治疗过程中的实际效用。

背景与挑战

背景概述

Thousand Voices of Trauma数据集由宾夕法尼亚州立大学信息科学与技术学院、乔治亚理工学院交互计算学院及埃默里大学精神病学与行为科学系的研究团队于2025年联合创建，旨在解决创伤后应激障碍（PTSD）延长暴露疗法（PE）中真实临床对话数据稀缺的难题。该数据集通过生成式大模型模拟治疗师-患者对话，为临床模型训练提供可扩展的替代方案，同时规避患者隐私泄露风险。其创新性在于首次系统评估合成数据在语言结构、治疗协议依从性及情感动态等维度的临床保真度，为心理健康领域的人工智能应用建立了新的评估范式。

当前挑战

该数据集面临双重挑战：在领域问题层面，需精准捕捉PE疗法特有的创伤线索处理、情绪调节和暴露序列引导等复杂交互模式，而现有合成对话常因表面流畅性掩盖协议偏离（如过早治疗师干预或回避行为处理不当）；在构建过程中，需平衡生成文本的语义连贯性与临床专业性，尤其需克服长程情感依赖建模、主观痛苦量表（SUDS）动态追踪等技术难点，同时确保数据多样性覆盖不同人口统计学特征和创伤类型。当前评估框架对治疗关键指标（如情绪习惯化、叙事发展）的敏感性仍有待提升。

常用场景

经典使用场景

在心理健康研究领域，Thousand Voices of Trauma数据集被广泛应用于模拟和评估延长暴露疗法（PE）对话的临床保真度。该数据集通过合成真实的治疗师-患者对话，为研究者提供了一个可控且隐私安全的实验环境，特别适用于训练和验证临床自然语言处理模型。其经典使用场景包括分析对话结构、评估治疗协议依从性以及检测情感动态变化，为心理治疗过程的自动化评估奠定了基础。

衍生相关工作

该数据集催生了多个PE疗法专用的评估框架创新，如Chiu等人开发的BOLT系统（2024）通过行为树模型量化治疗师响应质量。Qiu和Lan（2024）构建的SimPsyDial基准将其扩展至工作联盟评估，而Zhang团队的CPsyCoun（2024）则开创了基于语义重建的保真度评分体系。这些衍生工作共同推进了从表面流畅度到深层临床效度的评估范式转变，为创伤治疗对话生成设立了新的研究标准。

数据集最近研究