emoneil/reflections-in-peer-counseling
收藏数据集概述
数据集描述
数据集摘要
该数据集源自一个大型在线同伴咨询服务中客户与咨询师之间的对话。总共有1061个观察样本分布在训练和测试数据集中,另外有50个随机抽样的例子用于定义少样本学习提示或用于调整超参数的验证目的,因此总共有1111个观察样本。这些观察样本来自一个更大的数据集,该数据集包含多种临床咨询技能的注释。我们专注于咨询师反思的注释。咨询师的反思在话语层面使用动机访谈治疗完整性4.2(MITI)和动机访谈技能代码2.5(MISC)手册进行注释。因此,整个数据集由对话上下文-咨询师反思对组成。
支持的任务和排行榜
该数据集用于调整生成模型,以生成同伴咨询领域的反思陈述。
语言
数据集中的语言是英语。
数据集结构
数据实例
每个实例包含对话发生的聊天室ID、提示(即紧接咨询师反思之前的对话上下文,包括来自客户或咨询师之前的 utterances,直到并包括最近的客户消息,该消息紧随咨询师的消息)和完成(即咨询师的反思)。
json { chat_id: "1234567", prompt: "Client: Im 19, hes 25. Hes not very considerate of how I feel but says he cares about me and loves me. Counselor:", completion: " The words are easy, actions are needed. Guys who are 25 just desire to have different experiences.
", }
数据字段
chat_id: 定义对话的聊天ID的整数prompt: 对应于咨询师反思之前对话上下文的字符串,消息之间用换行符分隔,每个 utterance 以 Client: 或 Counselor: 开头。字符串以 Counselor: 结尾,表示接下来是咨询师的完成。completion: 对应于咨询师反思的字符串
数据分割
数据集分为训练、测试和一小部分50个例子,用于设计少样本学习提示或调整超参数。911个例子用于训练。其中350个例子也构成用于比较实验的简化训练集。150个例子用于测试。其中50个测试例子(随机选择)用于人工评估。我们确保测试集中的消息的聊天标识符与训练集中的标识符唯一不同。
数据集创建
策划理由
反思性倾听是同伴咨询中的一项关键技能,只有在适应上下文时才有效。因此,我们希望专注于这一特定技能,并探索最先进的语言模型在文本生成方面的潜力。
源数据
初始数据收集和规范化
数据集是通过过滤更大的注释了多种咨询技能的 utterances 数据集,仅保留那些被注释为反思的咨询师消息来创建的。然后,通过识别这些咨询师反思实例之前的消息来创建提示实例。初始创建提示后,删除了少于或等于五个词的提示。
作者为简化训练集中的350个训练示例提示和150个测试示例提示创建了参考反思。在创建每个对话上下文的参考反思时,作者旨在模拟与客户对话中嵌入的这一轮次大致相同的时间响应。这种时间估算是基于作者在危机热线担任咨询师的经验。参考反思的创建时间可能比平均咨询师响应时间更短,因为有数百个对话上下文需要创建反思。
源语言生产者是谁?
client 消息是寻求大型在线咨询服务平台上心理健康支持的人的 utterances。counselor 消息是这个大型在线咨询服务平台上经过最少培训的同伴咨询师的 utterances。
对于简化训练集中的350个训练示例提示和150个测试示例提示,作者也创建了参考反思。
注释
注释过程
人工评估检查了在完整训练集、简化训练集和参考反思上微调的生成模型的文本;少样本学习模型;实际咨询师;和参考反思。
我们通过 Amazon Mechanical Turk Developer Sandbox 进行了一项调查。提供了50个测试提示及其对应的六个响应源。在提供对话上下文的情况下,注释者根据三个标准评估响应:流畅性、反思相似性和总体偏好。因此,对于每个上下文,评估者测量了所有六个候选响应的流畅性、反思相似性和总体偏好。
我们使用了 Efficient Annotation of Scalar Labels (EASL) 的变体,这是一种介于直接评估和在线成对排名聚合与基于排名的量级估计之间的混合方法。评估者一次看到所有六个响应(不知道每个响应的来源),并使用1到5的滑动标尺根据三个维度对响应进行评分。每个对话上下文的模型响应顺序是随机的。我们提供了1和5评分的响应示例,用于总体流畅性和反思相似性维度。然而,我们没有提供总体偏好的示例,指出其主观性。
流畅性指的是响应的整体流畅性和人类相似性。在说明中,我们指出非大写单词和口语是可以接受的,不应被视为流畅性错误。反思相似性指的是响应是否捕捉并返回客户所说的内容。总体偏好指的是评估者对响应的喜欢程度。
使用 Krippendorff’s alpha,我们测量了注释者间的一致性,获得了总体流畅性、反思相似性和总体偏好的 alpha 值分别为 -0.0369、0.557 和 0.358。尽管这些一致性值较低,但我们获得的反思相似性的注释者间一致性 0.557 明显高于相关先前工作中获得的反思相似性的一致性。
注释者是谁?
进行人工评估的三名注释者熟悉咨询反思。所有三名注释者都与这个大型在线咨询服务数据集合作,并获得 IRB 批准。他们对动机访谈代码、消息注释和使用大型语言模型进行大规模标记非常熟悉。
个人和敏感信息
由于该数据集的敏感性质和隐私问题,我们无法公开分享数据。
使用数据的注意事项
数据集的社会影响
这个同伴咨询反思数据集可以作为理解和评估咨询师临床技能的参考点,并进一步推动语言技术在这一领域的应用潜力。鉴于心理健康护理环境的敏感性和这些咨询师的最低培训,使用此类数据需要谨慎理解基于这种语言定义的技术的局限性。
偏见的讨论
这个在线咨询服务平台上的对话语言非常非正式,一些客户和咨询师的 utterances 可能也包含贬义语言。
对于这项工作中的人工评估中评估的生成文本,重要的是要注意 GPT-3 是在超过45TB的互联网和书籍数据上训练的,从在线来源收集的大量数据不可避免地会包含可能被捕获的偏见。因此,可能会无意中对特定受保护群体的子类进行歧视。使用生成响应作为指导来源,而不是将生成系统本身用作咨询师,可能能够在脆弱的心理健康环境中平衡使用人工智能的好处和风险。必须确保此类系统不会被寻求最大化效率和最小化成本的公司滥用。
这项工作中的参考反思是由作者创建的,其咨询和动机访谈的经验来自在青少年危机热线和短信服务上超过一百小时的培训和通过开发和用户测试护士练习和提高动机访谈技能平台的研究奖学金经验。因此,参考反思可能不像医学专业人士那样临床精确,并且反思的多样性本质上是有限的。
其他已知限制
附加信息
数据集策展人
由 Emma ONeil、João Sedoc、Diyi Yang、Haiyi Zhu、Lyle Ungar 开发。
许可信息
引用信息
贡献
感谢 @emoneil 添加此数据集。




