MIDAS (Motivational Interviewing Dataset in Spanish)
收藏arXiv2025-02-12 更新2025-02-26 收录
下载链接:
https://github.com/MichiganNLP/MIDAS
下载链接
链接失效反馈官方服务:
资源简介:
MIDAS是一个西班牙语动机访谈数据集,由密歇根大学和德克萨斯州立大学联合创建。该数据集包含了74个西班牙语咨询对话视频,由专业咨询师和心理学学生进行模拟,主题涉及行为健康的各个方面,如酒精消费、物质滥用、压力管理和糖尿病管理。数据集经过预处理、转录和人工标注,为NLP研究者在心理健康应用领域提供了宝贵的资源。
MIDAS is a Spanish-language motivational interviewing dataset co-developed by the University of Michigan and Texas State University. This dataset comprises 74 Spanish-language counseling dialogue videos simulated by professional counselors and psychology students, covering diverse aspects of behavioral health such as alcohol consumption, substance abuse, stress management and diabetes management. Having undergone preprocessing, transcription and manual annotation, the dataset serves as a valuable resource for NLP researchers engaged in mental health-related applications.
提供机构:
密歇根大学
创建时间:
2025-02-12
原始信息汇总
搜集汇总
数据集介绍

构建方式
MIDAS数据集的构建过程首先涉及从YouTube上手动收集西班牙语动机访谈(MI)互动的视频记录。研究者通过关键词搜索,如“entrevista motivacional”(动机访谈)等,选取了以MI为主要咨询策略、参与者为两名(咨询师和患者)、讨论行为健康话题如戒烟等的视频。随后,对视频进行预处理以移除开场白和叙述,使用Amazon Transcription服务进行自动转录和语音识别,并由两名母语为西班牙语的人员手动审查转录内容。最后,使用ITEM编码方案对咨询师的行为进行注释,包括问题提问和反思,确保数据集的准确性和可靠性。
特点
MIDAS数据集的特点在于其专注于西班牙语的动机访谈,填补了跨语言心理咨询数据集的空白。该数据集包含74个西班牙语咨询对话,由来自不同地理位置的西班牙语使用者进行,涵盖了酒精消费、药物滥用、压力管理和糖尿病管理等多个行为健康话题。数据集的注释基于ITEM编码方案,该方案是评估MI熟练度的黄金标准。此外,数据集还包括单词级别和回合级别统计数据,为研究提供了丰富的参考信息。
使用方法
MIDAS数据集的使用方法主要涉及心理咨询师的对话策略分析、跨语言心理咨询的比较研究和基于语言模型的咨询师行为分类实验。研究者在数据集上进行了语言使用分析,比较了西班牙语和英语咨询师的对话策略差异。此外,还进行了分类实验,使用单语言和多语言模型来区分咨询师的行为,如问题提问和反思。这些研究结果表明,MIDAS数据集在心理咨询实践、培训和评估中具有重要的应用价值,可以帮助开发NLP应用以支持西班牙语使用者的心理咨询。
背景与挑战
背景概述
MIDAS (Motivational Interviewing Dataset in Spanish) 是一个用于动机式访谈的西班牙语咨询数据集。该数据集由来自公共视频来源的专家注释的咨询反思和问题组成。MIDAS 数据集的创建旨在解决自然语言处理 (NLP) 研究中文化差异的问题,该研究尚未探讨英语中进行的咨询分析的结果是否适用于其他语言。该数据集的研究背景包括创建时间、主要研究人员或机构、核心研究问题以及对相关领域的影响力。MIDAS 数据集由来自密歇根大学的 Aylin Gunal、Bowen Yi、John Piette 和 Rada Mihalcea 以及来自德克萨斯州立大学的 Verónica Pérez-Rosas 共同创建。该数据集的核心研究问题是探索西班牙语和英语咨询中咨询师行为的语言差异,并开发单语和多语环境中的分类器,以展示其在咨询师行为编码任务中的应用。MIDAS 数据集对相关领域的影响力包括为 NLP 研究人员提供了宝贵的资源,以支持西班牙语咨询实践的评价和培训。
当前挑战
MIDAS 数据集相关的挑战包括:1) 所解决的领域问题的挑战:该数据集解决了文化差异和语言因素对咨询的影响,以及自然语言处理研究中缺乏其他语言的咨询数据集的问题;2) 构建过程中所遇到的挑战:该数据集的构建过程中,研究人员面临了从在线视频平台手动收集视频录音、自动转录和整理视频、手动注释对话参与者身份以及手动标注咨询师行为等挑战。此外,该数据集的局限性在于收集的转录文本是从为教育目的而创建的在线视频中获得的,可能在某种程度上是脚本化的。
常用场景
经典使用场景
MIDAS数据集主要应用于探索西班牙语和英语动机访谈中咨询师行为的语言差异,并开发单语和双语环境下的分类器,用于咨询师行为编码任务。该数据集提供了专家注释的咨询反思和问题,为研究跨语言咨询策略提供了宝贵资源。
解决学术问题
MIDAS数据集解决了现有自然语言处理研究中缺乏非英语咨询数据集的问题。通过提供西班牙语咨询对话数据,MIDAS有助于填补这一空白,为开发支持咨询实践的自然语言处理工具提供了文化多样性的数据基础。此外,MIDAS还揭示了语言和文化因素如何影响咨询策略,为跨文化咨询研究和实践提供了新的见解。
衍生相关工作
MIDAS数据集的衍生相关工作包括进一步分析英语和西班牙语咨询之间的差异,包括对话动力学、语言使用和情感表达等方面。此外,MIDAS还可以用于开发支持西班牙语咨询师的评估和培训应用程序,以及开发其他非英语NLP工具,以支持多语言心理健康保健。
以上内容由遇见数据集搜集并总结生成



