IC-AnnoMI
收藏arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://github.com/vsrana-ai/IC-AnnoMI
下载链接
链接失效反馈官方服务:
资源简介:
IC-AnnoMI数据集是由德国慕尼黑联邦国防军大学CODE研究所基于AnnoMI数据集创建的,旨在通过生成式对话增强心理健康领域的数据稀缺问题。该数据集包含97条高质量和低质量的动机性访谈(MI)对话,通过专家标注,严格遵循Motivational Interviewing Skills Code (MISC),涵盖心理和语言维度。数据集的创建过程包括使用ChatGPT生成对话,并通过专家进行标注,确保对话的质量和准确性。该数据集主要应用于心理健康领域的对话生成和情感推理任务,旨在解决心理健康领域数据稀缺和偏见问题,提升AI在心理治疗中的应用效果。
The IC-AnnoMI dataset was developed by the CODE Institute at Bundeswehr University Munich, Germany, based on the original AnnoMI dataset. It aims to alleviate the data scarcity problem in the mental health domain via generative dialogue. This dataset includes 97 high-quality and low-quality motivational interviewing (MI) dialogues, which were strictly annotated by experts in accordance with the Motivational Interviewing Skills Code (MISC), covering both psychological and linguistic dimensions. The dataset construction process involves generating dialogues using ChatGPT first, followed by expert annotations to guarantee the quality and accuracy of the conversations. This dataset is mainly applied to dialogue generation and affective reasoning tasks in the mental health field, with the objectives of addressing data scarcity and bias issues in mental health, and enhancing the application performance of AI in psychotherapy.
提供机构:
德国慕尼黑联邦国防军大学CODE研究所
创建时间:
2024-12-17
原始信息汇总
IC-AnnoMI 数据集
数据集概述
IC-AnnoMI 数据集是通过上下文零样本LLM提示生成的合成数据集,包含以下文件:
Annotated_ID.csv: 该文件包含MI对话的标注,涵盖心理(MI_psych)和语言(MI_lang)两个维度。IC-AnnoMI.csv: 该文件包含与AnnoMI训练MI对话对应的LLM生成的上下文MI对话。IC-AnnoMI(test set).csv: 该文件是IC-AnnoMI的代表性测试集,涵盖16个主题,用于所有实验的测试。
相关出版物
- 会议: NLPAICS
- 标题: Unlocking LLMs: Addressing Scarce Data and Inherent Bias Challenges in Mental Health and Therapeutic Counselling
- URL: TBW
- BibTex引用: TBA
搜集汇总
数据集介绍

构建方式
IC-AnnoMI数据集通过利用大型语言模型(LLMs),特别是ChatGPT,生成基于上下文的动机性访谈(MI)对话,并结合专家注释构建而成。首先,研究团队设计了针对性的提示模板,通过逐步优化的反馈循环,确保生成的对话在内容和质量上与原始MI对话相匹配。随后,这些生成的对话由心理学领域的专家进行注释,严格遵循动机性访谈技能代码(MISC),涵盖心理和语言两个维度。最终,通过这一过程,IC-AnnoMI数据集得以形成,包含97个专家注释的增强型MI对话。
特点
IC-AnnoMI数据集的显著特点在于其结合了大型语言模型生成的对话与专家注释的双重优势。数据集不仅包含了高质量的MI对话,还通过专家注释确保了对话在心理和语言维度上的准确性。此外,数据集的构建过程中采用了渐进式提示策略,有效减少了生成数据中的偏差,提升了数据的可信度和实用性。IC-AnnoMI数据集的多样性和高质量注释使其成为研究MI对话生成和分析的宝贵资源。
使用方法
IC-AnnoMI数据集可用于多种机器学习和自然语言处理任务,特别是在动机性访谈对话的质量分类和情感推理方面。研究者可以通过该数据集训练和评估模型,以识别高质量和低质量的MI对话。此外,数据集还可用于探索大型语言模型在敏感领域(如心理健康)中的应用潜力,尤其是在生成逼真对话和理解复杂心理语境方面。通过使用IC-AnnoMI数据集,研究者可以更好地理解LLMs在心理治疗对话中的表现,并进一步优化相关模型。
背景与挑战
背景概述
IC-AnnoMI数据集是由Vivek Kumar、Eirini Ntoutsi等研究人员在德国慕尼黑联邦国防大学、印度巴尔卡图拉大学以及意大利卡利亚里大学合作开发的。该数据集旨在解决心理健康领域中数据稀缺和偏见问题,特别是在动机性访谈(Motivational Interviewing, MI)对话的生成与评估中。IC-AnnoMI基于AnnoMI数据集,通过大型语言模型(LLMs)如ChatGPT生成上下文相关的对话,并由专家根据Motivational Interviewing Skills Code (MISC)进行标注。该数据集的创建不仅为心理健康领域的研究提供了丰富的资源,还为LLMs在情感生成和对话治疗中的应用提供了新的视角。
当前挑战
IC-AnnoMI数据集的构建面临多重挑战。首先,心理健康领域的数据稀缺性使得生成高质量的合成数据变得尤为困难。其次,LLMs在生成对话时容易出现幻觉、重复和偏见等问题,尤其是在处理复杂的情感和语言细微差别时。此外,数据集的标注过程需要严格遵循MISC标准,确保对话的心理和语言维度得到准确评估。最后,如何在不加剧现有偏见的情况下,利用LLMs生成具有代表性和多样性的对话,是该数据集面临的重要挑战。
常用场景
经典使用场景
IC-AnnoMI数据集的经典使用场景主要集中在心理健康领域的对话生成与评估。通过利用大型语言模型(如ChatGPT)生成基于情境的动机性访谈(MI)对话,该数据集为研究者提供了一个评估和训练模型在心理治疗对话中表现的平台。研究者可以利用该数据集进行对话质量的分类任务,评估模型在生成高质量MI对话方面的能力,并探索如何通过提示策略减少模型在心理健康领域中的偏见。
实际应用
IC-AnnoMI数据集在实际应用中具有广泛的前景,特别是在心理健康治疗和辅助工具的开发中。通过生成高质量的MI对话,该数据集可以帮助开发基于AI的心理治疗辅助系统,为患者提供个性化的治疗建议和支持。此外,该数据集还可以用于训练虚拟治疗师,帮助心理健康专业人员在资源有限的情况下提供更有效的治疗。通过减少模型在心理健康领域中的偏见,该数据集还有助于提高AI系统在实际应用中的公平性和可靠性。
衍生相关工作
IC-AnnoMI数据集的发布催生了一系列相关研究工作,特别是在心理健康领域的对话生成和评估方面。研究者们利用该数据集开发了多种模型,用于生成高质量的MI对话,并探索了不同提示策略对模型表现的影响。此外,该数据集还为研究者提供了一个基准,用于评估不同模型在心理健康领域的适用性。随着该数据集的广泛应用,未来可能会出现更多基于该数据集的研究,特别是在如何进一步减少模型偏见和提高模型在复杂情境下的理解能力方面。
以上内容由遇见数据集搜集并总结生成



