MI-LLM dataset

Name: MI-LLM dataset
Creator: 北京大学公共卫生学院妇幼卫生学系
Published: 2025-12-17 21:43:26
License: 暂无描述

arXiv2025-12-17 更新2025-12-19 收录

下载链接：

https://github.com/CbyerDragon/MI-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为MI-LLM数据集，由北京大学公共卫生学院妇幼卫生学系的研究团队创建，旨在支持健康行为改变的动机访谈研究。数据集包含2040条经过GPT-4转录的中文动机访谈风格的心理咨询对话，其中2000条用于训练，40条用于测试。数据来源于两个高质量的中文心理咨询语料库（CPsyCounD和PsyDTCorpus），通过精心设计的提示模板进行转录。该数据集主要用于训练和评估大型语言模型在动机访谈领域的应用，帮助解决健康行为改变中的心理咨询可扩展性问题。

This dataset, named the MI-LLM Dataset, was developed by a research team from the Department of Maternal, Child and Adolescent Health, School of Public Health, Peking University, to support motivational interviewing research on health behavior change. It contains 2040 Chinese motivational interviewing-style psychological counseling dialogues transcribed by GPT-4, with 2000 samples allocated for training and 40 for testing. The dialogues are sourced from two high-quality Chinese psychological counseling corpora: CPsyCounD and PsyDTCorpus, and were transcribed using meticulously designed prompt templates. This dataset is primarily intended for training and evaluating large language model (LLM) applications in the domain of motivational interviewing, aiming to address the scalability challenge of psychological counseling for health behavior change.

提供机构：

北京大学公共卫生学院妇幼卫生学系

创建时间：

2025-12-17

原始信息汇总

MI-LLM 数据集概述

基本信息

数据集名称：MI-LLM
托管地址：https://github.com/CbyerDragon/MI-LLM

数据集描述

根据提供的README文件内容，该页面未包含关于数据集的详细描述、具体内容、规模、用途或任何其他相关信息。

搜集汇总

数据集介绍

构建方式

在心理健康干预领域，动机性访谈作为一种循证咨询方法，其专业对话资源的稀缺性构成了技术发展的关键瓶颈。MI-LLM数据集的构建巧妙地应对了这一挑战，其核心方法在于利用提示工程驱动的大语言模型进行风格迁移。研究团队首先系统筛选了五个中文心理咨询对话语料库，并依据自动化评估结果，选取了综合质量最高的CPsyCounD和PsyDTCorpus两个数据集作为源材料。随后，基于动机性访谈的权威理论框架，精心设计了结构化的转录提示，指导GPT-4模型将源数据集中的普通心理咨询多轮对话，系统性地转化为符合动机性访谈原则与技巧的专业对话。最终，从生成的2040段对话中，随机划分出2000段用于模型训练，40段用于测试，从而构建了一个规模适中、质量可控的专用数据集。

使用方法

该数据集主要应用于大型语言模型在动机性访谈领域的适应性微调与研究评估。在模型开发阶段，研究者采用低秩适应等参数高效微调技术，利用该数据集的训练部分对Baichuan2、ChatGLM-4等开源中文大模型进行指令微调，以赋予其动机性访谈的专项能力。在评估阶段，其测试部分被用于构建基于轮次的评估样本：将完整的测试对话按轮次拆分，以前序对话历史为上下文，以当前用户表述为输入，要求模型生成咨询师回应，进而通过自动指标（如BLEU-4、ROUGE）与人工编码（依据MITI 4.2.1手册）两种方式，系统评估微调后模型生成回应的质量、与参考回复的相似度及其对动机性访谈技术准则的遵循程度。这种使用方法为客观衡量AI模型掌握特定心理咨询流派技能的水平提供了可操作的框架。

背景与挑战

背景概述

在慢性疾病成为全球重大健康挑战的背景下，健康行为促进被视为预防与管理的关键。动机性访谈作为一种循证咨询方法，在促进戒烟、减重、增加运动等多种健康行为改变方面展现出显著效果，但其广泛应用受限于对专业治疗师的高要求与漫长培训周期。为应对这一挑战，北京大学公共卫生学院与Taomi AI4Health Lab的研究团队于近期构建了MI-LLM数据集，旨在探索利用大语言模型规模化提供动机性访谈支持的新路径。该数据集通过整合高质量中文心理咨询语料，并基于GPT-4与动机性访谈框架进行对话转录，形成了包含2040轮对话的专项语料库，为核心研究问题——如何使通用大语言模型掌握并输出符合动机性访谈核心技能的一致性对话——提供了关键数据基础，为人工智能辅助健康行为干预领域开辟了新的研究方向。

当前挑战

MI-LLM数据集致力于解决的领域核心挑战，在于如何使人工智能模型精准掌握动机性访谈这一高度依赖人际互动与专业技巧的复杂咨询方法，并生成符合其核心原则（如合作、唤出、自主支持）的对话，以弥补现实世界中专业咨询师资源稀缺的缺口。在数据集构建过程中，研究团队面临多重具体挑战：首要挑战源于高质量、结构化动机性访谈对话数据的天然匮乏，迫使研究采用基于提示工程的GPT-4转录策略，将普通心理咨询对话转化为动机性访谈风格，这一过程对提示设计的严谨性与保真度提出了极高要求。其次，数据规模相对有限，仅基于两个筛选出的中文语料库构建，可能制约模型的泛化能力与复杂技能（如复杂性反映）的学习深度。此外，确保转录后对话在技术全球评分、关系全球评分及MI依从性比率等关键指标上逼近真实专家对话，亦是构建过程中持续面临的验证性挑战。

常用场景

经典使用场景

在健康行为促进领域，动机性访谈作为一种循证咨询方法，其应用常受限于专业咨询师资源的稀缺性。MI-LLM数据集通过整合高质量中文心理咨询对话，并利用GPT-4将其转录为符合动机性访谈框架的多轮对话，为训练大型语言模型提供了标准化语料。该数据集最经典的使用场景在于支持研究者对模型进行微调，使其能够模拟人类咨询师的核心访谈技巧，如培育改变谈话、软化维持谈话以及建立共情伙伴关系，从而在自动化系统中实现可扩展的动机性访谈能力。

解决学术问题

该数据集有效应对了动机性访谈研究中数据规模有限、质量参差不齐的学术挑战。传统上，构建动机性访谈对话数据集依赖专家标注，过程耗时且难以规模化。MI-LLM数据集通过提示工程将普通心理咨询对话转化为结构化访谈内容，提供了一条可扩展的数据构建路径。这不仅解决了训练数据匮乏的问题，还为评估模型在动机性访谈技能上的表现提供了基准，使得基于MITI框架的细粒度行为分析成为可能，推动了AI在行为改变干预领域的实证研究进展。

实际应用

在实际应用中，MI-LLM数据集支撑的微调模型可部署于多种健康促进场景。例如，在戒烟、体重管理、慢性病自我管理等行为干预中，这些模型能够作为辅助工具，为用户提供个性化的动机性访谈对话。通过模拟人类咨询师的回应策略，系统可以帮助用户探索矛盾心理、增强内在改变动机，并在缺乏专业人员的环境下提供持续支持。这种应用不仅扩展了动机性访谈的可及性，也为公共卫生领域的数字化干预提供了新的技术路径。

数据集最近研究