Crisp
收藏github2025-04-25 更新2025-04-27 收录
下载链接:
https://github.com/thu-coai/Crisp
下载链接
链接失效反馈官方服务:
资源简介:
Crisp是一个大规模、高质量的双语对话数据集,旨在通过多轮支持性对话帮助个体识别和重构负面思维。该数据集通过CRDial框架创建,包含专门设计的负面思维识别和重构阶段,整合了句子级别的支持性对话策略,并采用多通道循环机制以实现迭代式认知重构。
Crisp is a large-scale, high-quality bilingual dialogue dataset aimed at helping individuals identify and reframe negative thoughts through multi-turn supportive conversations. Developed using the CRDial framework, this dataset includes specially designed stages for negative thought identification and reframing, integrates sentence-level supportive dialogue strategies, and adopts a multi-channel cyclic mechanism to enable iterative cognitive restructuring.
创建时间:
2025-04-24
原始信息汇总
Crisp数据集概述
数据集简介
- 名称:Crisp (Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues)
- 类型:双语(中英文)心理治疗对话数据集
- 用途:用于认知重构(CR)的心理治疗过程,通过多轮对话帮助个体识别和重构负面思想
核心特征
- 框架:基于CRDial框架构建
- 对话结构:
- 包含专门设计的负面思想识别和重构阶段
- 整合句子级支持性对话策略
- 采用多通道循环机制实现迭代式认知重构
- 规模:大规模高质量双语对话数据集
衍生模型
- Crispers-7B-v1:7B规模的对话模型
- Crispers-14B-v1:14B规模的对话模型
- 在线服务:Peppy在线聊天网站(https://peppy-ai.com/)
技术实现
- 模型架构:基于transformers的因果语言模型(至少需要4.37.0版本)
- 系统提示:提供中英文两种版本的专业心理支持角色设定
- 训练数据:论文发表后将公开
学术信息
- 论文:https://arxiv.org/abs/2504.17238
- 引用格式: bibtex @article{crisp, title={Crisp: Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues}, author={Jinfeng Zhou and Yuxuan Chen and Jianing Yin and Yongkang Huang and Yihan Shi and Xikun Zhang and Libiao Peng and Rongsheng Zhang and Tangjie Lv and Zhipeng Hu and Hongning Wang and Minlie Huang}, year={2025}, eprint={2504.17238}, archivePrefix={arXiv}, primaryClass={cs.CL} }
联系方式
- 邮箱:zjf23@mails.tsinghua.edu.cn
搜集汇总
数据集介绍

构建方式
在心理健康领域,认知重构(CR)是一种关键的心理治疗技术,旨在通过多轮对话帮助个体识别并重构负面思维。Crisp数据集的构建采用了创新的CRDial框架,该框架精心设计了负面思维的识别与重构阶段,融入了句子级别的支持性对话策略,并引入了多通道循环机制以实现迭代式认知重构。研究人员基于这一框架,通过大语言模型蒸馏构建了大规模、高质量的中英双语对话数据集。
使用方法
对于希望使用Crisp数据集的研究者,可通过Hugging Face平台获取预训练模型。使用过程需要配置最新版本的transformers库,通过简单的代码即可实现对话生成。系统预设了专业的心理支持角色模板,用户只需输入负面情绪表达,模型便会生成支持性回应。数据集支持中英双语输入,为不同语言背景的用户提供了便利。详细的训练数据将在相关论文发表后公开。
背景与挑战
背景概述
Crisp数据集由清华大学与Peppy团队于2025年联合发布,致力于推动人工智能在心理治疗领域的应用。该数据集聚焦于认知重构(Cognitive Restructuring, CR)这一心理治疗核心技术,旨在通过多轮支持性对话帮助个体识别并重构负面思维。传统CR治疗面临临床医师短缺和社会偏见等挑战,而现有技术方案多局限于单次文本改写或固定模式对话,难以真实模拟治疗过程。研究团队提出的CRDial框架创新性地整合了分阶段思维识别、多维度支持策略及迭代循环机制,并基于此构建了大规模双语对话数据集Crisp,为开发具有临床实用性的对话式大语言模型奠定了基础。
当前挑战
在解决心理治疗对话建模领域问题时,Crisp需应对三大核心挑战:首先,负面思维的多维性要求模型必须精准捕捉语言中的情感线索与认知扭曲模式;其次,治疗过程的动态性需要对话系统具备上下文感知与渐进式引导能力;最后,文化差异性使得双语数据集必须兼顾东西方思维表达特征。在数据构建层面,研究团队面临高质量治疗对话样本稀缺的困境,需通过专家知识引导的LLM蒸馏技术确保数据专业性,同时平衡支持性回应与用户隐私保护的伦理要求,并解决多轮对话中意图连贯性与治疗阶段过渡的自然性问题。
常用场景
经典使用场景
在心理健康领域,Crisp数据集通过多轮支持性对话实现了认知重构(CR)的临床实践模拟。该数据集最经典的使用场景是训练大型语言模型(LLM)进行心理治疗对话,特别是针对负面思维的识别与重构。研究者利用其包含的对话阶段划分、支持性策略集成和多通道循环机制,构建了能够模拟专业治疗师交互过程的智能系统,为认知行为疗法(CBT)的数字化应用提供了标准化研究范本。
解决学术问题
Crisp数据集有效解决了心理健康研究中三个关键问题:传统文本改写方法无法捕捉多轮对话的动态性、固定模式对话缺乏临床适应性,以及单次认知重构流程的局限性。通过CRDial框架生成的对话数据,首次实现了对心理治疗过程中思维识别与重构阶段的完整建模,为理解人机交互心理治疗的机制提供了数据基础,推动了对话式人工智能在临床心理学中的应用边界。
实际应用
该数据集支撑的实际应用已体现在Peppy在线聊天平台中,为存在情绪困扰的用户提供即时心理支持。其双语特性同时服务于中英文用户群体,在缓解临床心理医生短缺和降低求助门槛方面展现出社会价值。基于Crisp训练的14B参数模型能够识别'孤独感'、'兴趣丧失'等典型负面思维,并通过渐进式对话引导用户建立积极认知模式。
数据集最近研究
最新研究方向
在心理健康领域,认知重构(Cognitive Restructuring, CR)作为心理治疗的核心技术,正逐步与大型语言模型(LLM)相结合,以应对全球范围内心理医生短缺和患者病耻感等问题。Crisp数据集的推出标志着这一领域的重要进展,其通过多轮支持性对话实现认知重构,突破了传统文本改写或固定模式对话的局限。该数据集不仅构建了包含识别与重构阶段的精细化对话框架,还融入了句子级支持性对话策略和多通道循环机制,为迭代式认知重构提供了可能。基于Crisp训练的7B和14B规模对话模型已在Hugging Face平台发布,并支持在线聊天网站Peppy的实际应用。这一研究方向与当前心理健康服务的数字化转型趋势高度契合,为开发更具同理心和专业性的AI心理辅助工具奠定了基础,同时也为跨语言心理健康服务提供了新的技术路径。
以上内容由遇见数据集搜集并总结生成



