CRISP

Name: CRISP
Creator: 清华大学
Published: 2025-04-24 12:22:00
License: 暂无描述

arXiv2025-04-24 更新2025-04-26 收录

下载链接：

https://github.com/thu-coai/Crisp

下载链接

链接失效反馈

官方服务：

资源简介：

CRISP数据集是由清华大学CoAI Group的团队创建的，它是一个大规模的双语对话数据集，包含22,000个对话，旨在模拟认知重整过程。该数据集通过多阶段多轮对话支持，设计了认知理论指导下的负面想法识别和辩护律师技术驱动的负面想法重整阶段，以帮助个体将负面想法转化为更有帮助和积极的想法。数据集的创建过程严格把控了质量、安全和专业性，为训练基于CRISP的对话LLMs提供了基础。

The CRISP dataset was developed by the team from CoAI Group at Tsinghua University. It is a large-scale bilingual dialogue dataset containing 22,000 dialogues, designed to simulate the cognitive restructuring process. Supporting multi-stage and multi-turn conversations, the dataset incorporates two phases guided by cognitive theory: negative thought identification and negative thought restructuring driven by defense attorney techniques, aiming to help individuals transform negative thoughts into more helpful and positive ones. The dataset's creation process strictly controls quality, safety and professionalism, providing a foundational basis for training conversational LLMs based on CRISP.

提供机构：

清华大学

创建时间：

2025-04-24

原始信息汇总

Crisp数据集概述

数据集简介

名称: Crisp (Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues)
类型: 双语(中英文)心理治疗对话数据集
用途: 用于训练支持认知重构(CR)的对话模型
特点:
- 基于CRDial框架构建
- 包含专门设计的负面思维识别和重构阶段
- 整合句子级支持性对话策略
- 采用多通道循环机制实现迭代式认知重构

技术细节

生成方式: 从大语言模型(LLM)蒸馏生成
规模: 大规模高质量双语数据集
相关模型:
- Crispers-7B-v1
- Crispers-14B-v1

应用场景

人机交互心理治疗
情感支持和专业指导
促进用户情感健康和积极成长

使用方式

推理: 支持通过transformers库调用预训练模型
训练数据: 将在论文发表后提供

引用格式

bibtex @article{crisp, title={Crisp: Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues}, author={Jinfeng Zhou and Yuxuan Chen and Jianing Yin and Yongkang Huang and Yihan Shi and Xikun Zhang and Libiao Peng and Rongsheng Zhang and Tangjie Lv and Zhipeng Hu and Hongning Wang and Minlie Huang}, year={2025}, eprint={2504.17238}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.17238}, }

联系方式

邮箱: zjf23@mails.tsinghua.edu.cn

搜集汇总

数据集介绍

构建方式

CRISP数据集通过CRDIAL框架从GPT-4o中蒸馏得到，该框架模拟了多阶段多轮支持性对话中的认知重构过程。数据集的构建始于从心理健康服务平台收集的真实求助情境，经过严格的敏感信息过滤后，由GPT-4o生成多轮对话。对话包含认知理论引导的消极思维识别和辩护律师技术驱动的思维重构两个关键阶段，并采用多通道循环机制以适应个体差异。为确保质量，数据集经过基础过滤、安全过滤和专家过滤三层质量控制流程，最终保留22,063个高质量双语对话。

特点

CRISP作为首个面向认知重构的大规模双语对话数据集，具有三个显著特征：1）细粒度的策略标注体系，每个治疗师响应均包含句子级支持策略标注（5大类8子类）；2）丰富的认知扭曲类型覆盖，包含15类认知扭曲标签（如灾难化、全或无思维等），平均每个对话涉及2.28次循环重构；3）情境多样性，涵盖10个主要类别54个子类别的心理健康情境，词汇多样性指标（MTLD=70.51）显著高于同类数据集。

使用方法

使用CRISP数据集时，建议遵循三步流程：1）预处理阶段需加载对话的JSON结构数据，重点关注'stage'字段区分的识别/重构阶段标签；2）模型训练时可利用'support_strategy'和'cognitive_distortion'字段进行多任务学习，其中策略标注适用于句子级生成控制，认知扭曲标签可用于多通道注意力机制；3）评估时应采用点对点和成对交互评估相结合的方式，参照数据集提供的六个专业标准（敏感性、特异性等）。对于心理干预研究，可特别关注重构阶段产生的积极思维转变案例。

背景与挑战

背景概述

CRISP（Cognitive Restructuring of Negative Thoughts through Multi-turn Supportive Dialogues）是由清华大学CoAI团队于2025年提出的双语心理治疗对话数据集，旨在通过多轮支持性对话实现认知重构。该数据集基于CRDIAL框架构建，整合了认知行为疗法中的认知理论和辩护律师技术，包含22k条中英文对话，覆盖10大类54小类心理健康情境。作为首个融合认知重构与情感支持的大规模对话数据集，CRISP通过精细的句子级策略标注和多通道循环机制，为基于大语言模型的心理治疗研究提供了重要资源。

当前挑战

CRISP面临的核心挑战体现在两个方面：在领域问题层面，认知重构需要解决认知持久性（个体难以自我觉察消极思维）、情绪管理（重构过程易引发抵抗情绪）和个体差异（不同认知风格导致思维模式多样化）三大难题；在构建过程中，需克服多阶段对话连贯性维护、认知扭曲精准识别、以及专业性与安全性平衡等困难。数据集通过分阶段对话设计、法庭类比重构技术和三级质量过滤机制（基础过滤/安全过滤/专家过滤）应对这些挑战，但个体认知模式的复杂性和心理干预的伦理风险仍是持续研究的重点。

常用场景

经典使用场景

CRISP数据集在心理学和人工智能交叉领域的研究中具有广泛的应用价值。该数据集通过模拟多轮支持性对话，专门用于认知重构（Cognitive Restructuring, CR）的研究。其经典使用场景包括训练和评估基于大语言模型的心理治疗对话系统，这些系统能够识别和重构用户的负面思维模式。CRISP数据集的多阶段对话设计（包括负面思维的识别和重构阶段）使其成为研究人类-机器交互心理治疗的理想工具，尤其在模拟专业治疗师的渐进式引导过程方面表现出色。

实际应用

在实际应用层面，CRISP数据集支持开发智能心理治疗助手，这些系统可缓解临床治疗师短缺问题并降低寻求帮助的社会 stigma。基于该数据集训练的模型（如CRISPERS）已展现出在家庭、教育等常见场景中提供有效认知重构干预的潜力。其应用场景还包括：在线心理健康平台的自动咨询服务、认知行为治疗的辅助工具、以及心理健康教育中的模拟训练系统。特别是在压力管理、人际关系困扰等常见心理挑战中，这类系统能够提供即时、可及的专业级心理支持。

衍生相关工作

CRISP数据集已衍生出多个重要研究方向和相关工作。最直接的是基于该数据集训练的CRISPERS系列对话模型，包括7B和14B参数规模的版本。这些模型在点对点和成对评估中展现出优于教师模型的性能。在方法论层面，该数据集推动了CRDIAL框架的发展，该框架的创新设计（如多阶段对话流程、支持性策略方案等）已被后续研究广泛借鉴。此外，相关工作还拓展到跨文化心理治疗研究、认知扭曲的自动检测算法开发，以及多模态心理治疗系统的构建等领域，显著推进了LLM辅助心理治疗的研究进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集