five

cactus-instruction-template|心理咨询服务数据集|对话模型数据集

收藏
huggingface2025-04-24 更新2025-04-25 收录
心理咨询服务
对话模型
下载链接:
https://huggingface.co/datasets/Mariam23232/cactus-instruction-template
下载链接
链接失效反馈
资源简介:
该数据集是一个用于心理咨询服务对话的文本数据集,基于认知行为理论,对话提示被重新格式化为指令模板格式。数据集包含了训练集和测试集,适用于构建和评估心理咨询服务对话模型。
创建时间:
2025-04-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
在心理咨询对话领域,cactus-instruction-template数据集基于认知行为理论框架构建,通过对原始cactus数据集进行结构化重构而成。研究者采用指令模板格式重新组织了训练提示,删除了部分冗余数据并进行了细微调整,使数据更符合心理治疗对话的指导性特征。该过程严格遵循了原始论文《Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory》提出的方法论,确保了数据转换的学术严谨性。
特点
作为心理咨询领域的专业数据集,其核心优势在于融合了认知行为疗法的理论基础与实用对话模板。数据集包含56,166条训练样本和6,240条测试样本,每条数据均包含文本内容和长度标记两个特征维度。文本字段采用字符串格式存储对话内容,长度字段则以序列化的int64类型记录文本结构信息,这种双特征设计为模型训练提供了更丰富的语义线索。
使用方法
该数据集特别适合用于开发基于认知行为疗法的心理咨询对话系统。使用者可通过HuggingFace平台直接获取经过标准化处理的数据文件,其中训练集和测试集已预先分割。研究人员可以加载这些数据来微调大型语言模型,或构建专门的对话生成系统。值得注意的是,使用时应参考原始论文中的实验设计,以充分发挥数据集在心理治疗对话建模方面的独特价值。
背景与挑战
背景概述
Cactus-instruction-template数据集源于2024年由LangAGI-Lab团队主导的心理咨询对话研究项目,其核心目标是将认知行为疗法(CBT)理论框架转化为结构化指令模板。该数据集基于《Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory》论文提出的原始对话语料,通过重构训练提示模板,为人工智能辅助心理咨询系统提供标准化输入输出范式。作为心理咨询与自然语言处理交叉领域的重要资源,该数据集推动了基于认知行为疗法的对话系统在情绪识别、认知重构等关键任务上的可解释性研究。
当前挑战
数据集构建面临双重挑战:在领域问题层面,心理咨询对话需要精准捕捉非结构化情绪表达与认知行为模式之间的复杂映射关系,这对指令模板的语义覆盖范围和心理学专业性提出极高要求;在技术实现层面,原始对话数据涉及敏感隐私信息,需在保持治疗有效性的前提下完成严格的匿名化处理,同时平衡认知行为疗法术语体系与自然语言表达之间的转换一致性。数据重构过程中还需解决多轮对话的指令连贯性维护,以及治疗阶段标记与对话行为对齐等技术难题。
常用场景
经典使用场景
在心理健康领域,cactus-instruction-template数据集为基于认知行为理论的心理咨询对话系统提供了标准化的指令模板。该数据集通过结构化文本和长度标注,支持研究者构建能够模拟专业心理咨询师对话流程的AI模型,特别适用于需要遵循特定治疗框架的对话场景。
实际应用
在实际应用中,该数据集支撑的心理对话系统已用于辅助心理咨询师开展认知行为治疗,通过标准化的对话流程确保治疗规范性。同时为心理健康类聊天机器人提供核心对话逻辑,在保证专业性的前提下实现7×24小时的心理支持服务。
衍生相关工作
基于该数据集衍生的经典工作包括LangAGI-Lab开发的认知行为治疗对话系统,以及多项关于治疗性对话自动评估的研究。这些工作进一步细化了心理咨询对话的评估维度,推动了心理健康领域自然语言处理技术的标准化进程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录