five

Psy-Insight|心理健康数据集|自然语言处理数据集

收藏
arXiv2025-03-05 更新2025-03-07 收录
心理健康
自然语言处理
下载链接:
https://ckqqqq.github.io/Demo/Psy-Insight/
下载链接
链接失效反馈
资源简介:
Psy-Insight是一个面向心理健康的可解释多轮双语对话数据集。该数据集由北京邮电大学的研究团队构建,包含520个英文多轮咨询对话和431个中文对话。数据集标注了多任务标签和对话过程解释,适用于情感/心理治疗/策略分类、检索论证生成等NLP任务。数据集的构建目的是为了训练大型语言模型,使其能够模仿面对面的咨询风格,理解咨询背后的策略和推理过程。
提供机构:
北京邮电大学
创建时间:
2025-03-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
Psy-Insight数据集的构建始于从博客、书籍和网络爬取的面对面多轮咨询对话的收集。这些对话被标注为多任务标签和对话过程解释,包括心理治疗、情绪、策略和主题标签,以及回合级的推理和会话级的指导。为了确保对话的质量和真实性,数据集中的敏感信息被匿名化处理。此外,通过与心理治疗专家的协作,数据集的标注过程得到了严格的审核和验证,确保了标注的准确性和可靠性。
特点
Psy-Insight数据集的特点在于其多任务和多语言的支持。它包含了520个英文多轮咨询会话和431个中文会话,这些会话可以帮助大型语言模型(LLMs)模仿人类面对面的咨询风格。数据集的标注不仅包括简洁的多任务标签,如情绪、心理治疗方法、策略和主题,还包括描述性标注,如背景、指导、摘要和主题等,这些标注有助于LLMs理解咨询背后的分析和逻辑。Psy-Insight数据集的会话和标注是层次结构的,从案例到会话再到回合,这种结构有助于LLMs进行多任务学习和推理。
使用方法
使用Psy-Insight数据集的方法包括对大型语言模型进行微调和评估。微调过程可以通过将数据集中的标注信息(如对话、推理和观察)插入到LLMs的训练过程中来实现,从而引导模型首先生成客观观察,然后进行主观推理,最后产生响应。评估过程可以通过自动评估指标(如BertScore-P、BLEU、Meteor、RougeL和Distinct-2)和人工评估来完成。人工评估可以邀请心理健康专家和学生志愿者对LLMs生成的咨询对话进行评分,评估指标包括互动性、帮助性、舒适性和可解释性。通过这些方法,Psy-Insight数据集可以帮助研究人员和开发者训练出更加智能和人性化的心理健康支持LLMs。
背景与挑战
背景概述
Psy-Insight数据集是由北京邮电大学的研究团队创建的,旨在为大型语言模型(LLMs)在心理健康支持领域的应用提供数据支持。该数据集于2023年创建,由陈可奇、孙泽凯等主要研究人员共同完成。Psy-Insight数据集的核心研究问题是构建一个解释性的多任务双语数据集,以解决当前心理健康支持领域中数据集缺乏的问题,特别是中文数据集的缺失。Psy-Insight数据集的创建填补了这一空白,为LLMs在心理健康支持领域的应用提供了重要的数据资源,对相关领域产生了深远的影响。
当前挑战
Psy-Insight数据集面临的挑战主要包括:1) 所解决的领域问题:构建一个解释性的多任务双语数据集,以满足心理健康支持领域中LLMs的训练需求。2) 构建过程中所遇到的挑战:数据集的构建需要收集面对面的多轮咨询对话,并对其进行多任务标签和对话过程解释的标注。此外,数据集的构建还需要考虑隐私保护和伦理风险的问题。
常用场景
经典使用场景
Psy-Insight数据集主要用于训练大型语言模型(LLMs)以模拟人类心理健康咨询对话。该数据集包含面对面多轮咨询对话,并带有多任务标签和对话过程解释。这些对话被标注了心理治疗、情绪、策略和主题标签,以及轮次级别的推理和会话级别的指导。Psy-Insight数据集不仅适用于标签识别任务,还可以通过逻辑推理训练LLMs成为富有同情心的顾问。实验表明,在Psy-Insight上训练LLMs可以使模型不仅模仿对话风格,还能理解咨询背后的策略和推理。
解决学术问题
Psy-Insight数据集解决了在心理健康支持领域缺乏咨询数据集的问题,尤其是缺乏中文语料库。传统的心理健康支持数据集通常只包含简短的标签,用于单个任务的标注,例如情绪或实体标签,这些标签适用于传统流水线聊天机器人中的子任务,如情绪分类、命名实体识别和知识图谱补全。Psy-Insight数据集通过包含详细的推理注释,为LLMs提供了理解人类心理健康咨询复杂过程的机会,从而提高了LLMs在心理健康支持任务中的性能。
衍生相关工作
Psy-Insight数据集的衍生相关工作包括对心理健康支持LLMs的进一步研究和开发。这些研究可以基于Psy-Insight数据集,探索LLMs在心理健康支持任务中的更多潜力,例如情感聊天、心理治疗、策略编码等。此外,Psy-Insight数据集还可以用于跨文化心理学研究,因为该数据集是双语的,包含英语和中文的咨询对话,可以揭示不同文化背景下心理健康咨询的异同。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

World Development Indicators (WDI)

世界发展指标(World Development Indicators, WDI)是由世界银行发布的一个综合数据集,涵盖了全球200多个国家和地区的经济、社会和环境指标。数据集包括人口统计、教育、健康、经济、环境等多个领域的指标,旨在提供全球发展状况的全面视图。

databank.worldbank.org 收录

Telecom_Fraud_Texts_8

该数据集是一个八类欺诈数据集,仅供高校和科研机构在科学研究中使用,禁止用于任何商业目的。

github 收录