five

PsyQA|心理健康数据集|自然语言处理数据集

收藏
github2021-06-01 更新2025-02-08 收录
心理健康
自然语言处理
下载链接:
https://github.com/thu-coai/PsyQA
下载链接
链接失效反馈
资源简介:
PsyQA数据集是一个以问答形式呈现的中文心理健康数据集。它源自一个提供心理健康服务的中文平台,包含2.2万个问题和5.6万个答案。该数据集基于心理咨询理论构建问答内容,旨在评估模型生成与心理咨询相关的文本的能力。这一评估的目标是提高生成答案的流畅性和实用性。

The PsyQA dataset is a Chinese mental health dataset presented in the form of questions and answers. Originating from a Chinese platform that offers mental health services, it contains 22,000 questions and 56,000 answers. The dataset is constructed based on psychotherapy theories to evaluate the model's ability to generate text related to psychological counseling. The objective of this evaluation is to enhance the fluency and practicality of generated responses.
提供机构:
The CoAI group et al.
创建时间:
2021-06-01
原始信息汇总

PsyQA数据集概述

数据集简介

  • 中文心理健康支持问答数据集
  • 提供丰富的援助策略标注
  • 可用于生成富有援助策略的长咨询文本

数据集获取

  • 提供少量样例数据(PsyQA_example.json)
  • 完整数据集获取流程:
    1. 下载【PsyQA数据集使用用户协议】
    2. 阅读并同意相关规定
    3. 填写用户信息、授权时间
    4. 电子签名
    5. 将签署的协议(pdf格式)发送至邮箱:thu-sunhao@foxmail.com
    6. 审核通过后邮件发送完整数据集下载链接

相关论文

  • 标题:PsyQA: A Chinese Dataset for Generating Long Counseling Text for Mental Health Support
  • 会议:Findings of ACL 2021
  • arXiv链接:https://arxiv.org/abs/2106.01702

引用格式

bibtex @inproceedings{sun-etal-2021-psyqa, title = "PsyQA: A Chinese Dataset for Generating Long Counseling Text for Mental Health Support", author = "Sun, Hao and Lin, Zhenru and Zheng, Chujie and Liu, Siyang and Huang, Minlie", booktitle = "Findings of the Association for Computational Linguistics: ACL 2021", year = "2021", }

联系方式

  • 联系人:孙豪
  • 邮箱:thu-sunhao@foxmail.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
PsyQA数据集的构建基于中文心理健康支持问答的实际需求,通过收集和标注大量心理咨询对话,形成了一套系统化的援助策略标注体系。该数据集不仅包含了丰富的问答对,还特别注重援助策略的多样性和实用性,旨在为生成高质量的长咨询文本提供坚实的基础。构建过程中,研究人员严格遵循数据隐私和伦理规范,确保所有数据来源合法且符合道德标准。
特点
PsyQA数据集的特点在于其专注于中文心理健康支持领域,提供了多样化的援助策略标注,涵盖了从情感支持到具体行动建议的广泛内容。数据集中的问答对不仅内容丰富,而且结构清晰,能够有效支持生成连贯且富有策略性的长咨询文本。此外,数据集的标注质量高,确保了其在心理健康支持研究中的实用性和可靠性。
使用方法
PsyQA数据集的使用方法相对灵活,用户可以通过下载并签署用户协议获取完整数据集。数据集适用于多种自然语言处理任务,如文本生成、问答系统构建等。用户可以参考提供的训练和评测代码,快速上手并进行相关研究。在使用过程中,建议用户遵循数据集的引用规范,确保研究成果的透明性和可追溯性。
背景与挑战
背景概述
PsyQA数据集由清华大学的研究团队于2021年创建,旨在解决中文心理健康支持领域中的问答生成问题。该数据集由孙豪、林振儒、郑楚杰、刘思阳和黄民烈等研究人员共同开发,并在ACL 2021的Findings中发表。PsyQA提供了丰富的援助策略标注,能够用于生成具有援助策略的长咨询文本,为心理健康支持系统的开发提供了重要的数据基础。该数据集的发布不仅推动了中文自然语言处理领域的发展,还为心理健康领域的智能化支持系统提供了新的研究方向。
当前挑战
PsyQA数据集在解决心理健康支持问答生成问题时面临多重挑战。首先,心理健康领域的问答生成需要高度的情感理解和策略性回应,这对模型的语义理解和生成能力提出了极高的要求。其次,数据集的构建过程中,研究人员需要确保援助策略的多样性和准确性,这涉及到大量的专业知识和人工标注工作。此外,心理健康数据的敏感性也带来了隐私保护和数据安全的挑战,如何在保证数据质量的同时遵守相关法律法规,是数据集构建过程中不可忽视的问题。
常用场景
经典使用场景
PsyQA数据集在心理健康支持领域的研究中,主要用于生成具有援助策略的长咨询文本。研究者可以利用该数据集训练和评估自然语言生成模型,以模拟心理咨询师与求助者之间的对话,从而提供有效的心理支持和建议。
解决学术问题
PsyQA数据集解决了心理健康支持领域中的关键问题,即如何生成具有实际援助价值的咨询文本。通过提供丰富的援助策略标注,该数据集为研究者提供了高质量的训练数据,推动了基于生成模型的心理健康支持系统的开发,提升了模型的实用性和效果。
衍生相关工作
基于PsyQA数据集,研究者们开发了多种自然语言生成模型,如基于GPT-2的生成模型,用于模拟心理咨询对话。这些模型在心理健康支持领域取得了显著进展,衍生出多项经典工作,进一步推动了心理健康支持系统的智能化发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

olympics.csv

该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。

github 收录

MNLI

MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。

cims.nyu.edu 收录