lsy641/PsyQA|心理学问答数据集|自然语言处理数据集

hugging_face2023-10-23 更新2024-03-04 收录

心理学问答

自然语言处理

下载链接：

https://hf-mirror.com/datasets/lsy641/PsyQA

下载链接

链接失效反馈

资源简介：

该数据集最初来源于Sun et al, 2021的研究，随后由Liu et al, 2023通过HuggingFace API进行了处理，并划分为训练集、验证集和测试集。数据集主要用于心理健康支持领域的长文本生成任务。

提供机构：

lsy641

原始信息汇总

数据集概述

数据来源

原始数据来源于Sun et al, 2021的研究。

数据处理

Liu et al, 2023对数据进行了处理，通过Hugging Face API将其转换为一个包含训练、验证和测试集的数据集。

引用信息

引用Liu et al, 2023的研究时，应使用以下引用格式：

@misc{liu2023enhancing, title={Enhancing Long-form Text Generation in Mental Health with Task-adaptive Tokenization}, author={Siyang Liu and Naihao Deng and Sahand Sabour and Yilin Jia and Minlie Huang and Rada Mihalcea}, year={2023}, eprint={2310.05317}, archivePrefix={arXiv}, primaryClass={cs.CL} }
引用Sun et al, 2021的研究时，应使用以下引用格式：

@inproceedings{sun2021psyqa, title={PsyQA: A Chinese Dataset for Generating Long Counseling Text for Mental Health Support}, author={Sun, Hao and Lin, Zhenru and Zheng, Chujie and Liu, Siyang and Huang, Minlie}, booktitle={Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021}, pages={1489--1503}, year={2021} }

许可证

数据集遵循MIT许可证。

AI搜集汇总

数据集介绍

构建方式

PsyQA数据集的构建基于Sun等人（2021）的研究成果，旨在为心理健康支持领域提供一个中文长篇咨询文本生成数据集。Liu等人（2023）在此基础上进行了进一步处理，通过HuggingFace API实现了数据集的训练、验证和测试集的划分，使其更适用于现代自然语言处理任务。

特点

PsyQA数据集的显著特点在于其专注于心理健康领域的长篇咨询文本生成，涵盖了丰富的情感和心理支持内容。该数据集不仅支持中文语言处理，还通过任务自适应的标记化方法，增强了模型在处理复杂心理咨询文本时的表现。

使用方法

PsyQA数据集可通过HuggingFace平台进行访问和使用，用户可以利用该数据集进行心理健康支持相关的文本生成模型的训练和评估。使用时，建议遵循数据集的MIT许可协议，并引用Liu等人（2023）和Sun等人（2021）的相关文献以确保学术诚信。

背景与挑战

背景概述

PsyQA数据集源自Sun等人于2021年创建，旨在为心理健康支持领域提供一个中文长篇咨询文本生成数据集。该数据集由清华大学和密歇根大学的研究人员共同开发，核心研究问题聚焦于如何通过自然语言处理技术生成高质量的心理咨询文本，以支持心理健康服务。Liu等人于2023年进一步处理了该数据，使其适应HuggingFace API，并进行了训练、验证和测试集的划分。PsyQA的推出对心理健康领域的自然语言处理研究具有重要意义，为模型提供了丰富的语料库，有助于提升心理咨询文本生成的质量和效率。

当前挑战

PsyQA数据集在构建过程中面临多项挑战。首先，心理健康领域的文本生成需要高度敏感性和专业性，确保生成的内容不仅语法正确，还需符合心理咨询的专业标准。其次，数据集的构建涉及大量真实的心理咨询对话，如何确保数据的隐私和伦理合规性是一个重要挑战。此外，长篇文本生成的任务本身具有复杂性，如何在保持文本连贯性和信息丰富性的同时，避免生成冗长或无关的内容，也是该数据集面临的技术难题。

常用场景

经典使用场景

PsyQA数据集在心理健康支持领域中具有经典应用，主要用于生成长篇心理咨询文本。通过该数据集，研究者能够训练模型以模拟心理咨询师的语言风格，从而为需要心理支持的用户提供更为自然和专业的对话体验。

实际应用

在实际应用中，PsyQA数据集被用于开发心理健康聊天机器人，这些机器人能够为需要心理支持的用户提供24/7的在线服务。通过模拟专业心理咨询师的对话风格，这些应用在提高用户心理健康水平方面显示出显著潜力。

衍生相关工作

基于PsyQA数据集，研究者们开发了多种心理健康支持模型，包括改进的文本生成算法和任务自适应的标记化技术。这些工作不仅提升了文本生成的质量，还为心理健康领域的自动化支持系统提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

中国区域环境数据库

该数据集包含中国各区域的环境数据，涵盖空气质量、水质、土壤污染等多个方面的指标。数据以时间序列的形式记录，便于进行长期的环境变化分析。

www.mee.gov.cn 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Club Football Match Data (2000 - 2025)

该数据集提供了一个简单的入口，用于分析全球27个国家和42个联赛的足球比赛数据，包括英超、德甲和西甲等顶级联赛。数据涵盖了从2000/01赛季到2024/25赛季的最新比赛结果。数据集还包括Elo评分，每月的1号和15号对欧洲约500支最佳球队进行快照。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录