MHQA (Mental Health Question Answering)

Name: MHQA (Mental Health Question Answering)
Creator: 印度理工学院孟买分校
Published: 2025-02-21 20:37:58
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

https://github.com/joshiprashanthd/mhqa

下载链接

链接失效反馈

官方服务：

资源简介：

MHQA数据集是由印度理工学院孟买分校的研究团队创建的，包含约2,475个经过专家验证的黄金标准问题答案对（MHQA-gold）和约56.1k个伪标记的问答对（MHQA-B）。该数据集基于PubMed研究文章摘要，涵盖了焦虑、抑郁、创伤和强迫症四个关键领域，问题类型包括事实性、诊断性、预后性和预防性。数据集旨在为语言模型提供全面的训练和评估资源，以应对心理健康领域的问题回答挑战。

The MHQA dataset was created by a research team from the Indian Institute of Technology Bombay. It contains approximately 2,475 expert-validated gold standard question-answer pairs (MHQA-gold) and around 56.1k pseudo-labeled question-answer pairs (MHQA-B). Based on PubMed research article abstracts, this dataset covers four key domains: anxiety, depression, trauma, and obsessive-compulsive disorder (OCD). The question types include factual, diagnostic, prognostic, and preventive ones. The dataset aims to provide comprehensive training and evaluation resources for language models to address question answering challenges in the mental health domain.

提供机构：

印度理工学院孟买分校

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

MHQA数据集的构建方式是通过从PubMed摘要中提取科学知识，并利用GPT-4o-mini语言模型生成问题-答案对。首先，从2000年到2024年期间收集了大约471,000篇摘要，然后根据特定的选择标准，使用LLM从摘要中识别相关信息，并将其转换为问题-答案对。此外，通过事后验证标准进一步筛选出有效的QA对。最终，MHQA数据集包含了2,475个由专家验证的黄金标准实例（称为MHQA-gold）和约56,100个基于外部医学参考的伪标签对。

特点

MHQA数据集具有以下特点：1）约58.6k个问题-答案对，每个问题有四个选项和一个正确答案；2）一个包含2,475个由人类注释和专家验证的QA对的子集，称为MHQA-Gold；3）问题涵盖四个与心理健康相关的领域：焦虑、抑郁、创伤和强迫症；4）问题类型包括事实型、诊断型、预后型和预防型。这些特点使得MHQA数据集成为评估语言模型在心理健康问答方面性能的强大工具。

使用方法

使用MHQA数据集时，可以将其分为两个部分：MHQA-Gold和MHQA-B。MHQA-Gold包含2,475个由专家验证的QA对，可用于评估不同语言模型在心理健康问答方面的性能。而MHQA-B包含约56,100个伪标签对，可用于对语言模型进行微调和进一步分析。用户可以根据需要选择合适的部分进行实验和分析。

背景与挑战

背景概述

心理健康问题在全球范围内仍然是一个具有挑战性的问题，诸如抑郁症、焦虑症等问题日益普遍。大型语言模型（LLMs）在医疗保健领域，特别是在回答医学问题方面，已经看到了广泛的应用。然而，对于心理健康领域的问答（QA），缺乏标准化的基准数据集。我们的工作提出了一个新颖的多项选择题数据集MHQA（心理健康问答），用于基准测试语言模型（LMs）。以前的心理健康数据集主要集中在将文本分类到特定的标签或疾病中。而MHQA则专注于四个关键领域：焦虑、抑郁、创伤和强迫症，并具有多种问题类型，包括事实、诊断、预后和预防。我们使用PubMed摘要作为QA的主要来源。我们开发了一个严格的基于LLM的从摘要中识别信息的过程，基于各种选择标准并将其转换为QA对。此外，根据事后验证标准提取有效的QA对。总体而言，我们的MHQA数据集由2,475个经过专家验证的金标准实例组成，称为MHQA-gold，以及使用外部医学参考进行伪标记的约56.1k对。

当前挑战

MHQA数据集面临的主要挑战包括：1) 领域问题的挑战：虽然MHQA旨在解决心理健康领域的问题，但构建一个能够全面评估语言模型的能力的数据集仍然具有挑战性。MHQA数据集包括四种类型的问题，需要模型具备较强的领域知识和推理能力。2) 构建过程中的挑战：构建MHQA数据集过程中，需要从大量的PubMed摘要中提取信息，并将其转换为QA对。此外，为了保证数据质量，还需要进行事后过滤和验证，以确保问题的有效性和可答性。

常用场景

经典使用场景

MHQA 数据集主要被用于评估语言模型在精神健康问答任务中的性能。该数据集包含了围绕焦虑、抑郁、创伤和强迫/强迫症等四个主要精神健康领域的多种类型问题，包括事实、诊断、预后和预防。这些问题是基于 PubMed 摘要生成的，旨在测试模型的知识和推理能力。

解决学术问题

MHQA 数据集解决了精神健康领域问答任务的评估问题。在之前，尽管存在一些针对一般医学问答任务的评估数据集，但缺乏专门针对精神健康领域的问答数据集。MHQA 数据集填补了这一空白，提供了大量针对精神健康领域的问题，使得研究人员可以更全面地评估语言模型在精神健康领域的问答能力。

衍生相关工作

MHQA 数据集的发布促进了相关领域的研究。例如，研究人员可以使用 MHQA 数据集来评估和比较不同语言模型在精神健康问答任务中的性能。此外，MHQA 数据集还可以作为基准数据集，用于开发新的语言模型和问答系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集