dvilares/head_qa
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dvilares/head_qa
下载链接
链接失效反馈官方服务:
资源简介:
HEAD-QA是一个多选医疗问答数据集,问题来源于西班牙医疗系统的专业职位考试,这些问题即使对于高度专业化的人员也具有挑战性。数据集旨在为自然语言处理社区提供这些问题的访问权限,以帮助开发更好的问答系统。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的问题。数据集支持的任务是多选问答,数据以西班牙语和英语两种语言提供。数据集的结构包括问题、多个可能的答案、正确答案以及可选的图像。数据集被分为训练集、验证集和测试集,每个语言的数据集都有相应的划分。
HEAD-QA is a multiple-choice medical question answering (QA) dataset. The questions are sourced from professional qualification examinations of the Spanish healthcare system, and they are challenging even for highly specialized professionals. This dataset aims to provide the natural language processing (NLP) community with access to these questions to aid the development of more advanced QA systems. The dataset covers questions from fields including medicine, nursing, psychology, chemistry, pharmacology, and biology. The task supported by this dataset is multiple-choice QA, and the data is available in both Spanish and English. The structure of the dataset includes questions, multiple candidate answers, the correct answer, and optional images. The dataset is split into training, validation, and test sets, with corresponding splits for each language.
提供机构:
dvilares
原始信息汇总
数据集概述
基本信息
- 数据集名称: HEAD-QA
- 语言: 英语 (en) 和 西班牙语 (es)
- 许可证: MIT
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 问答 (question-answering)
- 任务ID: 多选题问答 (multiple-choice-qa)
- 论文ID: headqa
数据集结构
配置信息
-
es (西班牙语)
- 特征:
name: 字符串year: 字符串category: 字符串qid: 整数qtext: 字符串ra: 整数image: 图像answers: 列表aid: 整数atext: 字符串
- 分割:
train: 2657个样本, 1229678字节test: 2742个样本, 1204006字节validation: 1366个样本, 573354字节
- 下载大小: 79365502字节
- 数据集大小: 3007038字节
- 特征:
-
en (英语)
- 特征:
name: 字符串year: 字符串category: 字符串qid: 整数qtext: 字符串ra: 整数image: 图像answers: 列表aid: 整数atext: 字符串
- 分割:
train: 2657个样本, 1156808字节test: 2742个样本, 1131536字节validation: 1366个样本, 539892字节
- 下载大小: 79365502字节
- 数据集大小: 2828236字节
- 特征:
数据字段
qid: 问题标识符 (整数)category: 问题类别 (字符串)qtext: 问题文本 (字符串)answers: 可能答案列表 (每个元素包含aid和atext)ra: 正确答案的aid(整数)image: 图像 (可选)name: 考试名称 (字符串)year: 考试年份 (字符串)
数据分割
- 西班牙语:
train: 2657个样本validation: 1366个样本test: 2742个样本
- 英语:
train: 2657个样本validation: 1366个样本test: 2742个样本
搜集汇总
数据集介绍

构建方式
HEAD-QA数据集是通过收集西班牙卫生系统专业职位考试的题目构建而成的。这些题目由[Ministerio de Sanidad, Consumo y Bienestar Social](https://www.mscbs.gob.es/)设计,并由David Vilares和Carlos Gómez-Rodríguez创建。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的题目,旨在为自然语言处理社区提供复杂推理研究的多选题回答测试平台。数据集被分为训练集、验证集和测试集,并且有西班牙语和英语两种语言版本。
特点
HEAD-QA数据集的特点在于其题目难度高,即使是高度专业的医生也可能感到挑战。数据集包含的题目和答案是多选题形式,并且提供正确答案的标识。此外,数据集还包括了考试名称和年份等信息。HEAD-QA数据集旨在促进复杂推理研究,并提供一个基准来评估未来工作的性能。
使用方法
使用HEAD-QA数据集时,可以加载整个数据集或特定语言的版本。例如,可以使用以下代码加载西班牙语版本的数据集:python
from datasets import load_dataset
data_es = load_dataset('head_qa')加载英语版本的数据集可以使用以下代码:python
from datasets import load_dataset
data_en = load_dataset('head_qa', 'en')数据集中的每个数据点包括问题文本、多个可能的答案和正确答案的标识。此外,数据集还包含考试名称和年份等信息。使用数据集时,可以根据需要选择特定的数据字段进行操作。
背景与挑战
背景概述
在自然语言处理领域,问答系统的研究正日益受到关注。HEAD-QA数据集的创建,源于对复杂推理能力提升的需求。该数据集由David Vilares和Carlos Gómez-Rodríguez于2019年创建,旨在通过收集西班牙卫生系统中专业职位资格考试的问题,为研究提供挑战。这些题目甚至对高度专业的人类来说也具有挑战性,体现了数据集的深度和广度。HEAD-QA数据集包含关于医学、护理、心理学、化学、药理学和生物学等多个领域的问题,对于推动问答系统在复杂推理方面的研究具有重要意义。
当前挑战
HEAD-QA数据集面临的挑战包括:1) 所解决的领域问题——它旨在提升问答系统在复杂推理方面的能力,需要模型能够准确理解和回答专业领域的问题;2) 构建过程中所遇到的挑战——数据集的构建需要确保问题的准确性和多样性,同时还要保证答案的准确性。此外,数据集在多语言环境下的应用也面临挑战,需要确保翻译的准确性和一致性。
常用场景
经典使用场景
在自然语言处理领域,问答系统一直是研究的热点之一。HEAD-QA数据集作为多选题问答测试平台,旨在鼓励复杂推理研究。其问题源于西班牙医疗体系中专业职位的准入考试,对人类专家而言也颇具挑战性。该数据集支持多语言(西班牙语和英语),包含医学、护理学、心理学等多个领域的题目,为研究者提供了丰富的测试资源。
实际应用
在实际应用中,HEAD-QA数据集可用于训练和评估医疗领域的问答系统。随着医疗信息的日益丰富,这类系统能够帮助医生快速准确地获取相关信息,从而提高诊断和治疗的效率。此外,HEAD-QA数据集的多语言特性使其适用于跨国医疗机构的问答系统开发,促进医疗信息的国际交流。
衍生相关工作
基于HEAD-QA数据集,研究者开展了多项相关工作。例如,利用该数据集进行跨语言问答系统的训练和评估,以及探索信息检索和神经网络技术在复杂推理中的应用。这些工作不仅验证了HEAD-QA数据集的有效性,还为问答系统的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



