dvilares/head_qa
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dvilares/head_qa
下载链接
链接失效反馈资源简介:
HEAD-QA是一个多选医疗问答数据集,问题来源于西班牙医疗系统的专业职位考试,这些问题即使对于高度专业化的人员也具有挑战性。数据集旨在为自然语言处理社区提供这些问题的访问权限,以帮助开发更好的问答系统。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的问题。数据集支持的任务是多选问答,数据以西班牙语和英语两种语言提供。数据集的结构包括问题、多个可能的答案、正确答案以及可选的图像。数据集被分为训练集、验证集和测试集,每个语言的数据集都有相应的划分。
提供机构:
dvilares
原始信息汇总
数据集概述
基本信息
- 数据集名称: HEAD-QA
- 语言: 英语 (en) 和 西班牙语 (es)
- 许可证: MIT
- 多语言性: 单语种
- 数据集大小: 1K<n<10K
- 源数据: 原始数据
- 任务类别: 问答 (question-answering)
- 任务ID: 多选题问答 (multiple-choice-qa)
- 论文ID: headqa
数据集结构
配置信息
-
es (西班牙语)
- 特征:
name: 字符串year: 字符串category: 字符串qid: 整数qtext: 字符串ra: 整数image: 图像answers: 列表aid: 整数atext: 字符串
- 分割:
train: 2657个样本, 1229678字节test: 2742个样本, 1204006字节validation: 1366个样本, 573354字节
- 下载大小: 79365502字节
- 数据集大小: 3007038字节
- 特征:
-
en (英语)
- 特征:
name: 字符串year: 字符串category: 字符串qid: 整数qtext: 字符串ra: 整数image: 图像answers: 列表aid: 整数atext: 字符串
- 分割:
train: 2657个样本, 1156808字节test: 2742个样本, 1131536字节validation: 1366个样本, 539892字节
- 下载大小: 79365502字节
- 数据集大小: 2828236字节
- 特征:
数据字段
qid: 问题标识符 (整数)category: 问题类别 (字符串)qtext: 问题文本 (字符串)answers: 可能答案列表 (每个元素包含aid和atext)ra: 正确答案的aid(整数)image: 图像 (可选)name: 考试名称 (字符串)year: 考试年份 (字符串)
数据分割
- 西班牙语:
train: 2657个样本validation: 1366个样本test: 2742个样本
- 英语:
train: 2657个样本validation: 1366个样本test: 2742个样本
搜集汇总
数据集介绍

构建方式
HEAD-QA数据集是通过收集西班牙卫生系统专业职位考试的题目构建而成的。这些题目由[Ministerio de Sanidad, Consumo y Bienestar Social](https://www.mscbs.gob.es/)设计,并由David Vilares和Carlos Gómez-Rodríguez创建。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的题目,旨在为自然语言处理社区提供复杂推理研究的多选题回答测试平台。数据集被分为训练集、验证集和测试集,并且有西班牙语和英语两种语言版本。
特点
HEAD-QA数据集的特点在于其题目难度高,即使是高度专业的医生也可能感到挑战。数据集包含的题目和答案是多选题形式,并且提供正确答案的标识。此外,数据集还包括了考试名称和年份等信息。HEAD-QA数据集旨在促进复杂推理研究,并提供一个基准来评估未来工作的性能。
使用方法
使用HEAD-QA数据集时,可以加载整个数据集或特定语言的版本。例如,可以使用以下代码加载西班牙语版本的数据集:python
from datasets import load_dataset
data_es = load_dataset('head_qa')加载英语版本的数据集可以使用以下代码:python
from datasets import load_dataset
data_en = load_dataset('head_qa', 'en')数据集中的每个数据点包括问题文本、多个可能的答案和正确答案的标识。此外,数据集还包含考试名称和年份等信息。使用数据集时,可以根据需要选择特定的数据字段进行操作。
背景与挑战
背景概述
在自然语言处理领域,问答系统的研究正日益受到关注。HEAD-QA数据集的创建,源于对复杂推理能力提升的需求。该数据集由David Vilares和Carlos Gómez-Rodríguez于2019年创建,旨在通过收集西班牙卫生系统中专业职位资格考试的问题,为研究提供挑战。这些题目甚至对高度专业的人类来说也具有挑战性,体现了数据集的深度和广度。HEAD-QA数据集包含关于医学、护理、心理学、化学、药理学和生物学等多个领域的问题,对于推动问答系统在复杂推理方面的研究具有重要意义。
当前挑战
HEAD-QA数据集面临的挑战包括:1) 所解决的领域问题——它旨在提升问答系统在复杂推理方面的能力,需要模型能够准确理解和回答专业领域的问题;2) 构建过程中所遇到的挑战——数据集的构建需要确保问题的准确性和多样性,同时还要保证答案的准确性。此外,数据集在多语言环境下的应用也面临挑战,需要确保翻译的准确性和一致性。
常用场景
经典使用场景
在自然语言处理领域,问答系统一直是研究的热点之一。HEAD-QA数据集作为多选题问答测试平台,旨在鼓励复杂推理研究。其问题源于西班牙医疗体系中专业职位的准入考试,对人类专家而言也颇具挑战性。该数据集支持多语言(西班牙语和英语),包含医学、护理学、心理学等多个领域的题目,为研究者提供了丰富的测试资源。
实际应用
在实际应用中,HEAD-QA数据集可用于训练和评估医疗领域的问答系统。随着医疗信息的日益丰富,这类系统能够帮助医生快速准确地获取相关信息,从而提高诊断和治疗的效率。此外,HEAD-QA数据集的多语言特性使其适用于跨国医疗机构的问答系统开发,促进医疗信息的国际交流。
衍生相关工作
基于HEAD-QA数据集,研究者开展了多项相关工作。例如,利用该数据集进行跨语言问答系统的训练和评估,以及探索信息检索和神经网络技术在复杂推理中的应用。这些工作不仅验证了HEAD-QA数据集的有效性,还为问答系统的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



