dvilares/head_qa

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/dvilares/head_qa

下载链接

链接失效反馈

资源简介：

HEAD-QA是一个多选医疗问答数据集，问题来源于西班牙医疗系统的专业职位考试，这些问题即使对于高度专业化的人员也具有挑战性。数据集旨在为自然语言处理社区提供这些问题的访问权限，以帮助开发更好的问答系统。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的问题。数据集支持的任务是多选问答，数据以西班牙语和英语两种语言提供。数据集的结构包括问题、多个可能的答案、正确答案以及可选的图像。数据集被分为训练集、验证集和测试集，每个语言的数据集都有相应的划分。

提供机构：

dvilares

原始信息汇总

数据集概述

基本信息

数据集名称: HEAD-QA
语言: 英语 (en) 和西班牙语 (es)
许可证: MIT
多语言性: 单语种
数据集大小: 1K<n<10K
源数据: 原始数据
任务类别: 问答 (question-answering)
任务ID: 多选题问答 (multiple-choice-qa)
论文ID: headqa

数据集结构

配置信息

es (西班牙语)
- 特征:
  - name: 字符串
  - year: 字符串
  - category: 字符串
  - qid: 整数
  - qtext: 字符串
  - ra: 整数
  - image: 图像
  - answers: 列表
    - aid: 整数
    - atext: 字符串
- 分割:
  - train: 2657个样本, 1229678字节
  - test: 2742个样本, 1204006字节
  - validation: 1366个样本, 573354字节
- 下载大小: 79365502字节
- 数据集大小: 3007038字节
en (英语)
- 特征:
  - name: 字符串
  - year: 字符串
  - category: 字符串
  - qid: 整数
  - qtext: 字符串
  - ra: 整数
  - image: 图像
  - answers: 列表
    - aid: 整数
    - atext: 字符串
- 分割:
  - train: 2657个样本, 1156808字节
  - test: 2742个样本, 1131536字节
  - validation: 1366个样本, 539892字节
- 下载大小: 79365502字节
- 数据集大小: 2828236字节

数据字段

qid: 问题标识符 (整数)
category: 问题类别 (字符串)
qtext: 问题文本 (字符串)
answers: 可能答案列表 (每个元素包含 aid 和 atext)
ra: 正确答案的 aid (整数)
image: 图像 (可选)
name: 考试名称 (字符串)
year: 考试年份 (字符串)

数据分割

西班牙语:
- train: 2657个样本
- validation: 1366个样本
- test: 2742个样本
英语:
- train: 2657个样本
- validation: 1366个样本
- test: 2742个样本

搜集汇总

数据集介绍

构建方式

HEAD-QA数据集是通过收集西班牙卫生系统专业职位考试的题目构建而成的。这些题目由[Ministerio de Sanidad, Consumo y Bienestar Social](https://www.mscbs.gob.es/)设计，并由David Vilares和Carlos Gómez-Rodríguez创建。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的题目，旨在为自然语言处理社区提供复杂推理研究的多选题回答测试平台。数据集被分为训练集、验证集和测试集，并且有西班牙语和英语两种语言版本。

特点

HEAD-QA数据集的特点在于其题目难度高，即使是高度专业的医生也可能感到挑战。数据集包含的题目和答案是多选题形式，并且提供正确答案的标识。此外，数据集还包括了考试名称和年份等信息。HEAD-QA数据集旨在促进复杂推理研究，并提供一个基准来评估未来工作的性能。

使用方法

使用HEAD-QA数据集时，可以加载整个数据集或特定语言的版本。例如，可以使用以下代码加载西班牙语版本的数据集：python from datasets import load_dataset data_es = load_dataset('head_qa')加载英语版本的数据集可以使用以下代码：python from datasets import load_dataset data_en = load_dataset('head_qa', 'en')数据集中的每个数据点包括问题文本、多个可能的答案和正确答案的标识。此外，数据集还包含考试名称和年份等信息。使用数据集时，可以根据需要选择特定的数据字段进行操作。

背景与挑战

背景概述

在自然语言处理领域，问答系统的研究正日益受到关注。HEAD-QA数据集的创建，源于对复杂推理能力提升的需求。该数据集由David Vilares和Carlos Gómez-Rodríguez于2019年创建，旨在通过收集西班牙卫生系统中专业职位资格考试的问题，为研究提供挑战。这些题目甚至对高度专业的人类来说也具有挑战性，体现了数据集的深度和广度。HEAD-QA数据集包含关于医学、护理、心理学、化学、药理学和生物学等多个领域的问题，对于推动问答系统在复杂推理方面的研究具有重要意义。

当前挑战

HEAD-QA数据集面临的挑战包括：1) 所解决的领域问题——它旨在提升问答系统在复杂推理方面的能力，需要模型能够准确理解和回答专业领域的问题；2) 构建过程中所遇到的挑战——数据集的构建需要确保问题的准确性和多样性，同时还要保证答案的准确性。此外，数据集在多语言环境下的应用也面临挑战，需要确保翻译的准确性和一致性。

常用场景

经典使用场景

在自然语言处理领域，问答系统一直是研究的热点之一。HEAD-QA数据集作为多选题问答测试平台，旨在鼓励复杂推理研究。其问题源于西班牙医疗体系中专业职位的准入考试，对人类专家而言也颇具挑战性。该数据集支持多语言（西班牙语和英语），包含医学、护理学、心理学等多个领域的题目，为研究者提供了丰富的测试资源。

实际应用

在实际应用中，HEAD-QA数据集可用于训练和评估医疗领域的问答系统。随着医疗信息的日益丰富，这类系统能够帮助医生快速准确地获取相关信息，从而提高诊断和治疗的效率。此外，HEAD-QA数据集的多语言特性使其适用于跨国医疗机构的问答系统开发，促进医疗信息的国际交流。

衍生相关工作

基于HEAD-QA数据集，研究者开展了多项相关工作。例如，利用该数据集进行跨语言问答系统的训练和评估，以及探索信息检索和神经网络技术在复杂推理中的应用。这些工作不仅验证了HEAD-QA数据集的有效性，还为问答系统的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集