HEAD-QA v2

Name: HEAD-QA v2
Creator: 拉科鲁尼亚大学
Published: 2025-11-19 19:31:32
License: 暂无描述

arXiv2025-11-19 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/alesi12/head_qa_v2

下载链接

链接失效反馈

官方服务：

资源简介：

HEAD-QA v2是由拉科鲁尼亚大学构建的医疗推理多选问答基准数据集，涵盖西班牙六类专业资格考试的十年真题。该数据集包含12,751道高质量题目，涵盖医学、护理等六大专业领域，数据源自西班牙卫生部公开的官方考试资料。创建过程通过PDF解析、图像映射和化学公式标准化等预处理流程，确保数据格式统一与机器可读性。该数据集主要应用于评估大语言模型在生物医学领域的推理能力，旨在解决专业领域知识理解与复杂诊断推理的基准测评难题。

HEAD-QA v2 is a medical reasoning multiple-choice question answering benchmark dataset developed by the University of A Coruña. It covers ten-year official real questions from six types of professional qualification examinations in Spain, containing 12,751 high-quality questions spanning six professional fields including medicine and nursing. The dataset's data is sourced from official examination materials publicly released by the Spanish Ministry of Health. During the dataset construction, preprocessing pipelines including PDF parsing, image mapping, and chemical formula standardization were implemented to ensure uniform data formatting and machine readability. This benchmark is primarily designed to evaluate the reasoning capabilities of Large Language Models (LLMs) in the biomedical domain, aiming to tackle the challenges of benchmark evaluation for professional domain knowledge comprehension and complex diagnostic reasoning.

提供机构：

拉科鲁尼亚大学

创建时间：

2025-11-19

原始信息汇总

HEAD-QA V2 数据集概述

数据集基本信息

名称：HEAD-QA V2
许可证：MIT
规模类别：10K<n<100K
任务类别：多项选择、视觉问答
标签：生物学、化学、医学

语言支持

西班牙语 (es)
英语 (en)
加利西亚语 (gl)
意大利语 (it)
俄语 (ru)

数据集配置

英语配置 (en)

训练集样本数：12,751
下载大小：91,401,201 字节
数据集大小：105,722,025.276 字节

西班牙语配置 (es)

训练集样本数：12,751
下载大小：91,554,296 字节
数据集大小：106,107,706.276 字节

加利西亚语配置 (gl)

训练集样本数：12,751
下载大小：91,537,229 字节
数据集大小：105,914,317.276 字节

意大利语配置 (it)

训练集样本数：12,751
下载大小：91,569,865 字节
数据集大小：106,015,685.276 字节

俄语配置 (ru)

训练集样本数：12,751
下载大小：92,665,553 字节
数据集大小：109,395,800.276 字节

数据特征

所有配置包含以下特征：

qid：问题ID（int32）
qtext：问题文本（string）
ra：正确答案索引（int32）
answers：答案列表
- aid：答案ID（int32）
- atext：答案文本（string）
year：年份（int32）
category：类别（string）
name：名称（string）
image：图像（image）

数据集描述

HEAD-QA v2是HEAD-QA数据集的更新版本，是一个多选医疗数据集。问题来源于西班牙医疗系统专业职位考试的试题，即使对高度专业的人员也具有挑战性。

涵盖主题

医学
护理学
心理学
化学
药理学
生物学

扩展内容

HEAD-QA V2通过使用meta-llama/Llama-3.1-8B-Instruct模型进行多语言翻译，在原始数据集基础上进行了扩展。

引用信息

原始版本论文引用：

@inproceedings{vilares-gomez-rodriguez-2019-head, title = "{HEAD}-{QA}: A Healthcare Dataset for Complex Reasoning", author = "Vilares, David and G{o}mez-Rodr{i}guez, Carlos", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P19-1092", doi = "10.18653/v1/P19-1092", pages = "960--966" }

搜集汇总

数据集介绍

构建方式

HEAD-QA v2的构建基于西班牙卫生部发布的官方专业资格考试资料，涵盖医学、护理学等六个学科领域。数据预处理流程包含PDF文本转换、图像映射、问题筛选及化学式标准化等关键步骤，通过将化学结构转换为SMILES表示法确保文本模型的可处理性。最终以Parquet格式存储的12,751道题目均经过严格的格式验证，每个条目包含问题文本、选项编号、正确答案标识及学科分类等八个结构化字段。

特点

该数据集显著特征体现在其跨学科与跨时间维度的完整性，覆盖2013至2022十年间六大医疗专业领域的考试内容。题目设计深度模拟真实医疗场景中的诊断推理过程，其中医学与护理类问题普遍具有更丰富的上下文细节。数据集提供西班牙语原版及通过大语言模型生成的英语、意大利语等多语言版本，并通过回译评估验证了翻译质量与语义一致性，为跨语言医疗推理研究提供坚实基础。

使用方法

研究实践表明该数据集适用于多种推理策略的评估，包括零样本提示、少样本学习及思维链提示等基础方法，同时支持检索增强生成与基于概率的答案选择等进阶技术。在具体实施时，模型需将问题与选项整合为单一文本序列进行处理，并以标准化JSON格式输出答案编号。值得注意的是，实验结果显示模型规模对性能的影响远大于推理策略的复杂性，这为优化医疗领域大语言模型的评估范式提供了重要参考。

背景与挑战

背景概述

HEAD-QA v2数据集由西班牙拉科鲁尼亚大学研究团队于2025年发布，作为2019年HEAD-QA数据集的扩展版本，专门设计用于评估医疗领域复杂推理能力。该数据集基于西班牙卫生部发布的专业资格考试构建，涵盖医学、护理学等六个学科，包含超过1.2万道多选题，旨在解决早期阅读理解数据集在专业领域推理能力评估上的不足。其创新性在于通过真实考试题目捕捉医疗推理的语言与概念复杂性，已成为评估RMKV、Falcon等前沿模型的重要基准，并推动了多语言医疗问答研究的发展。

当前挑战

该数据集核心挑战在于医疗领域专业推理的高复杂性，要求模型精准理解医学术语与诊断逻辑，而传统神经网络架构对此表现不佳。构建过程中面临多重挑战：原始考试数据需从PDF格式提取并保持双栏结构完整性，化学公式需转换为SMILES标准化表示；图像关联问题需通过自动映射实现文本-图像对齐；多语言版本创建需克服专业术语的翻译一致性难题，并通过回译评估确保语义保真度。

常用场景

经典使用场景

在医疗人工智能领域，HEAD-QA v2作为西班牙语/英语双语医疗推理基准数据集，其经典应用场景聚焦于评估大型语言模型在复杂医学知识推理中的表现。该数据集通过模拟西班牙专业资格考试的多选题形式，系统检验模型对医学生物学概念的深度理解能力，尤其在诊断推理和跨学科知识整合方面展现出独特价值。

实际应用

在现实医疗教育场景中，HEAD-QA v2可作为智能辅导系统的核心评估工具。其试题结构直接对应医师资格认证标准，能够有效检验AI系统在辅助医学培训、模拟临床决策等方面的实用性。多语言版本更支持跨国医疗机构的标准化评估，为开发适应不同语言环境的医疗问答系统提供了关键数据支撑。

衍生相关工作

该数据集已催生系列重要研究，包括RMKV、Falcon等架构的医疗领域适应性评估，以及OLMo模型的多语言能力验证。其设计理念启发了中文CMeQA、法语FrenchMedMCQA等同类基准的构建，形成跨语种医疗推理研究的协同发展。近期研究更聚焦于检索增强生成技术在医学问答中的优化，持续推动医疗AI的技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集