HPAI-BSC/CareQA

Name: HPAI-BSC/CareQA
Creator: HPAI-BSC
Published: 2025-05-21 08:01:06
License: 暂无描述

Hugging Face2025-05-21 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/HPAI-BSC/CareQA

下载链接

链接失效反馈

官方服务：

资源简介：

CareQA是一个基于西班牙专业医疗培训（FSE）考试的多选题问答数据集。该数据集从官方考试来源收集，涵盖了2020年至2024年的生物学、化学、医学、护理学、药理学和心理学考试。数据集支持英语和西班牙语，包含5621个样本。每个问题有四个可能的答案，模型需要从中选择正确的选项。数据集主要用于评估模型在多选题问答任务中的表现，且数据集被设计为评估数据集，因此整个数据集被视为测试集。

提供机构：

HPAI-BSC

原始信息汇总

数据集概述

数据集名称

名称: CareQA
别名: CareQA_en, CareQA_es

数据集描述

概述: CareQA是一个多选题问答数据集，基于西班牙专业医疗培训考试（FSE）。该数据集从官方考试资源中收集，涵盖2020至2024年的生物学、化学、医学、护理、药理学和心理学考试。数据集包含5621个样本，支持英语和西班牙语。

数据集结构

数据实例: 每个实例包含考试ID、问题文本、四个选项、正确答案选项、考试年份、科目类别和唯一标识符。
数据字段: 包括exam_id, question, op1至op4, cop, year, category, unique_id。
数据分割: 整个数据集作为测试集，包含5621个样本，分布在六个科目类别和五个考试年份中。

数据集创建

来源数据: 数据来源于官方政府网站，通过自动处理和手动审查确保质量。
语言: 原始语言为西班牙语，部分问题已翻译成英语。

使用考虑

社会影响: 可用于开发和测试医疗领域的多选题问答模型，用于评估人工智能模型的医疗知识。
偏见讨论: 数据集未进行偏见评估，但由专家生成，被认为基本无偏见。

附加信息

许可证: Apache License 2.0
数据集维护者: Lucia Urcelay Ganzabal 和 Pablo Bernabeu Pérez
引用信息: 参考文献Aloe: A Family of Fine-tuned Open Healthcare LLMs

搜集汇总

数据集介绍

构建方式

在医疗问答领域，高质量数据集的构建对评估人工智能模型的临床知识至关重要。CareQA数据集的构建始于西班牙专科医疗培训（FSE）官方考试材料，涵盖2020年至2024年间的生物学、化学、医学、护理学、药理学和心理学六个学科。原始西班牙语试题通过自动化流程从PDF中提取，并经过人工审核以确保数据质量，剔除了包含图像或解析错误的题目。随后，利用GPT-4模型将西班牙语内容翻译为英语，并通过多标注者验证流程确保翻译准确性。为创建开放式问答版本，研究团队使用Qwen2.5-72B-Instruct模型对封闭式问题进行重构，经过人工筛选和优化，最终形成包含2769个问答对的子集。

特点

CareQA数据集在医疗问答评估领域展现出多维度特征。其核心优势在于提供封闭式与开放式双重评估框架，封闭式版本包含5621个多选问答对，涵盖六个专业学科和五年考试周期，支持英语和西班牙语双语对照。开放式版本则包含2769个自由回答式问答对，专为英语环境设计。数据集源自权威医疗资格考试，确保了问题的专业性和临床相关性。每个数据实例均包含完整的元数据信息，如考试年份、学科分类和唯一标识符，便于进行细粒度分析和跨学科比较。这种结构设计使得数据集既能评估模型的事实检索能力，又能检验其生成连贯医学论述的潜力。

使用方法

该数据集主要应用于医疗领域大型语言模型的评估与基准测试。对于封闭式版本，研究者可通过多选问答任务测试模型的事实准确性，使用标准准确率作为核心评估指标。开放式版本则适用于评估模型生成自由形式医学回答的能力，可采用n-gram匹配、语义相似度计算、困惑度分析或基于大模型的自动评判等方法进行综合评估。数据加载可通过HuggingFace平台直接实现，支持按语言版本和问题类型灵活调用。鉴于数据集专为评估设计，建议研究者将其作为测试集使用，结合其他训练数据开发医疗问答系统。使用过程中需注意数据集的学科分布特点，并可利用其丰富的元数据开展跨学科性能分析。

背景与挑战

背景概述

在医疗人工智能领域，高质量问答数据集的稀缺性，尤其是西班牙语资源的匮乏，构成了知识评估与模型发展的关键瓶颈。为应对这一挑战，西班牙巴塞罗那超级计算中心（BSC）旗下的人类感知人工智能（HPAI）研究团队于2025年创建了CareQA数据集。该数据集的核心研究问题聚焦于为医疗领域的大型语言模型提供一个超越传统问答形式的综合性评估基准。其数据源自2020年至2024年西班牙专科医疗培训（FSE）的官方考试题目，涵盖生物学、化学、医学、护理学、药理学和心理学六大专业类别，并提供了封闭式与开放式两种问答形式。CareQA的建立，不仅填补了西班牙语医疗科学问答数据集的空白，更为深入探究模型在事实准确性与语言表达性之间的平衡关系提供了重要工具，对推动可信赖医疗人工智能的发展具有显著影响力。

当前挑战

CareQA数据集致力于解决医疗领域问答任务的核心挑战，即如何精准评估模型在复杂、专业的医学知识上的掌握程度及其生成连贯、准确论述的能力。具体而言，该领域面临的挑战包括医学知识的深度与广度、专业术语的精确理解，以及答案在事实性与表述自然度之间的权衡。在数据集构建过程中，团队亦遭遇多重技术挑战。首先，从官方PDF文档中自动化提取并清洗结构化试题数据，需克服格式解析错误与图像类题目的剔除难题。其次，利用GPT-4将西班牙语原题翻译为英语，虽经严格的人工抽样验证，但仍难以完全避免翻译过程中的语义细微偏差。最后，为创建开放式问答版本，使用Qwen2.5模型对封闭式问题进行改写，此过程引入了新的复杂性，包括如何确保改写后问题的清晰无歧义，以及如何通过人工验证有效筛选掉存在多种合理解释的样本，这直接导致了开放式子集规模的缩减与覆盖范围的潜在局限。

常用场景

经典使用场景

在医疗人工智能领域，CareQA数据集常被用于评估大型语言模型在专业医疗知识问答中的表现。该数据集源自西班牙专科医疗培训考试的官方题库，涵盖生物学、化学、医学、护理学、药理学和心理学六大核心学科，提供了封闭式多选与开放式自由回答两种评估形式。研究者通过该数据集能够系统性地测试模型对复杂医学概念的理解深度、推理准确性以及跨学科知识的整合能力，为医疗AI的可靠性验证提供了标准化基准。

解决学术问题

CareQA数据集有效解决了医疗自然语言处理研究中高质量评估数据稀缺的难题，尤其填补了西班牙语医疗问答数据的空白。该数据集支持对模型事实性知识与生成性表达的双重评估，帮助学术界深入探究封闭式与开放式评估方法之间的关联与差异。其严谨的构建流程与多维度验证机制，为医疗领域大语言模型的性能度量提供了可靠依据，推动了医疗AI评估方法论向更科学、更全面的方向发展。

衍生相关工作

基于CareQA数据集，研究社区已衍生出一系列重要的学术工作。例如，Aloe系列模型利用该数据集进行了系统性评估，相关研究深入分析了医疗大语言模型在封闭式与开放式任务上的表现差异。数据集构建团队提出的'松弛困惑度'等新颖评估指标，为开放域医疗问答的自动评估提供了创新思路。这些工作共同推动了医疗AI评估范式的演进，为后续研究奠定了方法论基础与数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集