HiTZ/MedExpQA

Name: HiTZ/MedExpQA
Creator: HiTZ
Published: 2024-11-11 17:25:20
License: 暂无描述

Hugging Face2024-11-11 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/HiTZ/MedExpQA

下载链接

链接失效反馈

官方服务：

资源简介：

MedExpQA是一个多语言医疗问答基准数据集，用于评估大型语言模型在医疗问答任务上的表现。该数据集支持英语、法语、意大利语和西班牙语，并利用了包含黄金参考解释的Antidote CasiMedicos数据集。它适用于多种NLP任务，包括医疗问答和解释生成，并采用检索增强生成（RAG）方法进行知识提取。数据集分为训练、验证和测试集，并包含手动注释，用于链接正确和错误可能答案的解释。

提供机构：

HiTZ

原始信息汇总

数据集概述

数据集名称

名称: MedExpQA
别名: MexExpQA

数据集描述

目的: 用于评估大型语言模型（LLMs）在医疗问答领域的性能。
任务类型: 文本生成、问答
语言: 英语、法语、意大利语、西班牙语
许可: CC-BY-4.0

数据集结构

数据文件:
- 英语:
  - 训练集: data/en/train.en.casimedicos.rag.jsonl
  - 验证集: data/en/dev.en.casimedicos.rag.jsonl
  - 测试集: data/en/test.en.casimedicos.rag.jsonl
- 西班牙语:
  - 训练集: data/es/train.es.casimedicos.rag.jsonl
  - 验证集: data/es/dev.es.casimedicos.rag.jsonl
  - 测试集: data/es/test.es.casimedicos.rag.jsonl
- 法语:
  - 训练集: data/fr/train.fr.casimedicos.rag.jsonl
  - 验证集: data/fr/dev.fr.casimedicos.rag.jsonl
  - 测试集: data/fr/test.fr.casimedicos.rag.jsonl
- 意大利语:
  - 训练集: data/it/train.it.casimedicos.rag.jsonl
  - 验证集: data/it/dev.it.casimedicos.rag.jsonl
  - 测试集: data/it/test.it.casimedicos.rag.jsonl

数据集内容

casimedicos-raw: 包含临床案例（C）、问题（Q）、可能的答案（P）和解释（E）的文本内容。
casimedicos-exp: 手动注释，链接正确和错误可能答案的解释。
MedExpQA: 基于casimedicos-exp的金标准解释和使用RAG方法自动提取知识的医疗QA基准。

数据集属性

casimedicos-raw:
- id: 唯一文档标识符。
- year: 考试发布的年份。
- question_id_specific: 原始考试的ID。
- full_question: 临床案例和问题的完整描述。
- full_answer: 完整注释解释。
- type: 医学专科。
- options: 可能的答案。
- correct_option: 考试问题的答案。
casimedicos-exp:
- explanations: 每个可能答案的解释，包括是否存在于完整注释中及其位置。

引用信息

论文: MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering
作者: Iñigo Alonso, Maite Oronoz, Rodrigo Agerri
年份: 2024

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，构建高质量的多语言基准数据集对于评估大型语言模型的性能至关重要。MedExpQA数据集的构建巧妙地利用了Antidote CasiMedicos数据集，该数据集本身包含了临床案例、问题、选项及专家提供的黄金标准解释。在此基础上，研究团队通过检索增强生成技术，从MedCorp医学语料库中自动提取相关知识片段，构建了包含检索信息的增强版本。数据集的构建过程严谨，涵盖了英语、西班牙语、法语和意大利语四种语言，确保了其多语言并行特性，为跨语言医学问答研究提供了结构化且信息丰富的资源。

特点

MedExpQA数据集的核心特点在于其多语言并行性与解释性。该数据集不仅提供了标准的医学问答对，还附带了针对每个可能答案的详细解释，这些解释由医学专家手动标注，确保了内容的准确性和权威性。此外，数据集通过检索增强生成方法整合了外部医学知识，为模型提供了丰富的上下文信息。其涵盖的医学专科类型多样，数据规模适中，结构清晰，包含训练集、验证集和测试集的标准划分，非常适合用于评估模型在复杂、需要推理的医学场景下的问答与解释生成能力。

使用方法

该数据集主要应用于医学问答和解释生成等自然语言处理任务的评估。研究人员可以加载指定的语言配置，直接使用其提供的JSONL格式文件。数据集中每个样本包含完整的临床案例、问题、选项、正确答案以及相关的解释和检索到的知识片段。在评估大型语言模型时，可以参照数据集提供的提示模板，将临床案例、选项和检索到的知识作为输入，要求模型生成答案并解释其推理过程。通过这种方式，能够系统性地测评模型在利用外部知识进行医学推理和提供可解释性回答方面的性能。

背景与挑战

背景概述

在医学自然语言处理领域，多语言医疗问答系统的评估长期面临标准化基准的缺失。MedExpQA数据集由HiTZ中心与巴斯克大学的研究团队于2024年创建，旨在构建一个融合黄金标准解释与检索增强生成技术的多语言并行医疗问答基准。该数据集基于Antidote CasiMedicos的注释医学考试数据，涵盖英语、西班牙语、法语和意大利语四种语言，核心研究聚焦于评估大型语言模型在复杂临床场景下的推理与解释生成能力。其创新性在于将结构化医学知识检索与生成式人工智能评估相结合，为跨语言医疗人工智能系统的可解释性研究提供了重要基础设施。

当前挑战

MedExpQA致力于解决医疗问答领域中模型可解释性与多语言泛化能力的双重挑战。具体而言，其需应对临床文本的语义复杂性，要求模型不仅输出正确答案，还需生成符合医学逻辑的详细解释，这对模型的因果推理与领域知识整合提出了极高要求。在构建过程中，研究团队面临多语言医学语料对齐的困难，包括医学术语的文化差异性与标注一致性维护；同时，检索增强生成框架的设计需平衡知识检索的准确性与生成内容的流畅性，涉及多源医学知识库的融合与噪声过滤等技术瓶颈。

常用场景

经典使用场景

在医学自然语言处理领域，MedExpQA数据集为评估大型语言模型在医学问答任务中的表现提供了多语言基准。该数据集整合了临床案例、问题、选项及带有参考解释的答案，常被用于训练和测试模型在复杂医学知识推理与解释生成方面的能力。研究者通过该数据集能够系统评估模型在理解医学文本、选择正确答案并提供合理解释方面的综合性能，尤其在多语言环境下展现了其独特价值。

实际应用

在实际医疗教育与辅助诊断场景中，MedExpQA可作为智能教学工具的基础数据，帮助医学生通过模拟考试题目深化临床推理能力。其提供的详细解释能够辅助临床医生或医学学习者理解复杂病例背后的病理机制。此外，该数据集支持开发多语言医学问答系统，为不同语言地区的医疗信息查询与知识普及提供技术支持，促进医疗资源的全球化共享。

衍生相关工作

围绕MedExpQA数据集，一系列经典研究工作得以展开，例如基于检索增强生成技术优化医学知识检索与答案生成的融合模型。研究团队利用该数据集评估了LLaMA、PMC-LLaMA、Mistral及BioMistral等多种大型语言模型，比较了它们在有无外部知识支持下的性能差异。这些工作不仅深化了对模型医学推理机制的理解，也为后续多语言医学人工智能基准的构建与模型优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集