PediatricsMQA

Name: PediatricsMQA
Creator: 6Polytechnic University
Published: 2025-08-22 22:50:55
License: 暂无描述

arXiv2025-08-22 更新2025-08-26 收录

下载链接：

https://huggingface.co/datasets/adlbh/PediatricsMQA https://github.com/BahajAdil/PediatricsMQA

下载链接

链接失效反馈

官方服务：

资源简介：

PediatricsMQA是一个全面的多模态儿科问答基准数据集，包含3417个基于文本的多项选择题（MCQs）和2067个基于视觉的MCQs，涵盖了从 prenatal 到 adolescent 的七个发展阶段。数据集使用了混合的手动和自动流程，结合了同行评审的儿科文献、验证的问题库、现有基准和现有问答资源。该数据集旨在解决现有大型语言模型在儿科领域表现不佳的问题，特别是在年龄偏见方面。

PediatricsMQA is a comprehensive multimodal pediatric question answering benchmark dataset, containing 3417 text-based multiple-choice questions (MCQs) and 2067 visual-based MCQs, covering seven developmental stages from prenatal to adolescent. The dataset employs a hybrid manual and automated pipeline, integrating peer-reviewed pediatric literature, validated question banks, existing benchmarks, and existing QA resources. It aims to address the underperformance of current large language models in the pediatric domain, particularly regarding age bias.

提供机构：

6Polytechnic University

创建时间：

2025-08-22

搜集汇总

数据集介绍

构建方式

PediatricsMQA数据集通过混合人工与自动化流程构建，整合了经过同行评审的儿科文献、已验证的题库、现有基准及问答资源。文本问答部分基于PediatricsQA扩展，新增题目来源于医学书籍与题库，经大语言模型改写以避免版权问题，并经过人工筛选确保质量。视觉问答部分则从HAM10000和FairVLMed等包含儿童图像的基准数据集中提取，结合儿科期刊的图像与描述，通过视觉语言模型生成问题并人工过滤，确保问题可视觉解答且答案基于上下文。

使用方法

PediatricsMQA主要用于评估大语言模型和视觉语言模型在儿科医学问答中的性能。研究人员可使用该数据集的测试分割进行模型评估，通过计算模型在多项选择题上的准确率来量化其知识事实性与推理能力。评估时需遵循闭卷设置以确保可比性，可使用本地GPU或API调用不同模型，并报告各年龄组、主题及模态下的性能结果，以揭示模型在儿科领域的系统性偏差与局限性。

背景与挑战

背景概述

儿科医学多模态问答基准数据集PediatricsMQA由Adil Bahaj与Mounir Ghogho团队于2025年构建，旨在解决大型语言模型和视觉语言模型在儿科医疗领域存在的系统性年龄偏见问题。该数据集涵盖从产前至青少年期7个发育阶段的131个儿科主题，包含3,417道文本多选题和2,067道基于634张医学图像的视觉问答题，涉及67种影像模态和256个解剖区域。其构建融合了同行评审文献、权威题库和既有医疗数据集，通过混合人工-自动流程确保专业性与多样性，为儿科AI研究提供了关键评估基准。

当前挑战

该数据集核心挑战在于解决儿科医疗问答中模型表现的年龄偏差问题，具体体现为模型在低龄群体（如幼儿与学龄前儿童）的问答准确率显著低于成人群体。构建过程中需克服多模态数据融合的复杂性：文本部分需平衡医学专业性与发育阶段特异性，视觉部分需处理罕见儿科影像模态（如细胞病理学图像）的标注一致性，同时确保跨年龄段的解剖结构与病理特征的准确表征。此外，数据来源的异构性（如期刊图像与临床摄影的标准化）以及伦理审查（如未成年患者隐私保护）亦构成重要挑战。

常用场景

经典使用场景

在医学人工智能领域，PediatricsMQA数据集被广泛用于评估大型语言模型和视觉语言模型在儿科医学问答任务中的性能表现。该数据集通过涵盖七个儿童发展阶段的多模态问题，为研究者提供了一个标准化的测试平台，用于检验模型在儿科专业知识理解、视觉推理以及跨年龄组泛化能力方面的表现。其丰富的题目类别和严谨的构建流程使其成为儿科AI研究中的黄金基准。

解决学术问题

PediatricsMQA有效解决了医学AI研究中长期存在的年龄偏见问题，特别是针对儿科医学知识的系统性忽视。该数据集通过均衡覆盖从胎儿期到青少年期的131个儿科主题，填补了现有医学问答基准在儿科领域的空白，为开发公平、可靠的儿科AI辅助系统提供了关键数据支撑。其多模态特性进一步推动了视觉-语言联合推理在儿科医学中的应用研究。

实际应用

该数据集在临床决策支持系统开发中具有重要价值，可用于训练和评估面向儿科医生的智能诊断助手。其涵盖的67种影像模态和256个解剖区域问题，能够辅助医生进行影像解读和鉴别诊断。此外，医学教育机构可利用该数据集开发智能教学系统，帮助医学生掌握不同发育阶段儿童的疾病特征和诊疗要点。

数据集最近研究