five

PediatricsMQA

收藏
arXiv2025-08-25 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/adlbh/PediatricsMQA, https://github.com/BahajAdil/PediatricsMQA
下载链接
链接失效反馈
官方服务:
资源简介:
PediatricsMQA是一个全面的儿科问答基准数据集,由摩洛哥理工学院的研究团队开发。该数据集包含了3417个文本问答对和2067个视觉问答对,涵盖了131个儿科主题,跨越了七个发展阶段(从胎儿到青少年)。数据集使用了混合的手动和自动流程构建,融合了同行评审的儿科文献、验证的问题库、现有的基准数据集和问答资源。PediatricsMQA旨在解决现有大型语言模型和视觉增强大型语言模型在儿科任务中的年龄偏见问题,并为评估这些模型在儿科领域的性能提供了一个具有挑战性的基准。该数据集可用于研究和开发更公平、更可靠的儿科人工智能应用。

PediatricsMQA is a comprehensive pediatric question answering benchmark dataset developed by a research team from the Moroccan Institute of Technology. This dataset includes 3,417 text-based question-answering pairs and 2,067 visual question-answering pairs, covering 131 pediatric topics and spanning seven developmental stages from fetus to adolescence. Built via a hybrid manual-automatic pipeline, the dataset incorporates peer-reviewed pediatric literature, validated question banks, existing benchmark datasets and QA resources. PediatricsMQA is designed to mitigate age bias in pediatric tasks exhibited by current large language models (LLMs) and vision-enhanced large language models, while serving as a challenging benchmark for assessing the performance of such models in the pediatric domain. This dataset supports research and development of more equitable and reliable pediatric artificial intelligence applications.
提供机构:
摩洛哥理工学院
创建时间:
2025-08-22
搜集汇总
数据集介绍
构建方式
PediatricsMQA数据集的构建采用混合人工与自动化流程,涵盖文本与视觉问答两个模态。文本部分基于PediatricsQA扩展,整合儿科医学书籍、题库及学术文献,通过大语言模型进行释义与选项重组,并经过人工筛选确保质量。视觉部分从HAM10000和FairVLMed等公开数据集中提取儿童影像,结合期刊案例的图像与描述,利用视觉语言模型生成多选题,并经过多轮人工标注与过滤,确保问题可视觉解答且答案源于上下文。
特点
该数据集涵盖3417道文本多选题与2067道视觉多选题,覆盖131个儿科主题及7个发育阶段(从胎儿至青少年)。视觉部分包含634张图像,涉及67种影像模态和256个解剖区域,具有高度的学科多样性与人口统计学代表性。其挑战性体现在模型在低龄组和复杂主题(如脂质代谢障碍、药理学)上表现显著下降,揭示了儿科医学推理的独特复杂性及现有AI系统的年龄偏见。
使用方法
PediatricsMQA可作为基准测试用于评估语言模型与视觉语言模型在儿科医学问答中的性能。研究者可通过加载数据集,使用标准化提示词进行模型推理,计算准确率以分析模型在不同年龄组、解剖区域及影像模态上的表现差异。该数据集支持针对性模型优化,如增强对低龄组数据的训练,或开发年龄感知的推理方法,以提升儿科医疗AI的公平性与可靠性。
背景与挑战
背景概述
儿科医学人工智能研究长期面临数据匮乏与系统性偏差的挑战,PediatricsMQA数据集于2025年由阿迪尔·巴哈吉(Adil Bahaj)领衔的团队联合巴黎第六大学智能系统与机器人研究所共同构建。该数据集聚焦于解决大型语言模型(LLMs)和视觉增强语言模型(VLMs)在儿科医疗问答任务中存在的显著年龄偏见问题,涵盖从产前至青少年期7个发育阶段的131个儿科主题。通过整合同行评审文献、权威题库及多模态影像数据,其3417个文本问答对和2067个视觉问答对显著提升了儿科AI评估的粒度与深度,为促进儿科医疗AI的公平性与可靠性奠定了重要基础。
当前挑战
构建PediatricsMQA需应对双重挑战:在领域问题层面,需克服儿科医学数据固有的稀疏性与年龄阶段特异性导致的模型泛化困难,尤其在婴幼儿与青少年群体的病理表现差异显著;在技术构建层面,需协调多源异构数据的标准化整合,包括从67种影像模态和256个解剖区域提取视觉特征,并通过混合人工-自动化流程确保问答对的临床准确性与视觉可解答性。此外,需规避版权风险并保持医学术语的一致性,这对数据清洗与生成流程的精细度提出了极高要求。
常用场景
经典使用场景
在儿科医学人工智能研究领域,PediatricsMQA数据集被广泛用于评估大型语言模型和视觉语言模型在儿科多模态问答任务中的性能。该数据集涵盖七个儿童发育阶段,涉及131个儿科主题的文本问答和基于634张医学图像的视觉问答,为研究者提供了全面评估模型在儿科医疗知识理解和推理能力的标准化平台。通过该数据集,研究人员能够系统分析模型在不同年龄组、医学主题和成像模态上的表现差异,推动儿科医疗AI的公平性和可靠性发展。
实际应用
该数据集在临床辅助诊断、医学教育和患者支持系统中具有重要应用价值。通过评估模型对儿科特定疾病(如肠套叠、血脂障碍)和影像模态(如超声、MRI)的理解能力,可指导开发针对儿童群体的AI诊断工具。在医学教育中,它能用于构建智能问答系统,帮助医学生掌握儿科知识。此外,基于该数据集的模型优化能提升儿科健康咨询机器人的准确性,为家长和护理人员提供可靠的医疗信息支持。
衍生相关工作
PediatricsMQA催生了多项针对儿科医疗AI的创新研究,例如基于该数据集的年龄偏差校正算法、多模态融合模型以及儿科特定领域的模型微调策略。相关工作包括开发专门针对新生儿和青少年群体的视觉问答模型,以及结合发育心理学知识的文本推理框架。这些研究不仅扩展了原数据集的应用维度,还推动了如PediaBench和PediatricsQA等儿科数据资源的进一步完善,形成了儿科医疗AI评估的生态系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作