MedBench-IT
收藏arXiv2025-09-09 更新2025-09-11 收录
下载链接:
https://github.com/ruggsea
下载链接
链接失效反馈官方服务:
资源简介:
MedBench-IT是一个全面的基准数据集,用于评估大型语言模型在意大利医学入学考试中的表现。该数据集由意大利领先的医学入学考试准备材料出版社Edizioni Simone提供,包含17,410个由专家撰写的多项选择题,涵盖六个科目(生物学、化学、逻辑、文化常识、数学、物理学)和三个难度等级。数据集的建设过程包括从初始的43,525个问题中进行筛选和预处理,以确保问题的质量。MedBench-IT旨在为意大利NLP社区、教育技术开发者和从业者提供一个宝贵的资源,以了解当前模型的能力,并为这一关键领域的评估提供标准化的方法。
MedBench-IT is a comprehensive benchmark dataset designed to evaluate the performance of large language models (LLMs) on the Italian medical school admission examination. The dataset is provided by Edizioni Simone, a leading Italian publisher of medical admission exam preparation resources, and contains 17,410 expert-written multiple-choice questions spanning six subject areas: biology, chemistry, logic, general culture, mathematics, and physics, alongside three difficulty levels. The construction of MedBench-IT involved screening and preprocessing from an initial corpus of 43,525 questions to guarantee the quality of each included item. This benchmark aims to offer a valuable resource for the Italian NLP community, educational technology developers, and practitioners to gauge the capabilities of contemporary models, while providing a standardized evaluation framework for this critical research and application domain.
提供机构:
格拉茨大学,OnePix学院
创建时间:
2025-09-09
搜集汇总
数据集介绍

构建方式
MedBench-IT数据集构建依托意大利领先医学备考出版商Edizioni Simone提供的原始题库,经过严谨的多阶段筛选与标准化处理。初始43,525道题目中剔除了依赖图像的题目及非意大利语内容,清除XML/HTML标记后,统一格式为题干、五个选项及单一正确答案的结构。最终通过分层抽样保留17,410道题目,严格保持原始学科比例与三级难度分布,确保评估的全面性与平衡性。
特点
该数据集涵盖生物学、化学、逻辑学等六大核心学科,题目由专家编写并分为基础、中级与高级三个难度层级,其中生物学与化学占比最高,分别达28.1%和22.9%。所有题目均采用意大利语原生内容,深度还原本土医学入学考试的真实语境与知识体系,同时提供详细的元数据标注,支持细粒度学科与难度分析。
使用方法
评估时可采用零样本直接作答或推理激发两种提示策略,前者要求模型直接选择正确答案编号,后者需先生成推理过程再给出答案。模型输出需严格遵循指定格式,仅最终答案编号用于准确性计算。该设计支持模型鲁棒性测试,包括答案顺序偏差分析、响应一致性检验及文本可读性与性能关联研究,为教育技术部署提供标准化评估框架。
背景与挑战
背景概述
随着大语言模型在教育领域的应用潜力日益凸显,非英语专业领域基准测试资源匮乏的问题逐渐显现。MedBench-IT由格拉茨大学与OnePix Academy研究团队于2024年联合创建,是首个针对意大利医学入学考试的专业评估基准。该数据集源自意大利权威备考资料出版社Edizioni Simone,包含17,410道专家编写的多选题,涵盖生物学、化学、逻辑学等六大科目及三个难度层级。其建立填补了意大利语专业教育评估工具的空白,为意大利自然语言处理社区和教育技术开发者提供了重要的模型能力评估标准。
当前挑战
该数据集致力于解决医学教育领域的高风险考试自动评估挑战,核心难点在于模型对意大利语专业术语的理解、多步骤逻辑推理能力以及跨学科知识整合能力。构建过程中面临多重挑战:首先需要从原始题库中剔除依赖图像的非文本问题,确保纯文本模型的兼容性;其次需处理多层级难度标注的标准化问题,保持与实际考试结构的一致性;最后还涉及复杂语法结构的保留与专业术语的规范化,这对意大利语语言模型的语义理解能力提出了更高要求。
常用场景
经典使用场景
在意大利医学教育技术领域,MedBench-IT作为首个针对医学入学考试的专用评估基准,被广泛用于测试大语言模型在生物学、化学、逻辑等六个核心学科的多项选择题解答能力。其经典应用场景包括模型在零样本设置下的直接答案生成与推理提示策略对比,尤其适用于评估模型在复杂医学知识检索和逻辑推理任务中的表现。
实际应用
在实际应用中,MedBench-IT被集成至意大利教育科技平台,用于开发智能辅导系统和模拟考试工具。医疗机构和备考机构利用其评估模型对医学入学考试的适应性,优化个性化学习推荐算法,同时为资源受限环境下的轻量化模型部署提供性能基准,助力本地化教育解决方案的落地。
衍生相关工作
该数据集衍生出多项聚焦模型鲁棒性的研究,包括答案选项顺序偏差测试、推理提示策略对比分析以及文本可读性与性能关联性探索。相关工作进一步推动了意大利语模型如Minerva系列和Gemma-2意大利优化版的开发,并在CALAMITA挑战赛等评估框架中扩展了多学科综合评估的维度。
以上内容由遇见数据集搜集并总结生成



