JMLE2026-Bench (IgakuQA120)

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/naoto-iwase/JMLE2026-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

日本医学执照考试第120届（2026年2月7-8日）的LLM基准测试，包含400个问题（302个纯文本问题和98个带有临床图像的问题），并以JSON格式结构化，带有真实答案。

This is an LLM benchmark test for the 120th Japan Medical Licensing Examination (held on February 7-8, 2026), which consists of 400 questions: 302 pure text questions and 98 questions with clinical images. The dataset is structured in JSON format and includes the official correct answers.

创建时间：

2026-02-26

原始信息汇总

JMLE2026-Bench (IgakuQA120) 数据集概述

数据集基本信息

数据集名称：JMLE2026-Bench (IgakuQA120)
核心内容：基于第120届日本医师国家考试（2026年2月7-8日）的大型语言模型基准测试数据集。
问题数量：400道试题。
问题类型：
- 纯文本问题：302道。
- 包含临床图像的问题：98道。
数据格式：结构化JSON格式，包含标准答案。
关联数据集：上一届考试（第119届）数据集为 IgakuQA119（2026年2月8-9日）。

数据集文件构成

jmle2026_dataset.json：包含全部400道试题。
images/：包含试题引用的110张临床图像，通过clinical_images字段关联。
答案标注：由作者标注，非官方答案。

评分体系

遵循官方考试计分规则，总分500分。

类别	区块	问题数量	计分规则	最高分
必修	B, E	各50题	Q1-25: 1分， Q26-50: 3分	200
一般+临床	A, C, D, F	各75题	每题1分	300

合格标准（参考第119届考试）：

必修部分（B+E）：160/200分或以上（每年固定）。
一般部分（A+C+D+F）：221/300分或以上（每年根据整体表现变动）。
禁忌选项：3个或以下（每年固定；具体哪些题目包含禁忌选项未公开）。

第120届考试的官方合格标准尚未公布（预计2026年3月16日），届时本仓库将更新。

模型性能排行榜（摘要）

排行榜展示了不同模型在全部400道试题上的表现。

最高性能模型：Claude Opus 4.6，总分493/500（98.6%），准确率393/400（98.2%）。
视觉能力：部分模型支持图像输入（标记为✓）。
通过参考标准模型：加粗显示的模型同时达到了必修部分（160/200）和一般部分（221/300）的参考阈值。

详细排行榜见数据集页面。

快速开始

运行要求：需要 uv。
示例命令： bash uv run benchmark.py --model gpt-5.2 --api-key $OPENAI_API_KEY
更多选项：详见 usage.md。

交互式查看器

可通过 https://jmle2026-bench.streamlit.app 在线交互查看数据集。

许可信息

代码：MIT 许可证。
数据集：CC BY 4.0 许可证。
- 原始考试数据由日本厚生劳动省依据 PDL 1.0（与CC BY 4.0兼容）发布。
结果数据（results/目录）：各模型的输出受相应模型提供商的服务条款或许可证约束，需在各提供商允许的最宽松条件下使用。

搜集汇总

数据集介绍

构建方式

在医学教育评估领域，JMLE2026-Bench (IgakuQA120) 数据集的构建体现了对日本医师国家考试内容的系统化整理。该数据集源自第120届日本医师国家考试，共收录400道题目，其中302道为纯文本问题，98道包含临床图像。数据以JSON格式结构化存储，每道题目均附有标准答案，这些答案由作者标注而非官方提供。临床图像单独存放于images目录中，通过clinical_images字段与题目关联，确保了数据的一致性与可追溯性。

特点

该数据集的核心特点在于其全面覆盖了医学考试的多模态内容与严谨的评分体系。题目分为必修与一般临床两大类别，分别对应不同的分值权重，总分500分，模拟了实际考试的评分规则。数据集中包含临床图像的问题占比近四分之一，这要求模型具备跨模态理解能力。同时，数据集提供了基于往年考试标准的通过阈值参考，如必修部分需达到160分以上，为评估模型性能提供了明确的基准。

使用方法

对于研究人员而言，使用该数据集可通过提供的Python脚本快速启动基准测试。例如，运行`uv run benchmark.py`命令并指定模型及API密钥即可进行评估。数据集支持对纯文本子集或全量问题进行测试，便于分析模型在不同题型上的表现。评估结果可参照公开的排行榜进行横向比较，同时需注意官方考试通过标准可能逐年调整，使用时应关注相关更新以确保评估的时效性与准确性。

背景与挑战

背景概述

在医学人工智能领域，评估大型语言模型（LLM）在专业医学知识上的能力已成为一项关键研究课题。JMLE2026-Bench（IgakuQA120）数据集应运而生，由研究人员基于日本第120届医师国家考试（2026年2月7-8日举行）的内容构建而成。该数据集延续了前代IgakuQA119的工作，旨在为LLM提供一个标准化的医学资格考试评测基准。其核心研究问题聚焦于衡量模型在复杂医学文本与临床图像理解上的综合表现，涵盖了400道试题，包括302道纯文本题和98道含临床图像的题目。通过结构化JSON格式与真实答案标注，该数据集为推进医学领域LLM的精准评估与能力提升奠定了重要基础，对医学自然语言处理与辅助诊断研究产生了显著影响力。

当前挑战

该数据集致力于解决医学资格考试自动答题这一领域问题的挑战，其核心在于评估模型对高专业性、高准确性要求的医学知识的掌握程度，以及跨模态（文本与图像）推理能力。具体挑战包括：医学试题往往涉及细微的临床鉴别诊断与复杂的病理机制，要求模型具备深度的领域知识整合与逻辑推理能力；同时，临床图像的解读需要模型结合视觉信息与医学文本描述进行综合判断，这对多模态理解提出了较高要求。在构建过程中，挑战主要来源于试题的规范化处理与高质量标注：需将原始考试内容转化为结构化数据，并确保图像与文本的准确关联；此外，答案标注依赖于构建者的医学知识背景，需在缺乏官方标准答案的情况下保持标注的一致性与可靠性，并妥善处理考试评分标准中动态变化的通过阈值。

常用场景

经典使用场景

在医学人工智能领域，评估大型语言模型在专业医疗知识上的能力至关重要。JMLE2026-Bench (IgakuQA120) 数据集作为日本医师国家考试第120回的基准测试，其经典使用场景集中于对多模态大模型进行系统性医学知识评估。该数据集包含400道试题，其中302道为纯文本问题，98道融合了临床图像，模拟了真实医师资格考试的结构与难度。研究者通过该数据集能够量化模型在复杂医学推理、图像解读及临床决策支持方面的表现，为模型在医疗垂直领域的适配性提供权威参考。

解决学术问题

该数据集有效解决了医学自然语言处理研究中模型评估标准缺失的核心问题。传统医学问答数据集往往局限于单一模态或特定疾病，而JMLE2026-Bench 基于国家级标准化考试构建，其问题涵盖广泛的医学学科与临床场景，确保了评估的全面性与权威性。它使得学术界能够精确衡量模型在整合文本与视觉信息进行医学诊断的能力，同时为探索模型在高压、高风险的医疗决策环境中的可靠性提供了实证基础，推动了医疗人工智能向安全、可信的方向发展。

衍生相关工作

围绕JMLE2026-Bench 数据集，已衍生出一系列重要的相关研究工作。其前身IgakuQA119为评估模型在历年考试中的表现提供了纵向比较的基础。基于该基准发布的排行榜持续追踪并比较了Claude、GPT、Gemini、Qwen等主流模型系列的演进，催生了针对医学领域模型微调、多模态融合策略以及推理链优化技术的专门研究。这些工作共同构成了一个活跃的研究生态，不断推动着医疗大模型在准确性、鲁棒性和可解释性方面的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集