medical-chronology-benchmark

github2026-04-02 更新2026-04-03 收录

下载链接：

https://github.com/superinsight/superinsight-ai-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

在医疗法律案例中，医疗时间线是案例审查的基础——从数百页非结构化记录中提取出的结构化临床遭遇时间线。手动制作一个时间线每个案例需要8-20小时。LLMs承诺自动化这一过程，但准确性是不可妥协的：一个单一的幻觉诊断或遗漏的手术可能会改变诉讼的结果。

In medical legal cases, medical timelines—structured clinical encounter timelines extracted from hundreds of pages of unstructured records—serve as the foundation for case review. Manually creating such a timeline for a single case takes 8 to 20 hours. Large Language Models (LLMs) promise to automate this process, but accuracy is non-negotiable: a single hallucinated diagnosis or omitted surgical procedure could alter the outcome of a lawsuit.

创建时间：

2026-03-31

原始信息汇总

Medical Chronology LLM Benchmark 数据集概述

数据集基本信息

数据集名称: Medical Chronology LLM Benchmark
托管平台: Hugging Face (https://huggingface.co/datasets/Superinsight/medical-chronology-benchmark)
许可协议: Apache 2.0
创建者: Superinsight, Inc.
年份: 2026

核心任务与目标

评估大型语言模型从非结构化医疗记录中提取结构化医疗时间线（医疗年表）的可靠性。该任务在医疗法律案件中至关重要，手动制作一份医疗年表通常需要8-20小时。

评估框架

评估模型

共评估了11个前沿大型语言模型。

黄金数据集

包含6个精心构建的黄金数据集（golden_a 至 golden_f），每个数据集具有不同的设计意图和挑战：

golden_a: 基线数据集，简短、清晰。
golden_b: 临床笔记风格，侧重释义压力测试。
golden_c: 混合风格，具有最高的噪声比例，测试噪声过滤能力。
golden_d: 残疾鉴定风格，包含15个条目，测试处理大量条目的能力。
golden_e: 混合风格，难度平衡。
golden_f: 混合风格，模拟OCR退化并包含长文档。

评估轮次与维度

评估轮次: 每个模型在6个数据集上独立运行3轮。
评估维度: 共6个维度：
1. 提取F1: 使用匈牙利算法与黄金标准匹配，衡量模型是否找到正确的医疗接触记录。
2. 内容保真度: 使用ROUGE-L F1，衡量提取文本与黄金标准字段的匹配程度。
3. 语义保真度: 使用嵌入余弦相似度，衡量超越表面文本的语义等价性。
4. 格式: 确定性检查，评估Markdown结构、标题和字段标签。
5. 时间顺序: 确定性检查，确保日期为升序排列。
6. 幻觉: 使用多法官LLM集成（3个法官，多数投票），判断模型声称的内容是否有源文档支持。

综合评分

综合评分由各维度加权计算得出：

提取F1: 30%
语义保真度: 20%
幻觉: 20%
格式: 10%
时间顺序: 10%
内容保真度 (ROUGE-L): 10%

关键结果

根据综合评分，模型被分为四个层级（S, A, B, C），层级内模型差异不显著，层级间差异具有统计显著性（p<0.05，配对自助法，10K次迭代）。

层级	模型	综合评分	F1	幻觉评分
S	claude-opus-4.6	88.9%	100.0%	94.0%
A	claude-opus-4.5, gemini-2.5-flash, gemini-3-flash	86.6–87.7%	99.6–100%	90.7–93.9%
B	gpt-5.4, gpt-5.4-mini, gpt-5.4-pro	86.6–87.1%	96.9–97.3%	86.3–95.4%
C	qwen3-235b†, gemini-2.5-pro, minimax-m2.5‡, gemini-3.1-pro	84.7–85.9%	97.8–99.2%	81.2–92.4%

† FP16 (Nebius dedicated) · ‡ FP4 (Nebius serverless) · 未标记 = 官方API（精度未公开）

数据与服务条件

黄金标准构建: 结合了多模型共识（golden_a–c）和合成反向设计（golden_d–f）。
模型服务精度: 不同模型的服务数值精度不同，部分模型使用量化（如MiniMax-M2.5使用FP4），可能影响质量比较。

数据集内容与结构

数据集仓库包含完整的评估流水线代码、黄金数据集、预生成的模型输出和评估结果。

黄金数据集路径: benchmark/golden/
模型输出路径: benchmark/golden_outputs/
预生成结果: 包含11个模型在6个数据集上3轮运行共198次的输出和评估结果。

使用方式

快速体验: 无需API密钥，运行 python evaluate_golden_only.py 即可在预生成结果上复现评估并查看排行榜。
完整流水线: 配置API密钥后，可生成新的模型输出并运行全套评估（包括幻觉评估和统计显著性检验）。

已知局限性

使用合成数据，非真实医疗记录。
黄金标准通过算法推导，未经人工标注。
模型服务精度不统一。
仅支持英文。
仅针对医疗年表提取这一单一任务。

搜集汇总

数据集介绍

构建方式

在医疗法律领域，构建可靠的医学时间线数据集需要严谨的方法论支撑。该基准数据集采用多模型共识与合成反向设计相结合的策略，通过六个精心设计的黄金数据集形成评估基础。其中前三个数据集采用多模型共识机制构建真实标注，后三个数据集则运用合成反向设计方法生成模拟医疗记录，这种混合构建方式既保证了标注质量的一致性，又能够模拟真实场景中的复杂噪声和文本变异。每个数据集都经过严格设计，涵盖不同文档风格、噪声比例和长度变化，形成了从基础到复杂的渐进式评估体系。

特点

该数据集展现出多维度评估的鲜明特色，其核心在于设计了六个互补的评估维度，全面衡量大语言模型在医学时间线提取任务中的表现。除了传统的提取精度指标外，特别引入了幻觉检测机制，通过三法官集成方法对模型输出的真实性进行严格验证。数据集还包含语义保真度和格式规范性等细粒度评估项，形成了从表层匹配到深层理解的完整评估链条。六个黄金数据集各自具有独特的挑战特性，包括噪声过滤、长文档处理、OCR退化模拟等场景，为模型鲁棒性提供了系统化测试环境。

使用方法

研究人员可通过分层化的评估流程使用该数据集，首先利用预生成输出快速了解模型表现，无需调用外部API即可完成基础评估。完整评估流程包含三个主要阶段：模型输出生成阶段通过标准化指令提示词驱动不同模型处理医疗文档；确定性评估阶段运用匈牙利匹配算法和语义相似度计算等多项指标；幻觉评估阶段则采用多模型集成判决机制。数据集提供了完整的统计显著性分析工具，包括配对自助法和误差分析模块，支持研究者进行深入的性能比较和系统性失效模式探索。

背景与挑战

背景概述

在医学法律领域，医疗时间线（Medical Chronology）的构建是案件审查的基石，它要求从海量非结构化医疗记录中提取并结构化临床事件的时间序列。传统人工构建耗时长达8至20小时每案，且易受主观因素影响。为评估大语言模型在此关键任务上的自动化潜力，Superinsight机构于2026年创建了Medical Chronology Benchmark。该基准聚焦于从非结构化文本中准确提取结构化时间线这一核心研究问题，通过多轮次、多维度评估框架，系统检验了11种前沿模型在6个黄金数据集上的表现。其严谨的方法论为医疗信息提取领域提供了可复现的评估标准，推动了自动化医疗文档处理技术的发展。

当前挑战

该数据集致力于解决医疗时间线自动提取这一领域核心挑战，其首要难点在于确保提取的极高准确性。医疗法律语境下，单个虚构诊断或遗漏手术的幻觉错误都可能导致法律判决的根本性改变，因此模型必须在信息保真度与幻觉控制间取得精密平衡。在构建过程中，挑战同样显著：一是黄金标准数据的构建需克服缺乏真实标注数据的困境，转而依赖多模型共识与合成反向设计等算法化方法；二是评估体系需设计兼顾表面匹配与语义等价的多元指标，并建立能抵御单一模型偏差的多法官幻觉检测机制，以全面衡量模型在噪声过滤、时序排序与格式规范等多重任务上的综合能力。

常用场景

经典使用场景

在医疗信息处理领域，Medical Chronology LLM Benchmark 数据集主要用于评估大型语言模型从非结构化医疗记录中提取结构化时间线信息的能力。该数据集通过模拟真实医疗法律案件中的病历审查场景，要求模型将数百页的临床文档转化为按时间顺序排列的医疗事件序列。这种场景不仅测试模型的信息抽取精度，还考察其对日期排序、格式规范以及语义保真度的综合处理水平，为自动化医疗时间线生成提供了标准化的评估框架。

解决学术问题

该数据集有效解决了自然语言处理在医疗领域应用中的若干关键学术问题，包括如何准确识别并抽取分散在非结构化文本中的临床事件，如何减少模型在信息生成过程中产生的幻觉现象，以及如何评估不同模型在复杂医疗语境下的语义理解能力。通过引入多维度评估体系，如匈牙利匹配算法、多法官幻觉检测机制和语义相似度计算，该数据集为衡量模型在信息抽取任务中的可靠性与鲁棒性提供了严谨的量化标准，推动了医疗文本自动化处理技术的科学化发展。

衍生相关工作

围绕该数据集，学术界与工业界衍生出一系列经典研究工作，主要集中在医疗信息抽取模型的优化与评估方法创新上。例如，基于多模型共识构建黄金标准数据的技术被广泛应用于合成数据生成领域，而结合匈牙利算法与模糊匹配的评估框架则为其他时序信息抽取任务提供了借鉴。此外，该数据集启发了针对幻觉检测的多法官集成评估范式，这一方法已被拓展至金融、法律等高风险领域的文本生成质量评估中，促进了跨领域可信人工智能评估体系的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集