CaseReportBench
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://huggingface.co/datasets/cxyzhang/caseReportBench_ClinicalDenseExtraction_Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
CaseReportBench 是一个专家注释的数据集,用于从临床病例报告中提取密集信息。该数据集包含 138 个病例报告,重点关注罕见疾病,特别是先天性代谢异常。数据集是从 PMC 开放获取子集(CC BY-NC, CC BY-NC-SA, CC BY-NC-ND)中获取的。数据集的构建过程包括数据预处理、病例报告选择、专家引导注释和数据集协调。数据集旨在评估大型语言模型 (LLM) 在从病例报告中提取密集信息方面的能力,并支持罕见疾病的诊断和管理。
CaseReportBench is an expert-annotated dataset for extracting dense information from clinical case reports. It contains 138 case reports focused on rare diseases, particularly inborn errors of metabolism. The dataset is sourced from the PMC Open Access Subset under licenses CC BY-NC, CC BY-NC-SA and CC BY-NC-ND. Its construction process includes data preprocessing, case report selection, expert-guided annotation, and dataset curation. This dataset aims to evaluate the capabilities of Large Language Models (LLMs) in extracting dense information from clinical case reports, and support the diagnosis and management of rare diseases.
提供机构:
University of British Columbia, National Institutes of Health
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
CaseReportBench数据集的构建过程体现了严谨的医学信息处理流程。研究团队从PMC开放获取子集中筛选了138篇罕见病相关病例报告,通过正则表达式进行章节过滤,保留与患者评估相关的关键部分。采用IEMbase知识库确保病例报告的疾病覆盖度,并由两位罕见病专家使用Prodigy标注工具进行独立标注。为解决标注差异,创新性地采用Token Set Ratio(TSR)指标进行量化评估,对TSR<30的422个实例通过临床专家讨论达成共识,最终形成包含14个临床类别的结构化数据集。
使用方法
数据集支持多种应用场景:作为基准测试平台,研究者可使用FCSP(过滤类别特定提示)等策略评估LLM在医疗信息抽取中的表现;临床决策支持方面,通过Qwen2.5:7B等表现优异的模型实现病例关键信息的结构化提取;方法学研究中,独特的TSR评估指标为密集信息抽取任务提供了新的评估维度。数据集以CC BY-NC许可发布于Hugging Face平台,配套代码在GitHub开源,支持临床NLP、罕见病研究等多个领域的工作。
背景与挑战
背景概述
CaseReportBench是由不列颠哥伦比亚大学和美国国立卫生研究院的研究团队于2025年推出的专业医学数据集,专注于临床病例报告中的密集信息提取任务。该数据集针对代谢异常等罕见疾病的诊断挑战,通过专家标注的138份病例报告,构建了涵盖14个关键临床类别的结构化知识库。作为首个系统评估大语言模型在临床信息提取中性能的基准,它填补了非电子病历数据在密集信息提取领域的空白,为医疗AI应用提供了重要基础设施。数据集基于PubMed Central开放获取资源构建,采用创新的类别特定提示策略,显著提升了信息提取的准确性和临床相关性。
当前挑战
CaseReportBench面临的核心挑战体现在两个维度:在领域问题层面,临床文本信息密集且专业术语复杂,需要精确识别跨系统的关联实体;罕见疾病病例的稀疏性增加了模型训练的难度;阴性症状的识别对鉴别诊断至关重要但现有模型表现欠佳。在构建过程层面,专家标注的差异性在实验室检查和病史等复杂类别中尤为明显;病例报告的非结构化叙述要求开发创新的文本分段过滤方法;传统的字符串匹配指标难以全面评估临床信息的语义一致性,需要开发更精细的评估体系。这些挑战推动了类别特定提示等创新方法的产生,为后续医学自然语言处理研究指明了方向。
常用场景
经典使用场景
CaseReportBench数据集在临床医学信息提取领域具有重要应用价值,特别是在罕见病诊断和管理方面。该数据集通过专家标注的临床病例报告,为研究人员提供了一个标准化的评估平台,用于测试大型语言模型(LLMs)在密集信息提取任务中的表现。其经典使用场景包括评估模型在14个关键临床类别(如神经系统、心血管系统、实验室和影像学等)中的信息提取能力,为临床决策支持系统提供结构化数据支持。
解决学术问题
CaseReportBench解决了临床自然语言处理(NLP)中的多个关键学术问题。首先,它填补了罕见病领域密集信息提取数据集的空白,为研究人员提供了高质量的标注数据。其次,该数据集通过评估不同模型和提示策略的性能,揭示了开源模型(如Qwen2.5:7B)在特定任务上可能优于商业模型(如GPT-4o)的现象,挑战了模型规模与性能正相关的传统假设。此外,数据集还促进了临床信息提取中提示策略的优化研究,如类别特定提示和子标题过滤数据集成方法的提出。
实际应用
在实际应用中,CaseReportBench为临床工作流程的优化提供了重要支持。通过自动化提取病例报告中的关键信息,该数据集可以帮助医生快速获取患者病史、实验室结果和影像学检查等结构化数据,显著减少人工提取的时间和错误率。特别是在罕见病诊断中,数据集的应用可以辅助医生识别复杂病例中的关键特征,提高诊断效率和准确性。此外,提取的结构化数据还可用于临床研究,如疾病模式分析和治疗结果评估。
数据集最近研究
最新研究方向
近年来,CaseReportBench数据集在临床信息提取领域引起了广泛关注,特别是在罕见病诊断和代谢异常病例分析方面。该数据集通过专家标注的14个临床类别,为大型语言模型(LLMs)在医学文本中的密集信息提取任务提供了基准测试平台。研究热点主要集中在优化模型提示策略(如类别特异性提示和子标题过滤数据整合)以及评估开源模型(如Qwen2.5:7B)与商业模型(如GPT-4o)的性能差异。前沿探索揭示了模型规模并非性能的决定性因素,而指令遵循能力和任务特异性调优更为关键。这一进展为开发可扩展的医疗AI应用奠定了基础,尤其在提升罕见病诊断效率和减少临床文档工作负担方面具有重要意义。
相关研究论文
- 1CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case ReportsUniversity of British Columbia, National Institutes of Health · 2025年
以上内容由遇见数据集搜集并总结生成



