BRIDGE
收藏arXiv2025-05-01 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19467v2
下载链接
链接失效反馈官方服务:
资源简介:
BRIDGE是一个包含87个真实世界临床文本任务的跨语言基准数据集,涵盖了九种语言和超过一百万个样本。这些任务是从现实世界的电子健康记录(EHR)笔记或临床案例报告中获取的,旨在评估大型语言模型在理解和处理真实世界临床文本方面的能力。BRIDGE数据集的创建基于对全球临床文本资源的系统回顾,并提供了参考标准,用于评估基准。该数据集旨在帮助研究人员和开发者评估和改进大型语言模型在医疗领域的应用。
BRIDGE is a cross-lingual benchmark dataset comprising 87 real-world clinical text tasks, covering nine languages and over one million samples. These tasks are sourced from real-world electronic health record (EHR) notes or clinical case reports, aiming to evaluate the capabilities of large language models (LLMs) in understanding and processing real-world clinical text. The BRIDGE dataset is developed based on a systematic review of global clinical text resources, and provides reference standards for benchmark evaluation. This dataset is intended to assist researchers and developers in assessing and improving the applications of large language models in the healthcare domain.
提供机构:
哈佛大学医学院
创建时间:
2025-04-28
搜集汇总
数据集介绍

构建方式
BRIDGE数据集的构建基于对全球临床文本资源的系统性审查,涵盖来自真实世界电子健康记录(EHR)和在线医患咨询记录的87项多语言任务。构建过程包括从PubMed、ACL Anthology等文献数据库及i2b2、CLEF eHealth等社区挑战中筛选符合临床相关性、公共可访问性及数据规模要求的原始数据集。通过标准化模板整合临床文本与结构化元数据,并依据权威数据源定义任务指令,确保任务目标与临床实践紧密对齐。数据集划分遵循官方标准或按比例随机抽样,最终形成覆盖九种语言、超过百万样本的基准测试框架。
特点
BRIDGE数据集的核心特点体现在其多维度覆盖与真实临床复杂性。其任务源自真实EHR和医患交互数据,涵盖命名实体识别、事件抽取、文本分类等8类任务,涉及心脏病学、肿瘤学等14个临床专科及诊断、治疗等6个临床阶段。数据集支持英语、中文、西班牙语等九种语言,显著提升了跨语言医疗AI评估的广度。相较于传统医学考试式基准,BRIDGE更注重临床环境中的语境丰富性和非标准化表达,如缩写、非结构化文本等,从而更真实地反映临床语言模型的实用需求。
使用方法
BRIDGE数据集的使用需遵循其标准化评估框架。用户可通过Hugging Face平台访问开放任务数据,并利用配套的自动化评估脚本对语言模型进行零样本、少样本及思维链推理策略的测试。评估时需将模型输出统一转换为结构化文本格式,并采用任务特异性指标(如分类任务使用准确率,信息抽取任务采用F1值)进行性能量化。研究者可基于临床专科、语言类型等维度进行子组分析,或通过公开排行榜对比52种主流模型的性能。该数据集适用于临床NLP模型开发、多语言能力验证及真实场景下的模型可靠性评估。
背景与挑战
背景概述
BRIDGE数据集由哈佛医学院、斯坦福大学等多家顶尖研究机构于2024年联合创建,旨在填补大型语言模型在真实临床文本理解领域的评估空白。该数据集聚焦多语言临床实践场景,涵盖来自真实电子健康记录和医患咨询的87项任务,跨越九种语言超过140万样本。作为当前医学领域规模最大的基准测试集,其通过系统化构建的临床任务分类体系和评估框架,为LLM在真实医疗环境中的能力评估提供了重要基础设施,对推动临床自然语言处理技术的标准化发展具有里程碑意义。
当前挑战
BRIDGE数据集核心解决临床文本多维度理解的挑战:一是真实临床文本的复杂性,包括非结构化表述、医学术语缩写和跨语言差异;二是多任务评估的兼容性挑战,需统一命名实体识别、文本分类等8类任务的评估标准。构建过程中面临多源数据整合难题,包括跨机构电子健康记录的数据脱敏与标准化、九种语言医学文本的语义对齐,以及临床专业术语在不同医疗体系中的概念映射。此外,还需克服医学标注资源稀缺性与标注一致性的平衡问题,确保临床标注质量满足专业医疗标准。
常用场景
经典使用场景
在临床自然语言处理研究中,BRIDGE数据集被广泛用于评估大语言模型对真实世界电子健康记录文本的理解能力。该数据集通过整合多语言临床文本任务,为模型在命名实体识别、文本分类和事件抽取等核心NLP任务上的表现提供标准化测试环境,尤其擅长模拟临床诊断文档中的复杂语境和专业术语处理场景。
实际应用
该数据集直接支持临床决策辅助系统的开发,通过提供真实电子健康记录和医患对话数据,助力构建智能分诊、自动化诊断编码和药物不良反应监测等应用。医疗机松可利用其多语言特性开发全球化临床文本分析工具,而制药企业则能基于ADE子集强化药物安全监测体系。
衍生相关工作
基于BRIDGE的评估框架催生了Med-PaLM 2、MeLLaMA等医疗大模型的迭代优化,其多语言评估范式被CBLUE、RuMedBench等地区性基准借鉴。开源社区据此开发了ClinicalBERT-EHR、BioMegatron等临床领域适配模型,同时推动了检索增强生成技术在医疗文档处理中的创新应用。
以上内容由遇见数据集搜集并总结生成



