five

BRIDGE

收藏
arXiv2025-04-28 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19467v1
下载链接
链接失效反馈
官方服务:
资源简介:
BRIDGE是一个多语言的大语言模型基准,包含来自现实世界临床数据源的87个任务,涵盖了9种语言和超过一百万个样本。该数据集旨在评估大语言模型在多语言、真实世界临床文本理解方面的性能。数据集内容来源于电子健康记录(EHR)笔记或临床案例报告,以及真实世界的在线医患咨询记录。数据集创建过程基于对全球临床文本资源的系统审查。该数据集的应用领域包括临床决策支持、患者信息解读、个性化预防建议等,旨在解决医疗领域文本理解和处理的问题。

BRIDGE is a multilingual benchmark for large language models (LLMs) that encompasses 87 tasks derived from real-world clinical data sources, covering 9 languages and over one million samples. This benchmark is designed to evaluate the performance of LLMs in multilingual, real-world clinical text understanding. The dataset content is sourced from electronic health record (EHR) notes, clinical case reports, and real-world online patient-physician consultation records. The development of this benchmark was based on a systematic review of global clinical text resources. Its application areas include clinical decision support, patient information interpretation, personalized preventive care recommendations, and more, aiming to address the challenges of text understanding and processing in the healthcare domain.
提供机构:
哈佛医学院,麻省理工学院,斯坦福大学等
创建时间:
2025-04-28
搜集汇总
数据集介绍
main_image_url
构建方式
BRIDGE数据集的构建基于真实世界的临床数据,涵盖了九种语言的87项任务。数据来源于电子健康记录(EHR)和在线医患咨询记录,确保其真实性和多样性。通过系统化的数据收集和标准化处理,数据集被划分为训练集和测试集,以支持大规模的语言模型评估。此外,任务设计涵盖了多种临床场景,如命名实体识别、分类、问答和总结等,以全面评估模型的实际应用能力。
特点
BRIDGE数据集具有多语言、多任务和多临床场景的特点。其覆盖了九种语言,包括英语、中文、西班牙语等,确保了全球范围内的适用性。数据集中的任务来源于真实的临床实践,如电子健康记录和在线咨询,反映了临床文本的复杂性和多样性。此外,数据集还包含了多种临床专科和阶段的任务,为模型的全面评估提供了丰富的场景。
使用方法
BRIDGE数据集主要用于评估大型语言模型在临床文本理解中的表现。用户可以通过三种推理策略(零样本、少样本和思维链)对模型进行评估。数据集提供了标准化的输入和输出格式,便于自动化评估。此外,数据集还支持多语言和多任务评估,用户可以根据具体需求选择相应的任务和语言进行测试。数据集和排行榜会定期更新,以确保其时效性和相关性。
背景与挑战
背景概述
BRIDGE数据集由哈佛医学院、斯坦福大学等顶尖机构联合开发,于2024年发布,旨在解决临床实践中大语言模型评估的局限性。该数据集包含来自真实电子健康记录的87项多语言任务,涵盖九种语言和超过百万样本,是目前医学领域规模最大的基准测试。其创新性体现在突破了传统基于医学考试题或PubMed文献的评估范式,首次系统性地捕捉了临床文本的复杂性,如非标准化表达、专业缩写等真实场景特征。核心研究团队包括Jie Yang、Kueiyu Joshua Lin等知名学者,通过整合全球临床文本资源,为AI在医疗决策支持、病历摘要等关键应用提供了标准化评估框架。
当前挑战
BRIDGE面临双重挑战:在领域问题层面,需解决临床文本特有的语义模糊性(如非结构化记录、专业术语变异)和多语言医疗表述差异,这对模型的细粒度理解提出极高要求;在构建过程中,团队需克服真实病历去标识化的伦理约束、多语言标注一致性维护(尤其小语种资源稀缺),以及跨14个临床专科的任务设计平衡。技术挑战包括处理EHR中不完整语句与时间序列信息的关联建模,同时确保评估指标(如ROUGE、BERTScore)在文本生成与结构化预测任务间的可比性。这些挑战使BRIDGE成为检验大模型临床实用性的试金石。
常用场景
经典使用场景
在医疗人工智能领域,BRIDGE数据集作为当前规模最大的多语言临床文本基准测试集,其经典应用场景主要体现在对大型语言模型(LLMs)在真实世界电子健康记录(EHR)理解能力的系统性评估。该数据集通过整合来自9种语言的87项临床任务,覆盖命名实体识别、疾病预测、问答系统等8类任务类型,为研究者提供了模拟临床环境复杂性的标准化测试平台。特别是在模型跨语言迁移能力测试中,数据集包含的中文、西班牙语等非英语语种任务,有效验证了LLMs在全球化医疗场景下的适用性。
实际应用
在实际医疗场景中,BRIDGE数据集支持的评估框架可直接指导临床AI系统的选型与部署。例如在电子病历结构化处理中,其命名实体识别任务评估可帮助医院选择最适合解析本地病历格式的模型;多语言问答任务的性能对比则为跨国医疗集团选择患者咨询系统提供了客观依据。数据集包含的放射科、儿科等14个专科任务评估结果,使得专科AI辅助工具的开发能够针对性地优化模型。近期梅奥诊所等机构已基于该基准优化了临床文档自动生成系统的多语言支持能力。
衍生相关工作
该数据集已催生多个重要研究方向:基于其揭示的医学LLM性能缺陷,DeepSeek团队开发了强化学习优化的DeepSeek-R1模型;哈佛团队提出了知识种子引导的临床推理框架Wu2024Knowledge。在应用层面,衍生出Zakka2024提出的临床检索增强生成系统Almanac,以及Liu2024针对视网膜疾病的多语言偏差检测研究。数据集构建方法论还启发了PhysioNet等平台建立专项临床基准测试,形成了医疗AI评估的标准化生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作