BRIDGE

github2025-04-30 更新2025-05-02 收录

下载链接：

https://github.com/YLab-Open/BRIDGE

下载链接

链接失效反馈

官方服务：

资源简介：

BRIDGE是一个多语言基准测试，包含87个真实世界的临床文本任务，涵盖九种语言和超过一百万个样本。它具有真实世界的临床文本、9种语言、9种任务类型、14种临床专业、7种临床文档类型和20种临床应用，覆盖患者护理的6个临床阶段。

BRIDGE is a multilingual benchmark dataset consisting of 87 real-world clinical text tasks, covering nine languages and over one million samples. It encompasses real-world clinical texts, nine languages, nine task types, 14 clinical specialties, seven clinical document types, 20 clinical applications, and spans six clinical stages of patient care.

创建时间：

2025-04-11

原始信息汇总

BRIDGE 数据集概述

数据集背景

全称：Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text
目的：评估大型语言模型（LLMs）在医疗领域的可靠性和临床有效性
特点：
- 包含87个真实世界临床文本任务
- 涵盖9种语言
- 超过一百万样本
- 评估52个最先进的LLMs（截至2025/04/29）

关键特征

临床文本：真实世界临床文本
语言：9种
任务类型：9种
临床专业：14种
临床文档类型：7种
临床应用：20种，覆盖患者护理的6个临床阶段

数据集获取与使用

开放访问数据集：可通过BRIDGE-Open下载
受限访问数据集：由于隐私和安全考虑，无法直接发布，但任务描述和数据来源详见BRIDGE论文

使用方法

下载数据集：从BRIDGE-Open获取开放访问数据
LLM推理：
- 将数据放入dataset_raw文件夹
- 编辑BRIDGE.yaml和run.sh文件
- 运行run.sh进行推理
评估：
- 结果保存在result文件夹
- 使用evaluate_BRIDGE.py进行评估
- 性能结果保存在performance文件夹

更新与贡献

最新更新：
- 2025/04/28：BRIDGE Leaderboard V1.0.0上线
- 2025/04/28：BRIDGE论文在arXiv发布
贡献：欢迎社区贡献临床文本数据集

引用

bibtex @article{BRIDGE-benchmark, title={BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text}, author={Wu, Jiageng and Gu, Bowen and Zhou, Ren and Xie, Kevin and Snyder, Doug and Jiang, Yixing and Carducci, Valentina and Wyss, Richard and Desai, Rishi J and Alsentzer, Emily and Celi, Leo Anthony and Rodman, Adam and Schneeweiss, Sebastian and Chen, Jonathan H. and Romero-Brufau, Santiago and Lin, Kueiyu Joshua and Yang, Jie}, year={2025}, journal={arXiv preprint arXiv: 2504.19467}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.19467}, } @article{clinical-text-review, title={Clinical text datasets for medical artificial intelligence and large language models—a systematic review}, author={Wu, Jiageng and Liu, Xiaocong and Li, Minghui and Li, Wanxin and Su, Zichang and Lin, Shixu and Garay, Lucas and Zhang, Zhiyun and Zhang, Yujie and Zeng, Qingcheng and Shen, Jie and Yuan, Changzheng and Yang, Jie}, journal={NEJM AI}, volume={1}, number={6}, pages={AIra2400012}, year={2024}, publisher={Massachusetts Medical Society} }

联系方式

Leaderboard Managers：Jiageng Wu (jiwu7@bwh.harvard.edu), Kevin Xie (kevinxie@mit.edu), Bowen Gu (bogu@bwh.harvard.edu)
Benchmark Managers：Jiageng Wu, Bowen Gu
Project Lead：Jie Yang (jyang66@bwh.harvard.edu)

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，BRIDGE数据集的构建基于对全球临床文本资源的系统性梳理，整合了来自九种语言、涵盖14个临床专科的87项真实世界临床文本任务。研究团队通过严格的数据采集与验证流程，确保样本量超过百万的临床文本数据具有代表性，同时兼顾隐私保护要求，将数据集分为开放获取和受控访问两种类型。数据标注过程由临床专家参与，采用多阶段质量把控机制，最终形成覆盖患者护理六个阶段的标准化评估体系。

使用方法

研究者可通过Hugging Face平台获取BRIDGE-Open子集的开放数据，按照标准流程配置YAML文件指定评估任务。系统提供完整的模型推理和评估框架，包括分类、抽取和生成三类任务的专用脚本。用户运行自动化评估后，结果将按任务-模型-实验的三级结构存储，支持性能指标的标准化计算。对于希望参与公开比较的研究团队，可将规范格式的结果提交至BRIDGE领导者看板，该项目组承诺定期更新模型排名并保持透明度。受隐私保护的数据集则需遵循原始研究规定的申请流程获取。

背景与挑战

背景概述

BRIDGE数据集由哈佛医学院和布莱根妇女医院的Jie Yang教授及Kueiyu Joshua Lin教授团队于2025年主导构建，旨在解决大型语言模型（LLMs）在医疗领域中的可靠性和临床有效性验证问题。该数据集覆盖九种语言、包含超过一百万样本，涵盖九种任务类型、十四种临床专科以及二十种临床应用，贯穿患者护理的六个临床阶段。其构建基于对全球临床文本资源的系统综述，为评估LLMs在真实临床文本理解任务中的表现提供了全面、多语言的基准平台。BRIDGE的发布填补了医疗人工智能领域缺乏标准化评估工具的空白，对推动LLMs在临床实践中的负责任应用具有重要意义。

当前挑战

BRIDGE数据集面临的挑战主要包括两方面：领域问题方面，临床文本具有高度专业性、多语言特性及隐私敏感性，要求模型不仅能理解复杂医学术语，还需适应不同语言和文化背景下的表达差异；构建过程方面，数据收集需协调全球多家医疗机构，涉及严格的伦理审查和数据脱敏流程，且部分敏感数据仅能通过受限访问机制获取。此外，设计统一评估框架时需平衡不同临床任务（如分类、信息抽取、生成任务）的指标差异性，同时确保评测结果的可比性与临床相关性。

常用场景

经典使用场景

在医疗人工智能领域，BRIDGE数据集被广泛用于评估大型语言模型在临床文本理解任务中的表现。其多语言、多任务和多临床专业的特性，使其成为研究者在模拟真实临床环境时的首选工具。数据集覆盖了从病历记录到医学文献的多种文本类型，为模型提供了丰富的训练和测试场景。

解决学术问题

BRIDGE数据集解决了医疗AI研究中缺乏标准化评估基准的问题。通过整合全球范围内的临床文本资源，数据集为研究者提供了一个统一的平台，用于验证模型在不同语言、任务和临床专业中的泛化能力。这一工作显著提升了临床文本理解研究的可重复性和可比性。

实际应用

在实际医疗场景中，BRIDGE数据集支持开发智能诊断辅助系统、自动化病历分析工具和多语言医疗信息提取系统。医疗机构可以利用这些工具提高诊疗效率，减少人为错误，并为非英语患者提供更精准的医疗服务。

数据集最近研究