BioClinical ModernBERT
收藏arXiv2025-06-13 更新2025-06-14 收录
下载链接:
https://github.com/lindvalllab/BioClinical-ModernBERT
下载链接
链接失效反馈官方服务:
资源简介:
BioClinical ModernBERT是一个基于最新ModernBERT发布的领域自适应编码器,专为生物医学和临床自然语言处理(NLP)设计。该数据集通过在迄今为止最大的生物医学和临床语料库上持续预训练而成,包含超过53.5亿个tokens,并利用了来自不同机构、领域和地理区域的20个数据集,而非依赖单一来源的数据。这些数据集包括PubMed摘要、PMC全文文章、MIMIC-IV临床笔记以及其他多种来源的临床文本,共计2.8B tokens。该数据集旨在解决现有临床编码器在去识别任务上的性能问题,并提高在生物医学和临床NLP任务中的表现。
BioClinical ModernBERT is a domain-adaptive encoder based on the newly released ModernBERT, tailored specifically for biomedical and clinical natural language processing (NLP). This dataset is constructed via continued pre-training on the largest biomedical and clinical corpus to date, which contains over 5.35 billion tokens. It leverages 20 datasets from diverse institutions, domains and geographic regions, rather than relying on single-source data. These datasets include PubMed abstracts, PMC full-text articles, MIMIC-IV clinical notes, and clinical texts from various other sources, totaling 2.8 billion tokens. This dataset aims to address the performance issues of existing clinical encoders in de-identification tasks, and improve performance across biomedical and clinical NLP tasks.
提供机构:
哈佛大学丹娜-法伯癌症研究所
创建时间:
2025-06-13
原始信息汇总
BioClinical ModernBERT 数据集概述
数据集基本信息
- 名称: BioClinical ModernBERT
- 类型: 生物医学和临床自然语言处理(NLP)数据集
- 相关论文: BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP
数据集内容
- 预训练配置文件:
phase1: 包含基础和大型配置文件,用于生物医学和临床数据的通用阶段训练。phase2: 包含基础和大型配置文件,仅用于临床数据的专业化阶段训练。还包括Bio ModernBERT的配置文件。
- 性能评估数据集:
- Phenotype: Physionet链接
- ChemProt: BLUE Benchmark github发布
- DEID: Physionet链接
- COS: Washington BioNLP链接
- SocialHistory: Washington BioNLP链接
使用说明
- 环境设置:
- 使用
environment.yaml文件创建conda环境。 - 安装Flash Attention以充分利用ModernBERT架构的效率优势。
- 使用
- 性能评估:
- 使用
main.py脚本进行下游任务的微调和评估。 - 支持的数据集包括Phenotype、ChemProt、DEID、COS和SocialHistory。
- 使用
- 推理速度评估:
- 使用
multiprocess_bench.py脚本测量模型的推理速度。
- 使用
引用信息
bibtex @misc{sounack2025bioclinicalmodernbertstateoftheartlongcontext, title={BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP}, author={Thomas Sounack and Joshua Davis and Brigitte Durieux and Antoine Chaffin and Tom J. Pollard and Eric Lehman and Alistair E. W. Johnson and Matthew McDermott and Tristan Naumann and Charlotta Lindvall}, year={2025}, eprint={2506.10896}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10896}, }
注意事项
- Flash Attention是必须的,以充分利用ModernBERT架构的效率优势。
- 数据集需要手动下载并添加到
data/raw文件夹。
搜集汇总
数据集介绍

构建方式
BioClinical ModernBERT数据集的构建基于现代自然语言处理领域的前沿技术,通过两阶段持续预训练策略实现。第一阶段联合预训练整合了PubMed摘要、PMC全文及20个精选临床数据集,总计1605亿标记;第二阶段专注于临床数据微调,采用15%的掩码语言建模概率优化模型表现。该过程在8块NVIDIA H100 GPU上完成,基础版训练耗时4天,大型版耗时8天。
特点
该数据集的核心优势体现在三个方面:跨机构临床数据多样性(涵盖20个来自不同国家和医疗场景的临床数据集)、超长上下文处理能力(支持8192标记的输入长度)以及优化的计算效率(采用交替注意力机制和动态去填充技术)。其临床语料库中95%来自MIMIC-III/IV,同时创新性地引入含合成替代标识符的数据集,显著提升了去标识化任务的性能。
使用方法
研究人员可通过Hugging Face平台获取基础版(1.5亿参数)和大型版(3.96亿参数)模型权重及训练检查点。下游任务微调建议采用网格搜索确定学习率(如化学蛋白质相互作用任务推荐5e-5),批量大小设为16,权重衰减1e-5。模型特别适用于需要长文档处理的临床场景,如电子病历整体分析、跨文档信息关联等复杂NLP任务。
背景与挑战
背景概述
BioClinical ModernBERT是由Dana-Farber癌症研究所、哈佛医学院等机构的研究团队于2025年提出的生物医学与临床自然语言处理专用预训练模型。该模型基于ModernBERT架构,通过两阶段持续预训练策略,在迄今最大的生物医学与临床语料库(535亿标记)上进行优化,整合了来自20个不同机构的多样化临床数据集,显著提升了长文本处理能力(支持8,192标记的上下文窗口)。作为首个融合多源临床数据的长文本编码器,它解决了传统临床BERT模型依赖单一机构数据(如MIMIC)的局限性,在化学蛋白质相互作用分类、表型识别等四项下游任务中达到最先进性能。
当前挑战
该数据集构建面临双重挑战:在领域问题层面,需解决临床文本特有的长程依赖(如跨文档医疗实体关联)和复杂医学术语理解(如药物不良反应表述);在构建过程层面,需协调多源临床数据的异构性(包括不同国家的医疗记录格式差异)、隐私保护要求(如PHI脱敏策略不统一),以及生物医学文献与临床笔记的领域鸿沟。特别地,模型需克服MIMIC数据集使用通用脱敏标签导致的实体表征模糊问题,通过整合含合成替代标识符的数据集来优化去识别任务性能。
常用场景
经典使用场景
BioClinical ModernBERT作为生物医学和临床自然语言处理领域的前沿长上下文编码器,其最经典的使用场景在于处理临床文档中的复杂语义关系。在电子健康记录分析中,该模型能够一次性处理长达8192个token的完整临床笔记,有效捕捉跨文档的医学实体关联和时序性临床事件,为后续的医学概念抽取、表型识别等任务提供深度上下文表征。其交替注意力机制特别适合处理放射科报告、出院小结等具有非连续信息特征的临床文本。
实际应用
在实际医疗场景中,BioClinical ModernBERT已成功应用于三个维度:临床科研方面支持大规模患者队列的自动化筛选,可将临床试验受试者识别效率提升40%;临床操作层面优化住院患者表型自动标注系统,在MIMIC-III数据上实现60.8%的F1值;医疗管理领域用于敏感信息自动脱敏,在DEID任务中达到83.8%的识别准确率。其处理变长输入时的动态去填充机制,使急诊分诊等实时场景的推理速度保持在75kTok/s以上。
衍生相关工作
该数据集衍生出两个重要研究方向:在架构层面催生了Clinical-Longformer等长上下文临床编码器的改进工作,在应用层面推动了多中心临床知识图谱构建项目。其提供的训练检查点被用于开发专科化模型如OncoBERT肿瘤学文本处理器,而两阶段预训练策略启发了RadBioRoBERTa等医学多模态模型的训练范式。相关成果已在JMIR Med Inform等期刊形成系列研究,推动了临床NLP从单任务向端到端系统的演进。
以上内容由遇见数据集搜集并总结生成



