Biomed-Enriched
收藏arXiv2025-06-25 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/almanach/Biomed-Enriched
下载链接
链接失效反馈官方服务:
资源简介:
Biomed-Enriched是一个通过两阶段标注过程构建的生物医学文本数据集,从PubMed中获取数据。第一阶段,使用大型语言模型对PubMed科学文章中的40万个段落进行标注,为它们的类型(综述、研究、临床案例、其他)、领域(临床、生物医学、其他)和教育质量分配分数。然后,使用这些标注来微调一个小型语言模型,从而在完整的PMC-OA语料库上传播标签。结果元数据允许我们从PubMed中提取精炼的子集,包括200万个临床案例段落,其中超过45万个来自具有商业使用许可证的文章的高质量段落。由于隐私限制,临床文本通常难以访问,因此我们的数据集提供了一个大型、公开可用的PubMed临床案例集合的替代方案,使其成为生物医学和临床自然语言处理的宝贵资源。初步的持续预训练实验表明,这些精心挑选的子集可以实现有针对性的改进,临床数据上采样在MMLU ProfMed上的性能提高了5%,教育质量过滤使MedQA和MedMCQA的医学问答任务提高了1%。这些技术的组合导致更快地收敛,使用三分之一的训练标记即可达到相同的性能,这表明了更高效和有效的生物医学预训练策略的潜力。
Biomed-Enriched is a biomedical text dataset constructed via a two-stage annotation pipeline, with data sourced from PubMed. In the first stage, large language models (LLMs) are used to annotate 400,000 paragraphs from PubMed scientific articles, assigning labels for their types (review, research, clinical case, other), domains (clinical, biomedical, other), and scores for educational quality. These annotations are then used to fine-tune a small language model, enabling the propagation of labels across the full PMC-OA corpus. The resulting metadata allows us to extract refined subsets from PubMed, including 2 million clinical case paragraphs, among which over 450,000 are high-quality passages from articles with commercial use licenses. Clinical text is often inaccessible due to privacy restrictions, so our dataset provides a large, publicly available alternative to PubMed clinical case collections, making it a valuable resource for biomedical and clinical natural language processing (NLP). Preliminary continuous pre-training experiments demonstrate that these carefully selected subsets can achieve targeted improvements: upsampling clinical data improves performance on MMLU ProfMed by 5%, and educational quality filtering boosts performance on MedQA and MedMCQA medical question answering tasks by 1%. Combining these techniques leads to faster convergence, with the same performance achieved using only one-third of the training tokens, indicating the potential for more efficient and effective biomedical pre-training strategies.
提供机构:
法国索邦大学INRIA巴黎分校
创建时间:
2025-06-25
搜集汇总
数据集介绍

构建方式
Biomed-Enriched数据集基于PubMed Central开放获取子集构建,采用两阶段标注流程。首先,利用Llama-3.1-70B-Instruct大语言模型对40万段落进行多维标注,涵盖文档类型、领域分类、教育质量评分和语言识别。随后,将标注结果蒸馏至XLM-RoBERTa-base小模型,该模型通过多任务学习框架联合预测所有维度,高效完成整个语料库中1.33亿段落的标注。基于预测元数据,通过质量过滤、领域上采样等策略构建多种变体,如保留教育质量≥3段落的BE-Educational、10倍上采样临床内容的BE-Clinical等,并保留原始文章结构以维护上下文关系。
特点
该数据集的核心特色在于段落级别的细粒度标注,突破了传统文章级过滤的局限性,能够精准识别临床病例、高质量教育片段等隐性价值内容,弥补了公开临床文本稀缺的缺口。标注维度包括文档类型(临床病例、研究、综述等)、领域(临床、生物医学等)和教育质量评分(1-5级),其中教育质量评分平均为3.48,具有显著的实用性。数据集提供2百万临床病例段落(含45万高质量片段),并通过质量过滤与领域上采样的组合策略,实现数据效率的大幅提升——仅用三分之一训练令牌即可达到基线性能,同时将临床上采样使MMLU专业医学提升5%,教育质量过滤使医学问答提升1%。
使用方法
数据集适用于生物医学大语言模型的持续预训练与领域适应。使用者可根据任务需求选择变体:BE-Educational适用于知识密集型问答任务,BE-Clinical专注于临床推理能力提升,BE-All组合策略适用于综合性能优化。训练时推荐使用8K上下文窗口以保留文章段落间关联;也可直接使用元数据前缀(BE-Prefix)增强结构化理解。非英语场景下,可通过上采样标注段落灵活扩展到其他语言(如法语),无需额外模型复杂度。初步实验表明,在OLMo2-7B模型上进行33.6B令牌训练能显著提升医学基准性能,尤其适合隐私受限场景下的大规模公开临床文本研究。
背景与挑战
背景概述
Biomed-Enriched数据集是由巴黎索邦大学及INRIA的研究人员Rian Touchent、Nathan Godey和Eric de la Clergerie于2025年创建的生物医学文本数据集。该数据集旨在应对大型语言模型在生物医学和临床医学专业领域性能欠佳的问题,其核心研究问题在于如何通过细粒度的段落级标注策略,从PubMed Central开放获取子集中精选高质量、高教育价值的临床文本内容,以弥补现有预训练语料中专业领域知识稀缺的短板。作为首个大规模公开可用的临床案例文本资源,Biomed-Enriched提供了超过200万个临床案例段落,其中包含45万以上的高质量片段,有效缓解了因隐私法规导致临床文本难以获取的困境,为生物医学自然语言处理领域的研究开辟了新的路径。
当前挑战
Biomed-Enriched所解决的领域核心挑战在于,传统预训练语料库(如CommonCrawl)严重缺乏生物医学专业知识,且由于严格的隐私保护法规,临床记录和医院病历几乎无法公开获取,导致专用语言模型在临床推理任务上表现乏力。在数据集构建过程中,研究团队面临多重困难:首先,PMC开放获取子集中超过98%为英文文章,非英语内容极度匮乏;其次,现有文章级过滤策略过于粗糙,无法捕捉低质量文章中隐藏的高价值段落,例如以英文为主文章中夹杂的非英语知识片段;此外,如何在大规模语料(约4.5百万篇文章、1.33亿段落)上高效实现段落级语义标注,并保证标注质量的一致性与可靠性,也是一项严峻的技术挑战。
常用场景
经典使用场景
在生物医学自然语言处理领域,Biomed-Enriched数据集的核心使用场景在于为大型语言模型提供精细化的持续预训练语料。与传统的文章级别过滤不同,该数据集通过段落级别的注释,实现了对PubMed Central开放获取子集中临床病例、高质量教育性内容以及多语言片段的精准提取与重组。研究者可利用其提供的BE-Clinical、BE-Educational、BE-All等变体,针对性地增强模型在临床推理、医学问答或跨语言理解等特定任务上的表现。这种细粒度的数据筛选策略,使得在有限的训练预算下,能够显著提升模型在生物医学领域的知识密度与专业应答能力。
解决学术问题
Biomed-Enriched数据集有效回应了生物医学NLP领域中一个长期存在的困境:高质量临床文本因隐私法规而极度匮乏,同时现有预训练语料库中通用网页内容占据了主导地位。通过构建一个包含超过200万段临床病例文本的大规模开放资源,该数据集突破了医院记录不可公开访问的壁垒,为模型注入了稀缺的临床推理知识。此外,它解决了文章级别过滤忽视段落异质性的问题,使得从整体质量平庸的论文中挖掘出高价值的片段成为可能。针对教育质量评分与领域上采样策略的系统性实验表明,通过精准的数据配比,模型能在仅使用三分之一训练数据量的情况下达到同等基准性能,从而为高效、低成本的生物医学领域预训练提供了理论依据与实践范式。
衍生相关工作
Biomed-Enriched数据集的构建方法论直接借鉴并融合了FineWeb-Edu的教育质量过滤思想与WebOrganizer的细粒度分类体系,将其从通用文本迁移至生物医学领域。在此基础上,该工作开创性地引入了段落级别的两阶段注释流程,即以大模型标注少量样本后蒸馏至小模型以覆盖全集,这一技术路线为后续研究提供了低成本、高精度的数据标注范例。其关于临床内容上采样与教育质量过滤相结合的策略,启发了后续诸如BioMistral、Meditron等模型在数据配比上的优化。此外,该数据集对非英语内容的处理方式,也为构建多语言生物医学知识库指明了新方向,推动了跨语言领域自适应预训练研究的发展。
以上内容由遇见数据集搜集并总结生成



