TheBlueScrubs-v1

Name: TheBlueScrubs-v1
Creator: 莫菲特癌症中心
Published: 2025-04-02 06:25:19
License: 暂无描述

arXiv2025-04-02 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/TheBlueScrubs/TheBlueScrubs-v1

下载链接

链接失效反馈

官方服务：

资源简介：

TheBlueScrubs-v1是由莫菲特癌症中心等机构创建的医学数据集，从互联网上广泛收集，包含了超过25亿个医学Token，是PubMed的三倍之大。数据集由11.5百万份文档组成，每份文档都经过细致的医疗相关性和质量评估，标注有医学概率分数、三个大型语言模型评估的质量分数以及癌症相关标签。该数据集旨在为医学大型语言模型的开发提供支持，能够应用于模型训练、合成数据生成、错误信息检测和安全测试等多个领域。

TheBlueScrubs-v1 is a medical dataset created by institutions including the Moffitt Cancer Center. It was widely collected from the Internet and contains over 2.5 billion medical Tokens, which is three times the size of PubMed. The dataset consists of 11.5 million documents, each of which has undergone meticulous medical relevance and quality assessments. It is annotated with medical probability scores, quality scores evaluated by three large language models, and cancer-related labels. This dataset is designed to support the development of medical large language models, and can be applied in multiple fields such as model training, synthetic data generation, misinformation detection, and security testing.

提供机构：

莫菲特癌症中心

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

TheBlueScrubs-v1数据集的构建采用了高效的两阶段筛选流程。首先，基于SlimPajama语料库（包含6270亿去重标记），通过快速逻辑回归模型进行初步文档筛选（AUC达0.95），设定≥0.8的医学概率阈值保留250亿标记。其次，采用70B参数的Llama 3.1模型对文本进行三维度质量评分（医学相关性、事实精确度、安全伦理标准），并通过临床专家验证评分一致性。特别构建的癌症分类器进一步标注出110亿肿瘤学相关标记，形成最终包含1150万文档的精细化医学语料库。

使用方法

研究者可通过Hugging Face平台获取分片存储的原始文本及元数据，包括医学概率分数、LLM质量评分和癌症标签。典型应用包括：基于高分医学文本微调临床专用LLM；利用安全评分开发医疗内容审核系统；通过肿瘤学子集构建癌症诊疗模型。已公开的案例显示，使用20亿安全评分≥4的标记微调8B参数Llama 3.1，在MMLU医学基准测试中优于UMLS训练的对照模型。数据分片设计支持按需加载，配套发布的ModernBERT安全分类器（AUC 0.964）可直接用于医疗内容风险筛查。

背景与挑战

背景概述

TheBlueScrubs-v1数据集由Moffitt癌症中心、UCSF和哈佛医学院等机构的研究团队于2025年推出，旨在解决临床大型语言模型（cLLMs）训练数据不足的瓶颈问题。作为当前规模最大的开放医疗文本语料库之一，该数据集从SlimPajama语料中筛选出250亿医疗标记，规模是PubMed的三倍，不仅涵盖传统医学文献，还整合了患者论坛、网络健康资讯等非结构化医疗话语。其创新性在于采用两阶段过滤流程：先通过逻辑回归模型进行文档初筛（AUC达0.95），再经700亿参数的Llama 3.1模型进行医学相关性、事实精确度和伦理安全性的三维评分。特别值得注意的是，数据集包含110亿标记的肿瘤学专项内容，为癌症自然语言处理研究提供了重要基础。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，需解决医疗文本的异质性难题——网络来源的医学信息存在专业文献与通俗内容混杂、多模态数据融合困难等问题；构建过程中，研发团队需平衡计算效率与质量控制的矛盾，原始语料中仅4%符合医学相关性阈值（≥0.8），且Llama 3.1模型评分耗时27个GPU日。此外，伦理安全评估存在边界案例漏判风险，约20%文本需依赖正则表达式与对数概率的双重评分机制来确保可靠性。肿瘤学分类器还需克服专业术语的语义泛化问题，以准确识别非显性癌症相关表述。

常用场景

经典使用场景

TheBlueScrubs-v1数据集在临床大型语言模型（cLLMs）的开发和优化中扮演了关键角色。其庞大的规模和丰富的医学内容使其成为训练和验证医学领域专用语言模型的理想选择。通过两阶段过滤流程，数据集确保了高质量的医学文本，包括医学相关性、事实细节和安全性评分，为研究者提供了一个可靠的基础。

解决学术问题

TheBlueScrubs-v1解决了医学领域数据稀缺的问题，特别是针对临床语言和患者导向的讨论。其规模远超PubMed等传统医学数据集，为训练大规模语言模型提供了充足的语料。此外，数据集通过详细的标注和分类，帮助研究者解决了医学文本的质量控制、安全性和伦理标准评估等关键问题。

实际应用

在实际应用中，TheBlueScrubs-v1被广泛用于医学AI的开发，如临床语言模型的微调、医学信息的自动生成和增强、以及医学误导信息的检测。其高质量的子集还被用于开发轻量级的安全分类器，显著提升了模型在医学安全评估任务中的表现。

数据集最近研究