Biomed-Enriched

Name: Biomed-Enriched
Creator: 法国索邦大学INRIA巴黎分校
Published: 2025-06-25 19:30:25
License: 暂无描述

arXiv2025-06-25 更新2025-11-28 收录

下载链接：

https://hf-mirror.com/datasets/almanach/Biomed-Enriched

下载链接

链接失效反馈

官方服务：

资源简介：

Biomed-Enriched是一个通过两阶段标注过程构建的生物医学文本数据集，从PubMed中获取数据。第一阶段，使用大型语言模型对PubMed科学文章中的40万个段落进行标注，为它们的类型（综述、研究、临床案例、其他）、领域（临床、生物医学、其他）和教育质量分配分数。然后，使用这些标注来微调一个小型语言模型，从而在完整的PMC-OA语料库上传播标签。结果元数据允许我们从PubMed中提取精炼的子集，包括200万个临床案例段落，其中超过45万个来自具有商业使用许可证的文章的高质量段落。由于隐私限制，临床文本通常难以访问，因此我们的数据集提供了一个大型、公开可用的PubMed临床案例集合的替代方案，使其成为生物医学和临床自然语言处理的宝贵资源。初步的持续预训练实验表明，这些精心挑选的子集可以实现有针对性的改进，临床数据上采样在MMLU ProfMed上的性能提高了5%，教育质量过滤使MedQA和MedMCQA的医学问答任务提高了1%。这些技术的组合导致更快地收敛，使用三分之一的训练标记即可达到相同的性能，这表明了更高效和有效的生物医学预训练策略的潜力。

提供机构：

法国索邦大学INRIA巴黎分校

创建时间：

2025-06-25

5,000+

优质数据集

54 个

任务类型

进入经典数据集