Biomed-Enriched
收藏arXiv2025-06-25 更新2025-11-28 收录
下载链接:
https://hf-mirror.com/datasets/almanach/Biomed-Enriched
下载链接
链接失效反馈官方服务:
资源简介:
Biomed-Enriched是一个通过两阶段标注过程构建的生物医学文本数据集,从PubMed中获取数据。第一阶段,使用大型语言模型对PubMed科学文章中的40万个段落进行标注,为它们的类型(综述、研究、临床案例、其他)、领域(临床、生物医学、其他)和教育质量分配分数。然后,使用这些标注来微调一个小型语言模型,从而在完整的PMC-OA语料库上传播标签。结果元数据允许我们从PubMed中提取精炼的子集,包括200万个临床案例段落,其中超过45万个来自具有商业使用许可证的文章的高质量段落。由于隐私限制,临床文本通常难以访问,因此我们的数据集提供了一个大型、公开可用的PubMed临床案例集合的替代方案,使其成为生物医学和临床自然语言处理的宝贵资源。初步的持续预训练实验表明,这些精心挑选的子集可以实现有针对性的改进,临床数据上采样在MMLU ProfMed上的性能提高了5%,教育质量过滤使MedQA和MedMCQA的医学问答任务提高了1%。这些技术的组合导致更快地收敛,使用三分之一的训练标记即可达到相同的性能,这表明了更高效和有效的生物医学预训练策略的潜力。
提供机构:
法国索邦大学INRIA巴黎分校
创建时间:
2025-06-25



