five

MedMentions

收藏
Hugging Face2026-02-19 更新2026-02-20 收录
下载链接:
https://huggingface.co/datasets/Aremaki/MedMentions
下载链接
链接失效反馈
官方服务:
资源简介:
MedMentions是一个用于生物医学概念识别的手动标注资源,其特点在于其规模(超过4,000篇摘要和350,000个链接提及)以及概念本体的大小(来自UMLS 2017的超过300万个概念)和对生物医学学科的广泛覆盖。该数据集包含4,392篇2016年PubMed发布的生物医学领域英文论文的标题和摘要,由具有丰富生物医学内容管理经验的专业注释团队详尽标注所有UMLS®(2017AA完整版)实体提及。通过随机选取八篇论文进行质量评估,注释者与评审者之间的协议(注释精度的估计)达到了97.3%。适用于命名实体识别(NER)、命名实体消歧(NED)等任务。
创建时间:
2026-02-18
搜集汇总
数据集介绍
构建方式
在生物医学信息抽取领域,构建高质量标注语料库是推动实体链接与命名实体识别研究的关键。MedMentions数据集的构建始于从2016年PubMed发布的文献中随机筛选出4,392篇生物医学领域的英文论文,这些论文均包含标题与摘要。随后,一支具备丰富生物医学内容管理经验的专业标注团队,以UMLS 2017AA完整版本体为参照,对这些文献中的所有实体提及进行了详尽的人工标注,最终形成了包含超过35万次链接提及的大规模语料。
特点
该数据集在生物医学文本挖掘领域展现出显著特色,其规模宏大,涵盖超过4,000篇摘要与35万余次实体提及,为模型训练提供了充足的数据支撑。其标注体系基于庞大的UMLS本体,覆盖超过300万个概念,确保了广泛的生物医学学科覆盖度。尽管未采用严格的交互标注者一致性评估,但通过抽样复核显示,标注者与评审生物学家之间的精确度估计高达97.3%,体现了标注结果的高可靠性。
使用方法
针对生物医学自然语言处理任务,MedMentions数据集提供了多样化的配置以适应不同研究需求。用户可选择原始版本进行自定义处理,或直接使用预处理版本以简化流程。对于实体链接与命名实体识别等任务,数据集支持基于上下文或无上下文的训练配置,分别对应长文本与短文本特征表示。研究人员可依据具体任务目标,灵活加载相应数据分割,用于模型训练、验证与测试,从而有效评估模型在复杂生物医学概念识别与链接上的性能。
背景与挑战
背景概述
在生物医学信息抽取领域,高质量标注数据集的构建对于推动实体链接与命名实体识别技术发展至关重要。MedMentions数据集由Chan Zuckerberg Initiative的研究团队于2019年创建,旨在解决生物医学文献中大规模概念标注的空白。该数据集从2016年PubMed文献中随机选取4392篇论文摘要,由专业标注人员基于UMLS 2017版知识体系进行全概念标注,其超过35万次实体链接的规模为生物医学自然语言处理研究提供了重要基准,显著促进了跨学科概念标准化识别的研究进程。
当前挑战
MedMentions数据集致力于应对生物医学实体链接任务中概念体系庞大与语义歧义性等核心挑战。UMLS知识库涵盖超过300万概念,要求模型具备从有限上下文准确映射实体到标准化概念的能力,同时处理生物医学术语的高度变异性和同义词复杂性。在构建过程中,标注团队面临全概念标注的完整性要求与标注一致性维护的双重压力,需通过专业生物医学背景的标注人员与多轮质量控制流程来确保标注精度,最终通过抽样验证达到97.3%的准确率,但大规模标注中概念边界的模糊性与罕见实体识别仍是持续存在的技术难点。
常用场景
实际应用
在实际应用中,MedMentions支持临床决策辅助系统和医学文献挖掘工具的开发。例如,在电子健康记录分析中,模型可利用该数据集识别病历文本中的疾病、药物和症状概念,实现自动化编码和信息整合。此外,医药企业借助其构建知识图谱,加速药物研发和副作用监测,提升医疗信息的结构化与利用效率。
衍生相关工作
基于MedMentions,衍生出多项经典研究工作,如BioBERT和SapBERT等预训练语言模型的微调与评估。这些研究专注于提升生物医学实体链接的精度,通过结合上下文信息优化嵌入表示。同时,该数据集也促进了跨本体链接和零样本学习方法的探索,为生物医学自然语言处理社区提供了重要的基准测试平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作