five

vaibhavalakshmiravideshik/mesh-snomed-entity-alignment-15k

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/vaibhavalakshmiravideshik/mesh-snomed-entity-alignment-15k
下载链接
链接失效反馈
官方服务:
资源简介:
MeSH-SNOMED Entity Alignment 15K 是一个生物医学异质知识图谱对齐基准数据集,用于在[MeSH](https://www.nlm.nih.gov/mesh/)和[SNOMED CT](https://www.snomed.org/what-is-snomed-ct)之间进行跨本体匹配。该数据集旨在评估实体对齐系统在现实大图条件下的性能,其中黄金对齐的概念嵌入在包含许多结构相关但非对齐背景实体的更大生物医学图谱中。此版本为伴随的**EMNLP 2026**提交而设计。基准数据集从现有的MeSH-SNOMED匹配集合开始,并将这些对齐与从两个源本体提取的图谱上下文打包在一起。数据集的目的是不是重新判定每个原始匹配的语义有效性,而是支持研究对齐系统是否能够在大型异质图谱空间中恢复语义对应的生物医学实体。

MeSH-SNOMED Entity Alignment 15K is a biomedical heterogeneous knowledge graph alignment benchmark for cross-ontology matching between [MeSH](https://www.nlm.nih.gov/mesh/) and [SNOMED CT](https://www.snomed.org/what-is-snomed-ct). It is designed to evaluate entity alignment systems under realistic large-graph conditions, where gold-aligned concepts are embedded in much larger biomedical graphs containing many structurally relevant but non-aligned background entities. This release is intended for the accompanying **EMNLP 2026** submission. The benchmark starts from an existing set of MeSH-SNOMED matches and packages those alignments together with graph context extracted from the two source ontologies. The purpose of the dataset is not to newly adjudicate the semantic validity of every original match, but to support research on whether alignment systems can recover semantically corresponding biomedical entities across large, heterogeneous graph spaces.
提供机构:
vaibhavalakshmiravideshik
搜集汇总
数据集介绍
main_image_url
构建方式
MeSH-SNOMED Entity Alignment 15K是一个面向生物医学领域的异构知识图谱对齐基准数据集,旨在评估跨本体匹配系统在大型真实图环境下的性能。该数据集基于MeSH与SNOMED CT两大生物医学资源的现有对齐关系,从源本体中提取图上下文信息,将15,000对黄金对齐实体嵌入到包含大量结构相关但非对齐背景实体的大规模知识图谱中。数据集的构建并非重新判定每条对齐的语义有效性,而是为研究对齐系统能否在异构图空间中恢复语义对应的生物医学实体提供支撑。
使用方法
该数据集以原始基准文件形式发布,包含ent_links、ent_links_uri、attr_triples_1等六个核心文件,用户应直接通过Hugging Face Hub下载并解析为制表符分隔的基准文件。典型使用方式包括使用huggingface_hub库中的hf_hub_download函数获取文件,并按行解析三元组及对齐对。数据集未预设统一的训练/验证/测试划分,研究者可根据跨导式检索、归纳式泛化等不同评估场景自行构建划分,并在报告中明确说明候选空间、匹配精度要求及可评估的黄金对数量,尤其需注明因图结构或属性缺失而被排除的实体。
背景与挑战
背景概述
MeSH-SNOMED Entity Alignment 15K是2026年由Vaibhavalakshmi Ravideshik及其合作者针对EMNLP 2026构建的异质知识图谱对齐基准,聚焦于连接美国国家医学图书馆维护的医学主题词表(MeSH)与SNOMED International开发的大型临床术语系统SNOMED CT。这两个本体虽同为生物医学领域的核心资源,却因设计初衷迥异——MeSH侧重文献索引与检索,SNOMED CT着眼临床语义表征——导致其在关系清单、属性风格、图密度与概念粒度上显著差异。该数据集通过提供包含15,000个金标准实体对齐对的基准,旨在推动跨本体映射研究,弥合文献导向与临床导向的语义鸿沟,对生物医学实体对齐、知识图谱表示学习及术语互操作性的发展具有深远影响。
当前挑战
该数据集面临的核心挑战在于其异质性根源:两大本体的模式不兼容要求对齐系统能够超越本体失配、词汇歧义、属性分布差异及图结构不对称的重重障碍,在充斥着大量非对齐干扰项的真实大规模图环境中精确甄别语义对应的实体。构建过程中,研究人员面临从海量原始本体中提取图上下文(MeSH关系三元组达6,948,511条,SNOMED CT为1,331,550条)并保持结构真实性的艰巨任务;少量金标准实体由于源数据稀疏性而在图表示中孤立,需依赖嵌入方法的论文明确报告可评估的对应对数。此外,由于金标准链接源自现有匹配资源而非全新判定,部分概念映射受粒度和同义性影响,加上两个本体持续演进,确保了基准的持续有效性亦成为突出挑战。
常用场景
经典使用场景
在生物医学知识图谱对齐领域,MeSH-SNOMED Entity Alignment 15K数据集作为一项跨本体对齐基准,其最经典的使用场景是评估异构图实体对齐系统在真实大规模图谱条件下的性能。研究者通常利用该数据集训练和测试模型在MeSH(医学主题词表)与SNOMED CT(临床术语系统)之间恢复语义等价实体的能力,尤其关注模型如何应对两个本体在关系目录、属性风格、图密度、概念粒度和局部拓扑结构上的显著差异。通过嵌入15,000个黄金对齐实体于包含数百万背景实体的巨大图结构中,该基准模拟了现实世界中本体对齐的非封闭环境,使得系统必须在众多语义相关但非等价干扰项中精准定位目标实体,从而推动跨本体匹配技术的深入发展。
解决学术问题
该数据集核心解决了生物医学信息互操作性中因本体异构性导致的实体对齐学术难题。MeSH与SNOMED CT虽同为重要生物医学资源,却服务于文献索引与临床记录的不同目的,造成两者在词表结构、关系体系乃至语义粒度上的深刻鸿沟。传统对齐方法常假设对称性或简化模式,而该基准通过呈现真实的不对称图谱环境——涵盖1138万MeSH与139万SNOMED CT属性三元组、694万与133万关系三元组——促使学术界重新审视跨本体对齐的复杂性。其意义在于首次系统性地将本体工程差异、图结构异质性与大规模干扰项纳入评估体系,为验证表示学习、图神经网络及大型语言模型在语义融合任务中的鲁棒性提供了关键标尺,进而推动生物医学本体对齐从简化场景向真实应用场景的范式转换。
实际应用
在实际应用中,MeSH-SNOMED Entity Alignment 15K数据集为跨生物医学系统的术语互操作性建设提供坚实支撑,具体表现为支持构建精确的跨本体映射工具,以桥接文献导向的MeSH索引结构与临床导向的SNOMED CT语义体系。例如,医疗信息系统可利用基于该数据集训练的实体对齐模型自动关联PubMed文献中的疾病术语与电子健康记录中的临床编码,从而提升检索精准度与数据整合效率。此外,该数据集还可赋能药物研发知识图谱的融合,将MeSH中的药理学分类与SNOMED CT中的临床表型连接,辅助发现潜在药物-靶点关联。通过在这些实际场景中验证图谱对齐算法的有效性,该基准加速了生物医学数据从异构来源到统一语义网络的转化进程,为精准医学与健康大数据分析奠定重要基础。
数据集最近研究
最新研究方向
当前,生物医学本体对齐研究正迎来异构图融合的浪潮,而MeSH-SNOMED Entity Alignment 15K基准数据集的问世,精准回应了跨本体匹配中大规模、异质性图谱的现实挑战。该数据集以MeSH(美国国立医学图书馆)与SNOMED CT(国际SNOMED组织)这两大核心生物医学资源为锚点,构建了一个包含15000对黄金对齐实体、近1900万个关系与属性三元组的异构知识图谱对齐基准。其前沿性体现在深刻模拟了真实应用场景——对齐实体被海量无关背景实体所包围,且两端的模式、结构与语义高度不对称。这促使研究者必须超越简单的同构假设,探索融合图神经网络、知识表示学习乃至大语言模型的多模态对齐策略。与之紧密关联的热点事件包括精准医学信息检索与临床决策支持系统中对术语互操作性的迫切需求,以及大型语言模型在生物医学推理中的语义鲁棒性挑战。该基准的深远意义在于,它不仅提供了一个可复现的评测舞台,更推动了跨本体、跨知识图谱通用对齐范式的发展,为未来构建全球统一的生物医学语义互联网络奠定了关键基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作