WikiDiverse, RichpediaMEL, WikiMEL

Name: WikiDiverse, RichpediaMEL, WikiMEL
Creator: 韩国科学技术院(KAIST), 韩国汉阳大学(Hanyang University)
Published: 2025-04-21 22:38:44
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://github.com/juyeonnn/KGMEL

下载链接

链接失效反馈

官方服务：

资源简介：

KGMEL使用的数据集包括WikiDiverse、RichpediaMEL和WikiMEL，这些数据集用于训练和评估多模态实体链接的性能。WikiDiverse包含多样化的话题和实体，RichpediaMEL和WikiMEL则提供了丰富的文本和图像上下文。这些数据集有助于研究如何结合文本、图像和知识图谱三元组来提高实体链接的准确性。

The datasets utilized by KGMEL include WikiDiverse, RichpediaMEL and WikiMEL, which are employed for training and evaluating the performance of multimodal entity linking. WikiDiverse covers diverse topics and entities, whereas RichpediaMEL and WikiMEL provide rich textual and visual contexts. These datasets facilitate research on how to combine text, images and knowledge graph triples to improve the accuracy of entity linking.

提供机构：

韩国科学技术院(KAIST), 韩国汉阳大学(Hanyang University)

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

WikiDiverse、RichpediaMEL和WikiMEL数据集的构建基于多模态实体链接（MEL）任务的需求，通过整合知识图谱（KG）三元组、文本和视觉信息来增强实体消歧能力。具体而言，这些数据集从Wikidata知识库中提取实体，并通过SPARQL查询获取相关三元组。每个实体包含文本描述、视觉上下文及大量结构化三元组，而提及（mention）则仅包含文本和图像信息。数据集的构建过程特别注重三元组的丰富性和语义关联性，以支持多模态信息的深度融合。

使用方法

这些数据集的使用方法主要围绕KGMEL框架的三阶段流程展开。在生成阶段，利用视觉语言模型（VLM）从提及的文本和图像中生成高质量三元组；在检索阶段，通过对比学习将文本、图像和三模态嵌入融合为联合表示，并检索候选实体；在重排序阶段，过滤无关的三元组并利用大语言模型（LLM）确定最佳匹配实体。实验表明，该方法在HITS@1指标上优于现有基准，验证了三模态信息整合的有效性。

背景与挑战

背景概述

WikiDiverse、RichpediaMEL和WikiMEL是三个多模态实体链接（Multimodal Entity Linking, MEL）领域的基准数据集，由KAIST和Hanyang University的研究团队于2025年提出，并发表于国际ACM SIGIR会议。这些数据集旨在解决传统实体链接任务中仅依赖文本信息导致的歧义性问题，通过整合文本、图像和知识图谱（KG）三元组等多模态信息，提升实体链接的准确性。研究团队观察到知识图谱中的结构化三元组能提供比文本描述更丰富的语义信息（如实体类型、关系和属性），从而显著改善实体消歧效果。该工作提出的KGMEL框架通过生成-检索-重排序三阶段流程，在三个数据集上实现了最高19.13%的性能提升，推动了多模态知识表示与语义对齐领域的发展。

当前挑战

构建多模态实体链接数据集面临双重挑战。在领域问题层面，传统实体链接方法难以处理视觉-文本模态间的语义鸿沟，例如图像中的篮球运动员与文本描述的演员身份可能指向同一实体（如Kevin Durant），需通过跨模态对齐解决歧义。在构建过程层面，知识图谱三元组的处理存在特殊性：1) 实体平均关联数百条三元组（如WikiDiverse中达459.3条），但仅少量与特定提及相关，需设计高效过滤机制；2) 提及本身缺乏预定义三元组，需利用视觉-语言模型（VLM）从零生成，这对模型的跨模态推理能力提出极高要求。实验表明，即使采用GPT-4o-mini生成三元组，仍需通过对比学习和门控融合机制消除30%以上的噪声三元组影响。

常用场景

经典使用场景

WikiDiverse、RichpediaMEL和WikiMEL数据集在多模态实体链接（MEL）研究中具有重要地位。这些数据集通过整合文本、图像和知识图谱三元组，为研究者提供了丰富的多模态信息。在经典使用场景中，研究者通常利用这些数据集来开发和评估多模态实体链接算法。例如，KGMEL框架通过生成-检索-重排的三阶段流程，充分利用数据集中的多模态信息，显著提升了实体链接的准确率。这些数据集的高质量标注和丰富的知识图谱信息，使其成为MEL领域的重要基准。

解决学术问题

WikiDiverse、RichpediaMEL和WikiMEL数据集解决了多模态实体链接中的多个关键学术问题。首先，它们通过整合文本和图像信息，有效减少了实体歧义，提升了链接准确性。其次，这些数据集首次系统性地引入了知识图谱三元组，弥补了传统方法忽略结构化信息的缺陷。KGMEL框架的实验表明，利用这些数据集可以解决候选实体检索中的语义鸿沟问题，并通过三元组过滤和重排机制显著提升HITS@1指标。这些贡献为多模态知识表示和跨模态语义对齐提供了新的研究思路。

实际应用

在实际应用场景中，WikiDiverse、RichpediaMEL和WikiMEL数据集支撑了多个重要系统的开发。基于这些数据集构建的MEL系统可广泛应用于语义搜索、智能问答和对话系统等领域。例如，在电商平台中，这类技术可以准确链接商品描述中的实体到知识库；在新闻推荐系统中，能够实现跨模态的内容理解和关联。KGMEL框架展示的19.13%性能提升，预示着这些数据集在提升商业系统准确性方面的巨大潜力。

数据集最近研究