WIKIDiverse
收藏arXiv2022-04-13 更新2024-06-21 收录
下载链接:
https://github.com/wangxw5/wikiDiverse
下载链接
链接失效反馈官方服务:
资源简介:
WIKIDiverse是一个高质量的人工标注多模态实体链接数据集,由复旦大学计算机科学与技术学院等机构创建。该数据集包含8000个从Wikinews收集的图像-标题对,涵盖多样化的上下文主题和实体类型。数据集创建过程中采用了精心设计的标注程序以确保数据质量。WIKIDiverse主要应用于多模态理解任务,如视觉问答、多模态检索和多模态知识库的构建,旨在解决现有数据集在上下文主题和实体类型多样性方面的不足。
WIKIDiverse is a high-quality manually annotated multimodal entity linking dataset, created by the School of Computer Science and Technology of Fudan University and other institutions. This dataset comprises 8,000 image-caption pairs collected from Wikinews, covering diverse contextual topics and entity types. A carefully designed annotation procedure was adopted during the dataset creation process to ensure data quality. WIKIDiverse is primarily applied to multimodal understanding tasks such as Visual Question Answering (VQA), multimodal retrieval and multimodal knowledge base construction, aiming to address the shortcomings of existing datasets in terms of the diversity of contextual topics and entity types.
提供机构:
复旦大学计算机科学与技术学院
创建时间:
2022-04-13
搜集汇总
数据集介绍

构建方式
在新闻领域,多模态实体链接任务需要高质量的数据支撑。WIKIDiverse的构建过程始于对Wikinews平台2007年至2020年英文新闻的系统性采集,覆盖体育、政治、娱乐、灾害、科技等十余个主题,初步获得14,000对图像-标题数据。经过严格的内容清洗,去除包含不良信息或文本过短的样本,最终保留7,823对高质量数据。标注工作由13名经过培训的标注员和2名专家协同完成,采用双人独立标注与专家仲裁机制,确保标注一致性;标注过程涵盖实体提及检测与维基百科实体链接两个步骤,并针对七种常见实体类型进行细化标注,最终获得科恩卡帕系数超过83%的高一致性标注结果。
特点
该数据集在内容覆盖与任务挑战性方面展现出显著特点。其数据源选自Wikinews新闻,天然涵盖了超过十个多样化主题,突破了以往多模态实体链接数据集在主题分布上的局限。同时,数据集中实体类型分布广泛,不仅包含常见的人物与组织,还纳入了地点、事件、作品等多种类型,极大拓展了模型的适用场景。更为重要的是,数据集中超过51%的实体提及与目标实体在表面形式上存在差异,其中16%完全不同,且44.2%的提及拥有超过十个候选实体,呈现出高度的语义模糊性,为模型区分与推理能力提供了严峻考验。
使用方法
该数据集适用于多模态实体链接模型的训练与评估,其使用遵循典型的两阶段流程。研究首先通过候选实体检索模块,融合基于维基百科的先验概率、文本上下文相似度以及视觉特征匹配等多种线索,从包含约1,600万实体的知识库中筛选出TopK候选实体集合。随后,在实体消歧阶段,模型利用如UNITER、LXMERT等融合了模态内与模态间注意力机制的多模态编码器,对提及与候选实体的文本及视觉上下文进行深度交互与对齐,计算匹配分数并最终确定链接实体。数据集已按8:1:1的比例划分为训练集、验证集与测试集,便于进行模型训练、超参数调优与性能评测。
背景与挑战
背景概述
WIKIDiverse数据集由复旦大学、阿里巴巴集团等机构的研究团队于2021年共同构建,旨在解决多模态实体链接任务中现有数据集在上下文主题、实体类型和歧义覆盖方面的局限性。该数据集基于Wikinews新闻平台,包含约8000个图像-标题对,并链接至包含约1600万个实体的维基百科知识库。其核心研究问题在于如何利用文本与视觉模态的互补信息,将多模态语境中的提及准确映射到知识库中的对应实体,从而推动多模态理解、信息检索等下游应用的发展。该数据集的发布为多模态实体链接领域提供了更丰富、更具挑战性的评估基准,显著提升了模型的泛化能力与研究深度。
当前挑战
WIKIDiverse数据集面临的挑战主要体现在两个方面:其一,在解决多模态实体链接领域问题时,模型需有效融合文本与视觉信息以应对实体歧义,例如数据集中51.31%的提及与实体表面形式不一致,且44.2%的提及拥有超过10个候选实体,要求模型具备细粒度的跨模态对齐与推理能力;其二,在构建过程中,研究团队需克服数据源选择、标注质量保证等难题,例如通过设计双层标注流程与详细指南以确保标注一致性,同时需处理图像-文本对间的噪声对齐问题,并平衡多主题、多实体类型的覆盖范围,以构建具有高多样性与研究价值的数据资源。
常用场景
经典使用场景
在跨模态信息理解领域,WIKIDiverse数据集常被用于评估和训练多模态实体链接模型。该数据集通过精心设计的标注流程,将来自维基新闻的图像-标题对中的文本提及与维基百科知识库中的实体进行精确关联。研究者利用其丰富的多模态上下文,探索文本与视觉信息的交互机制,以提升模型在复杂真实场景下的实体消歧能力。其涵盖的多样化话题和实体类型,使得模型能够超越传统社交媒体的局限,在新闻领域实现更广泛的泛化性能验证。
解决学术问题
WIKIDiverse主要解决了多模态实体链接研究中因数据局限而引发的若干学术问题。传统数据集往往受限于狭窄的话题范围、单一的实体类型以及简化的提及歧义,导致模型难以应对真实世界的复杂性。该数据集通过引入超过十种新闻话题和七类常见实体类型,显著扩展了研究边界。其涵盖的十种提及歧义类型,如异名同指、转喻和缩写等,为深入探究多模态环境下的实体消歧机制提供了坚实基础,推动了该领域从有限场景向通用场景的演进。
衍生相关工作
围绕WIKIDiverse数据集,学界衍生出一系列经典的多模态实体链接研究工作。论文中提出的基于UNITER和LXMERT架构的基线模型,引入了模态内与模态间注意力机制,更充分地利用了视觉信息。后续研究在此基础上,进一步探索了对比学习策略以增强实体表示的判别力,并分析了不同视觉线索(如物体、场景、属性)对链接任务的贡献。这些工作不仅验证了多模态融合的有效性,也为细粒度视觉推理、噪声图像鲁棒性处理等方向提供了新的研究路径。
以上内容由遇见数据集搜集并总结生成



