MESED
收藏arXiv2023-07-27 更新2024-06-21 收录
下载链接:
https://github.com/THUKElab/MESED
下载链接
链接失效反馈官方服务:
资源简介:
MESED是由清华大学创建的第一个大规模多模态实体集扩展数据集,包含14,489个来自维基百科的实体和434,675对图像-句子。该数据集设计了26个粗粒度和70个细粒度语义类别,用于评估模型在处理复杂实体如负实体、同义实体、多义实体和长尾实体时的表现。MESED旨在通过多模态信息提高实体表示的准确性,解决单一文本模态在实体扩展任务中的局限性,并应用于知识挖掘、网络搜索、分类体系构建和知识图谱等领域。
MESED is the first large-scale multimodal entity set expansion dataset developed by Tsinghua University, comprising 14,489 entities sourced from Wikipedia and 434,675 image-sentence pairs. The dataset features 26 coarse-grained and 70 fine-grained semantic categories, designed to evaluate model performance when handling complex entities including negative entities, synonymous entities, polysemous entities and long-tail entities. MESED aims to improve the accuracy of entity representation via multimodal information, address the limitations of single-text modality in entity expansion tasks, and support applications in domains such as knowledge mining, web search, classification system construction and knowledge graphs.
提供机构:
清华大学
创建时间:
2023-07-27
搜集汇总
数据集介绍

构建方式
MESED数据集的构建采用了自上而下的方法,首先收集语义类别及其对应的实体,然后依次收集与实体相关的文本和视觉上下文。具体步骤包括:从维基百科中爬取语义类别和实体,随机抽取维基百科页面中的实体作为负例,并添加多义词和同义词以增加混淆;通过维基百科文章中的超链接收集实体标注的句子;使用Google图像搜索引擎收集与实体或句子相关的图像,并通过图像重排序算法选择最合适的图像。
特点
MESED数据集具有多个显著特点:首先,它是首个用于实体集扩展的多模态数据集,包含大规模的手动校准;其次,数据集设计了26个粗粒度和70个细粒度的语义类别,细粒度类别之间存在语义重叠,增加了扩展任务的难度;此外,数据集包含了多义词、同义词和长尾实体,以测试模型对稀有实体的理解能力。
使用方法
MESED数据集可用于评估和训练多模态实体集扩展模型。研究者可以使用该数据集进行模型训练和验证,通过比较不同模型的性能来优化算法。数据集提供了多种扩展设置,包括基于文本、视觉和多模态的扩展,支持多种模态信息的融合研究。此外,数据集的高质量标注和丰富的语义类别使其成为评估多模态实体理解能力的可靠基准。
背景与挑战
背景概述
MESED数据集由清华大学和鹏城实验室的研究团队于2023年创建,旨在解决多模态实体集扩展(MESE)任务中的复杂实体问题。该数据集是首个大规模多模态实体集扩展数据集,包含14,489个实体和434,675个图像-句子对,经过精细的人工校准。MESED数据集的构建旨在评估模型在处理多模态信息时的性能,并为未来的研究提供基准。其核心研究问题是如何利用多模态信息(如文本和图像)来扩展实体集,特别是处理具有细粒度语义差异、同义词、多义词和长尾实体等复杂情况。MESED数据集的发布对知识发现和自然语言处理领域具有重要影响,为多模态实体理解提供了新的研究方向。
当前挑战
MESED数据集面临的挑战主要包括两个方面:一是解决实体集扩展任务中的复杂实体问题,如细粒度语义差异、同义词、多义词和长尾实体的识别与扩展;二是在数据集构建过程中,如何确保多模态信息的有效性和一致性。具体挑战包括:1)如何从多模态信息中提取互补信息,以增强模型对实体的理解;2)如何处理多模态信息中的噪声和不一致性,确保图像与文本信息的准确对齐;3)如何设计有效的评估指标和基准设置,以全面评估模型在多模态实体扩展任务中的性能。这些挑战不仅推动了多模态实体扩展技术的发展,也为相关领域的研究提供了新的思路和方法。
常用场景
经典使用场景
MESED数据集的经典使用场景在于多模态实体集扩展任务(MESE),其中模型通过整合来自多种模态的信息来表示和扩展实体。该数据集特别适用于处理复杂实体,如具有细粒度语义差异的负实体、同义实体、多义实体和长尾实体。通过利用多模态信息,模型能够提供互补信息,通过共同的视觉属性提供统一的信号,并提供同义实体的鲁棒对齐信号。
解决学术问题
MESED数据集解决了传统单模态实体集扩展方法在处理复杂实体时的局限性,特别是在区分细粒度语义差异、处理同义和多义实体以及理解长尾实体方面。该数据集的引入为多模态实体集扩展任务提供了高质量的基准,推动了相关领域的研究进展,并为未来的研究指明了方向。
衍生相关工作
MESED数据集的发布催生了一系列相关研究工作,特别是在多模态实体理解和扩展领域。例如,基于MESED数据集,研究者提出了强大的多模态模型MultiExpan,并通过多种自监督预训练任务进行训练。此外,该数据集还激发了对生成式预训练模型(如GPT-4)在多模态实体扩展任务中应用的探索,进一步推动了多模态实体理解技术的发展。
以上内容由遇见数据集搜集并总结生成



