Name: MORE
Creator: 南京大学新型软件技术国家重点实验室
Published: 2023-12-15 20:47:00
License: 暂无描述

arXiv2023-12-15 更新2024-06-21 收录

下载链接：

https://github.com/NJUNLP/MORE

下载链接

链接失效反馈

官方服务：

资源简介：

MORE数据集是由南京大学新型软件技术国家重点实验室创建的，包含20,264个多模态关系事实，涉及21种关系类型。该数据集基于2019至2022年间的《纽约时报》和雅虎新闻的多模态新闻数据构建，旨在提取文本和图像数据中的“对象-实体”关系事实。数据集的创建过程包括数据收集、实体和对象的自动识别与手动校正、关系的手动标注以及对象重叠数据的过滤。MORE数据集的应用领域主要集中在多媒体和知识图谱领域，旨在解决多模态数据中关系提取的挑战，特别是在文本和图像数据中识别和提取关系事实的问题。

The MORE dataset was developed by the State Key Laboratory for Novel Software Technology at Nanjing University, which contains 20,264 multimodal relational facts covering 21 types of relationships. Constructed from multimodal news data of The New York Times and Yahoo News between 2019 and 2022, this dataset is designed to extract 'object-entity' relational facts from both text and image data. The dataset creation workflow encompasses data collection, automatic recognition and manual correction of entities and objects, manual annotation of relationships, as well as filtering of overlapping object data. The MORE dataset is primarily applied in the fields of multimedia and knowledge graphs, targeting to solve the challenges of relation extraction in multimodal data, especially the task of identifying and extracting relational facts from text and image modalities.

提供机构：

南京大学新型软件技术国家重点实验室

创建时间：

2023-12-15

搜集汇总

数据集介绍

构建方式

在多媒体与知识图谱领域，从多模态数据中提取关系事实是构建知识图谱的关键任务。MORE数据集的构建过程分为三个阶段：首先，从《纽约时报》和雅虎新闻中筛选出包含文本新闻标题与对应图像的候选数据，并利用AllenNLP命名实体识别工具和Yolo V5目标检测工具自动识别文本中的实体与图像中的对象区域，随后由人工审核修正；其次，通过人工标注方式，由至少两名标注者独立推断实体与对象间的关系，并采用加权Cohen's Kappa系数确保标注一致性；最后，通过过滤文本中已提及的视觉对象，确保数据聚焦于跨模态的对象-实体关系，最终形成包含3,559对文本-图像数据、20,264个多模态关系事实的数据集。

特点

MORE数据集在多媒体关系提取领域展现出独特优势。其规模显著，涵盖21种关系类型、13,520个视觉对象，平均每幅图像包含3.8个对象，为模型处理多对象歧义提供了挑战性场景。数据集中超过77%的实例涉及文本中多个实体或图像中多个对象，凸显了任务复杂性。此外，该数据集专注于跨模态关系提取，即实体源自文本、对象源自图像，要求模型深入理解文本与视觉语义的交互，并解决语义不一致性问题，从而推动了多模态理解技术的发展。

使用方法

MORE数据集适用于多模态对象-实体关系提取任务的模型训练与评估。使用时，需将文本句子与对应图像作为输入，其中文本中的实体和图像中的对象区域需预先提取。模型需预测实体与对象间的关系类别，任务可形式化为函数F = (e, o, S, V) → R，其中e和o分别代表实体与对象，S为包含实体的句子，V为包含对象的图像。数据集中已划分训练、开发和测试集，分别包含15,486、1,742和3,036个关系事实，支持使用准确率、精确率、召回率和F1值等指标进行性能评估，尤其注重F1分数以应对类别不平衡分布。

背景与挑战

背景概述

在多媒体与知识图谱领域，从多模态数据中提取关系事实是一项关键任务，对现实应用具有深远影响。MORE数据集由南京大学软件新技术国家重点实验室的研究团队于2023年创建，旨在解决跨模态对象-实体关系提取这一新兴问题。该数据集聚焦于文本与图像中实体与对象的交互，包含21种关系类型、20,264个多模态关系事实，基于3,559对新闻标题与对应图像构建。其核心研究在于突破传统多模态关系提取的局限，即仅关注同一模态内实体的关系，转而探索文本实体与图像对象间的跨模态关联，为构建更丰富的多模态知识图谱提供了重要资源，推动了视觉-语言理解领域的前沿发展。

当前挑战

MORE数据集所针对的多模态对象-实体关系提取任务面临多重挑战。在领域问题层面，模型需克服文本与图像间的语义不一致性，例如新闻标题未必直接描述配图内容，同时图像中常包含多个对象，要求模型具备精准的多对象消歧能力，以识别文本所指的特定视觉对象。在构建过程中，数据采集需从海量新闻中筛选高质量图文对，并设计严谨的三阶段标注流程，包括实体识别、对象检测及关系标注，确保跨模态关系的准确性与一致性。此外，数据分布呈现长尾特性，部分关系样本稀少，加剧了模型训练的难度。

常用场景

经典使用场景

在多媒体与知识图谱交叉领域，MORE数据集为跨模态关系抽取任务提供了基准评估平台。该数据集通过精心构建的新闻标题与对应图像配对，聚焦于从文本中提取的实体与图像中检测的视觉对象之间的语义关联。其经典使用场景在于推动模型深入理解文本与视觉模态间的复杂交互，特别是在实体与对象分别存在于不同模态的设定下，为研究跨模态语义对齐与多对象消歧提供了标准化实验环境。

衍生相关工作

围绕MORE数据集，研究者已衍生出一系列创新性工作。以MOREformer为代表的模型架构，通过引入属性感知文本编码、深度感知视觉编码与位置融合多模态编码等机制，显著提升了跨模态关系抽取的性能。同时，该数据集也促进了多模态预训练模型（如ViLBERT、VisualBERT）在细粒度对齐任务上的适应性研究，并激发了针对长尾关系分布、多对象消歧等挑战的算法探索，为后续跨模态推理与知识发现研究提供了重要范式。

数据集最近研究