M-MRE

Name: M-MRE
Creator: 中国科学技术大学
Published: 2025-04-24 16:14:36
License: 暂无描述

arXiv2025-04-24 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.17353v1

下载链接

链接失效反馈

官方服务：

资源简介：

M-MRE数据集是基于现有GMNER数据集构建的，用于支持多模态信息提取领域的多模态相互强化效应（M-MRE）任务。该数据集融合了细粒度和粗粒度任务，包括实体识别、图像分割和图像描述。数据集通过利用大型语言模型生成图像描述，并结合现有的实体识别数据，实现了多模态任务的相互强化，旨在提升模型在多模态信息提取任务中的性能。

The M-MRE dataset is constructed based on the existing GMNER dataset, and is developed to support the multimodal mutual reinforcement effect (M-MRE) task in the field of multimodal information extraction. This dataset integrates both fine-grained and coarse-grained tasks, including entity recognition, image segmentation, and image captioning. By leveraging large language models to generate image captions and combining with existing entity recognition data, the dataset realizes mutual reinforcement among multimodal tasks, with the aim of improving the performance of models in multimodal information extraction tasks.

提供机构：

中国科学技术大学

创建时间：

2025-04-24

搜集汇总

数据集介绍

构建方式

M-MRE数据集的构建基于现有的Grounded Multimodal Named Entity Recognition (GMNER)数据集，通过引入多模态互增强效应（MRE）的概念，扩展了原有的细粒度标注。具体而言，研究团队利用大型语言模型（如GPT-4o）生成图像摘要作为粗粒度任务标注，随后通过人工审核确保标注质量。这一过程不仅保留了原始数据集的细粒度实体识别和图像分割匹配任务，还新增了图像整体描述的粗粒度任务，从而形成了完整的M-MRE任务框架。数据集的构建充分考虑了多模态任务间的互补性，为后续研究提供了高质量的基准数据。

使用方法

使用M-MRE数据集时，研究者可通过Prompt Format Adapter (PFA)框架统一处理多模态任务。PFA为大型视觉语言模型（LVLM）提供了标准化的输入输出接口，能够同时处理图像摘要生成、实体识别和图像块匹配三个子任务。具体而言，输入包括原始图像、分割图像块和文本描述，输出则结构化地包含摘要文本、标签-实体对序列以及图像块-实体匹配关系。评估时可采用ROUGE、BLEU等指标衡量摘要质量，F1分数评估实体识别性能，准确率衡量图像匹配效果。这种统一的任务框架使得模型能够充分利用多模态信息，实现任务间的互增强效应。

背景与挑战

背景概述

M-MRE数据集由横滨国立大学、武汉科技大学、莫纳什大学、南方科技大学、香港科技大学、上海交通大学和中国科学院深圳先进技术研究院的研究团队于2025年联合提出，旨在探索多模态信息抽取领域中的相互增强效应（Mutual Reinforcement Effect, MRE）。该数据集基于Grounded Multimodal Named Entity Recognition (GMNER)数据集构建，通过引入图像摘要任务作为粗粒度组件，与细粒度的多模态命名实体识别任务形成联合建模框架。M-MRE的提出首次将MRE理论从纯文本领域扩展至多模态场景，为视觉-语言联合理解提供了新的研究范式，推动了多模态信息抽取模型的可解释性研究。

当前挑战

M-MRE数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决多模态实体识别中视觉与文本特征的对齐难题，以及粗/细粒度任务间知识迁移的量化评估问题；在构建过程中，需克服跨模态标注一致性维护的困难，包括图像区域分割与文本实体的精确匹配、基于大语言模型生成的摘要质量控制等。此外，设计兼容不同大规模视觉-语言模型的统一提示适配器（PFA）也面临多任务指令融合与结构化输出约束的技术挑战。

常用场景

经典使用场景

M-MRE数据集在跨模态信息抽取领域具有重要应用价值，其经典使用场景涵盖多模态命名实体识别（MNER）与图像摘要生成任务的联合建模。该数据集通过整合文本实体标注与视觉对象分割数据，并辅以GPT-4生成的图像摘要，为研究多模态任务间的相互增强效应提供了标准化实验平台。在学术研究中，常被用于验证视觉语言大模型在细粒度实体识别与粗粒度图像理解之间的协同优化机制。

解决学术问题

该数据集有效解决了多模态信息抽取中任务割裂研究的核心问题，首次实证验证了文本域相互增强效应（MRE）在跨模态场景的普适性。通过统一标注框架将图像摘要（粗粒度）与实体-图像对齐（细粒度）任务关联，为探索模态间知识迁移提供了量化基准。其创新性的Prompt Format Adapter设计突破了传统方法在结构化输出上的局限性，推动了多模态联合建模理论的发展。

实际应用

在实际应用层面，M-MRE数据集支撑的技术可显著提升社交媒体内容分析系统的性能。例如在新闻事件分析中，系统能同步完成新闻图片的语义摘要生成和关键实体（如人物、组织）的视觉定位；在电子商务领域，可实现商品图文描述中特征实体与展示图像的自动化关联，为智能检索和推荐系统提供结构化数据支持。

数据集最近研究