five

Unified Multimodal Relation Extraction (UMRE)

收藏
arXiv2025-09-05 更新2025-09-09 收录
下载链接:
https://arxiv.org/pdf/2509.04844.pdf
下载链接
链接失效反馈
资源简介:
UMRE数据集是一个统一的跨模态关系抽取数据集,旨在同时提取文本实体和视觉对象之间的模态内和模态间关系。该数据集包含28种关系类型,拥有55021个标注的跨模态关系三元组,来源于12737个文本-图像对。UMRE数据集的构建过程包括两个阶段:首先,使用多模态大型语言模型识别和提取文本和图像数据中的潜在候选实体和对象;其次,招募教育背景良好的标注员分析图像和文本信息,识别文本实体和视觉对象之间的模态内和模态间关系。UMRE数据集旨在解决跨模态检索和多模态知识图谱构建等领域的相关问题。
提供机构:
中国科学院信息工程研究所,中国科学院大学网络空间安全学院,北京,中国
创建时间:
2025-09-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
UMRE数据集的构建遵循严谨的两阶段流程,融合自动化提取与人工验证以确保标注质量。第一阶段采用多模态大语言模型(如Qwen2-VL、LLAMA3.2-Vision)识别文本和图像中的候选实体与对象,通过CLIP计算多模态表示相似性筛选支持集样本,并利用RoBERTa模型和LLaVA处理空间位置描述以生成精确边界框。第二阶段由六名受过教育的标注员分析图文信息,独立标注模态内与模态间关系,所有三元组均经过至少两名标注员复核,并由独立裁决员最终确定,加权Cohen's Kappa一致性系数达0.7325。
特点
UMRE数据集作为首个统一多模态关系抽取基准,涵盖文本实体与视觉对象间的模态内及模态间关系,包含55,021个标注多模态关系三元组,源自12,737个图文对。其特点在于超越传统数据集的单一关系类型限制,支持三类关系抽取:文本实体间、视觉对象间及跨模态实体-对象关系,涵盖28种关系类型并引入自反关系以表征同一实体的跨模态指代。数据规模与多样性均显著优于现有MRE数据集,如MNRE和MORE,为复杂多模态推理提供更全面的评估场景。
使用方法
UMRE数据集适用于评估统一多模态关系抽取模型的性能,支持同时处理文本实体与视觉对象的三类关系预测。使用时需将文本输入与图像数据对齐,提取实体集和对象集作为模型输入,输出涵盖(e,e,r)、(o,o,r)及(e,o,r)的复合关系集合。该数据集可作为训练与测试基准,用于验证模型在动态跨模态交互、多层次特征融合及噪声过滤方面的能力,尤其适合检验混合专家机制与最优传输理论在多模态对齐中的有效性。
背景与挑战
背景概述
Unified Multimodal Relation Extraction (UMRE) 数据集由中国科学院信息工程研究所的研究团队于2025年创建,旨在推动多模态知识图谱构建领域的发展。该数据集的核心研究问题在于统一提取文本实体与视觉对象之间的模态内和模态间关系,突破传统方法仅能处理单一类型关系三元组的局限。UMRE包含55,021个标注的多模态关系三元组,涵盖28种关系类型,显著提升了多模态关系提取任务的复杂性和多样性,为跨模态检索和多媒体内容理解提供了重要支撑。
当前挑战
UMRE 数据集解决的领域问题挑战包括多模态关系提取中的异构信息融合、动态跨模态交互建模以及长尾关系类型的识别。构建过程中的挑战涉及多源数据对齐的复杂性,例如文本实体与视觉对象的精确匹配;标注一致性的保障,需通过多阶段人工验证降低歧义;以及多模态大语言模型生成内容的可靠性优化,以确保数据质量与规模间的平衡。
常用场景
经典使用场景
在多媒体知识图谱构建领域,UMRE数据集作为首个统一多模态关系抽取基准,主要应用于跨模态语义对齐与关系三元组联合抽取任务。该数据集通过整合文本实体与视觉对象之间的模态内及模态间关系,为研究者提供了验证多模态融合模型性能的标准测试平台,特别是在处理头尾实体可能分别来自文本或图像的复杂场景时展现出色适应性。
实际应用
该数据集在智能媒体分析、跨模态检索系统及多媒体知识图谱构建中具有重要应用价值。其支持新闻媒体内容的结构化解析、社交多媒体信息的深度理解,以及视觉-语言协同的智能问答系统开发。通过精准识别图像中视觉对象与文本描述的语义关联,为自动驾驶场景理解、医疗影像报告生成等垂直领域提供多模态关系抽取能力。
衍生相关工作
基于UMRE数据集衍生的经典工作包括多层级最优传输融合模型(MOT)与多专家混合机制(MMoE)的协同框架,这些创新方法显著提升了跨模态特征对齐的精度。后续研究进一步拓展了基于大语言模型的多模态实体识别、层次化视觉语境学习器等方向,推动了动态路由机制与最优传输理论在多模态推理中的深度融合与应用。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作