M3D

Name: M3D
Creator: 武汉大学
Published: 2024-12-05 18:00:58
License: 暂无描述

arXiv2024-12-05 更新2024-12-07 收录

下载链接：

https://github.com/solkx/m3d.git

下载链接

链接失效反馈

官方服务：

资源简介：

M3D数据集是由武汉大学创建的多模态、多语言、多任务数据集，旨在促进基于文档级的信息抽取研究。该数据集包含4093个样本，涵盖英语和中文两种语言，内容包括文本和视频的配对数据。数据集的创建过程包括从YouTube和bilibili爬取视频，分割视频片段，生成字幕，并进行手动标注。M3D数据集的应用领域主要集中在多模态信息抽取，旨在解决实体识别、实体链提取、关系抽取和视觉定位等任务。

The M3D Dataset is a multimodal, multilingual, and multitask dataset developed by Wuhan University, which is designed to promote research on document-level information extraction. It contains 4093 samples, covering English and Chinese languages, and includes paired text and video data. The construction process of the dataset involves crawling videos from YouTube and Bilibili, segmenting video clips, generating subtitles, and conducting manual annotation. The main application fields of the M3D Dataset focus on multimodal information extraction, aiming to address tasks such as entity recognition, entity linking, relation extraction, and visual grounding.

提供机构：

武汉大学

创建时间：

2024-12-05

搜集汇总

数据集介绍

构建方式

M3D数据集的构建过程始于从YouTube和bilibili平台分别爬取英语和中文的传记类视频。这些视频被分割成约1至2分钟的片段，并通过字幕生成工具生成对应的文本信息。随后，这些视频片段被采样，每24帧提取一张图像，最终形成待标注的图像和文本数据。经过人工标注，包括实体、实体链、实体关系和视觉目标的标注，形成了包含4093个多模态样本的M3D数据集。

使用方法

M3D数据集可用于训练和评估多模态信息提取模型。研究者可以通过该数据集开发和测试新的模型，特别是那些能够有效融合和利用多模态信息的模型。数据集的多样性和复杂性为模型的鲁棒性和性能提供了挑战，同时也为推动多模态信息提取技术的发展提供了宝贵的资源。

背景与挑战

背景概述

M3D数据集，全称为Multimodal, Multilingual, and Multitask Dataset for Grounded Document-level Information Extraction，由武汉大学和新加坡国立大学的研究人员共同构建。该数据集的创建旨在推动多模态信息提取（IE）领域的发展，特别是在文档级别的图像和视频信息提取方面。M3D数据集包含了丰富的多模态信息，支持英语和中文两种广泛使用的语言，并涵盖了实体识别、实体链提取、关系提取和视觉定位等多项任务。通过引入传记这一未被充分探索的主题，M3D数据集极大地丰富了多模态IE资源的领域。该数据集的构建不仅为后续研究提供了基准，还通过创新的层次多模态IE模型，有效整合了多模态信息，显著提升了信息提取任务的性能。

当前挑战

M3D数据集在构建过程中面临多项挑战。首先，多模态信息提取任务本身具有复杂性，尤其是在处理视频和文本的联合信息时，如何有效融合和利用这些信息是一个核心问题。其次，数据集的构建需要处理不同语言和模态之间的对齐问题，确保信息的准确性和一致性。此外，数据集的标注工作也极具挑战性，需要高精度的手动标注来确保数据质量。最后，如何在非理想情况下，即模态信息缺失时，仍能保持模型的鲁棒性和性能，是M3D数据集需要解决的重要问题。这些挑战不仅影响了数据集的构建过程，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

M3D数据集在多模态信息提取领域中具有广泛的应用，特别是在处理文档级别的实体识别、实体链提取、关系提取和视觉定位等任务时表现尤为突出。通过结合文本和视频数据，M3D能够有效地捕捉和整合多模态信息，从而提升信息提取的准确性和全面性。

解决学术问题

M3D数据集解决了现有多模态信息提取数据集在处理文档级别任务时的不足，特别是对视频数据的忽视和对多语言支持的缺乏。该数据集通过引入多语言和多任务支持，填补了学术研究中的空白，为多模态信息提取技术的发展提供了坚实的基础。

实际应用

在实际应用中，M3D数据集可以广泛应用于新闻报道、社交媒体分析、法律文档处理等领域。通过结合视频和文本数据，M3D能够提供更全面的信息提取服务，帮助用户快速获取和理解复杂文档中的关键信息。

数据集最近研究