M3

github2024-05-27 更新2024-05-31 收录

下载链接：

https://github.com/Q-17/M3-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

M3是一个多模态实体对齐（MMEA）基准数据集，配备了从各自搜索引擎检索到的多个图像，更好地反映了现实生活中的挑战。该数据集基于广泛使用的DBP15K数据集，包括中文-英文、日文-英文和法文-英文三个跨语言数据集。

M3 is a multimodal entity alignment (MMEA) benchmark dataset, equipped with multiple images retrieved from their respective search engines, better reflecting real-world challenges. This dataset is based on the widely used DBP15K dataset and includes three cross-lingual datasets: Chinese-English, Japanese-English, and French-English.

创建时间：

2024-05-25

原始信息汇总

M3数据集概述

数据集描述

名称: M3: A Multi-Image Multi-Modal Entity Alignment Dataset
版本: 1.0.0
目的: 旨在通过多模态知识图谱（MMKGs）间的实体对齐，促进不同MMKGs的整合与覆盖增强。
特点:
- 包含多个图像，来自不同数据源，更真实地反映现实挑战。
- 使用DBP15K作为基础数据集，包含三种跨语言数据集：中文-英文、日文-英文、法文-英文。

数据集对比

与其他MMEA基准比较:
- 实体覆盖率: M3在所有语言对中均达到或接近100%的覆盖率，显著高于其他基准。
- 相似度指标: M3的相似度指标较低，表明数据集难度较高。

基准	语言	实体数	关系数	对齐实体对数	覆盖率	相似度	SSIM
M3	中文	19388	1701	15000	98.9%	0.648	0.2592
M3	英文	19572	1323	15000	99.9%	0.648
M3	日文	19814	1299	15000	100.0%	0.634	0.1722
M3	英文	19780	1153	15000	100.0%	0.648
M3	法文	19661	903	15000	99.9%	0.698	0.1880
M3	英文	19993	1208	15000	99.9%	0.648

数据集访问

图像信息下载: 可通过Baidu Cloud Drive获取，提取码为mmm3。
图像嵌入文件下载: 使用ResNet-152获取的嵌入文件可通过Baidu Cloud Drive获取，提取码为embb。

搜集汇总

数据集介绍

构建方式

在多模态实体对齐（MMEA）领域，现有的数据集往往存在实体覆盖率低、每个实体仅有一张图片、图片间高度相关以及依赖单一搜索引擎等问题，这些简化场景可能阻碍对齐解决方案的公平比较和发展。为解决这一问题，M3数据集应运而生。M3基于广泛使用的DBP15K数据集构建，涵盖中文-英文、日文-英文和法文-英文三种跨语言数据集。M3通过从不同搜索引擎检索多张图片，更好地模拟了现实世界中的挑战，从而提升了数据集的复杂性和实用性。

特点

M3数据集的主要特点在于其多模态和多图像的特性。与现有MMEA基准相比，M3不仅提供了更高的实体覆盖率和更低的图片相似度，还引入了多图像处理模块（AMIA），该模块通过为与实体相关的不同图片分配不同的注意力权重，有效地建模了视觉信息。此外，M3的数据集结构设计旨在反映真实世界的复杂性，从而为研究者提供了一个更具挑战性的基准，以推动多模态实体对齐技术的发展。

使用方法

M3数据集的使用方法相对直接。研究者可以通过提供的百度云链接下载原始图像数据及其嵌入文件。数据集的图像嵌入使用ResNet-152模型生成，这些嵌入文件同样可通过百度云链接获取。在论文发表后，数据集的详细实现、图像嵌入文件和代码信息将公开。当前，研究者可以利用已公开的部分原始图像信息进行初步探索和实验，为后续的深入研究奠定基础。

背景与挑战

背景概述

在多模态知识图谱（MMKG）领域，多模态实体对齐（MMEA）旨在识别不同知识图谱中的等价实体，以促进其整合并增强覆盖范围。然而，现有的MMEA数据集存在诸多局限，如实体覆盖率低、每个实体仅有一张图片、图片间高度相关以及依赖单一搜索引擎等，这些简化场景未能反映现实世界的挑战，可能阻碍对齐解决方案的公平比较和发展。为此，M3数据集应运而生，该数据集通过从不同数据源获取多张图片，构建了一个更贴近现实挑战的MMEA基准。M3数据集基于广泛使用的DBP15K数据集，涵盖了中英、日英和法英三种跨语言数据集，旨在为多模态实体对齐研究提供更为复杂和真实的测试环境。

当前挑战

M3数据集在构建过程中面临多项挑战。首先，如何从不同搜索引擎获取多样化的图片，确保图片间的低相关性，是数据集构建的核心难题。其次，多模态实体对齐任务本身具有高度复杂性，需要处理不同语言和模态间的信息差异，这对现有的对齐算法提出了更高的要求。此外，数据集的覆盖率和相似度评估也是一大挑战，如何在保证数据质量的同时，提高实体对齐的准确性和效率，是未来研究的重要方向。尽管M3数据集已经引入了多图片处理模块（AMIA），但其性能仍有提升空间，期待更先进的解决方案来应对这些挑战。

常用场景

经典使用场景

在多模态实体对齐（MMEA）领域，M3数据集的经典使用场景主要集中在跨模态知识图谱（MMKGs）中实体的识别与对齐。通过提供来自不同数据源的多张图像，M3数据集能够更真实地模拟现实世界中的挑战，如低实体覆盖率、单张图像的局限性、高图像间相关性等问题。研究者可以利用该数据集开发和验证多模态实体对齐算法，特别是那些需要处理多张图像的复杂场景。

衍生相关工作

M3数据集的发布催生了一系列相关研究工作，特别是在多模态实体对齐和多图像处理领域。例如，基于M3数据集，研究者开发了多种多模态实体对齐算法，如基于注意力机制的多图像处理方法，显著提升了对齐的准确性和鲁棒性。此外，M3数据集还启发了在多模态知识图谱构建和集成方面的研究，推动了跨模态数据融合技术的发展。这些衍生工作不仅丰富了多模态实体对齐的理论基础，也为实际应用提供了强有力的技术支持。

数据集最近研究