wmt24pp-images

Name: wmt24pp-images
Creator: Google
Published: 2025-02-18 15:22:32
License: 暂无描述

Hugging Face2025-02-18 更新2025-02-20 收录

下载链接：

https://huggingface.co/datasets/google/wmt24pp-images

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含图片、文档ID、原始URL、镜像URL和源文件是否可用的信息。测试集共有170个样本，数据集总大小为151464233字节。提供了数据集的下载链接和配置信息。

This dataset contains information including images, document IDs, original URLs, mirror URLs, and the availability status of source files. The test set consists of 170 samples in total, and the overall size of the dataset is 151,464,233 bytes. Download links and configuration information for the dataset are provided.

提供机构：

Google

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

WMT24++ Images数据集的构建旨在保存原始文档的结构，包含嵌入的图像，以供多模态翻译或语言理解使用。该数据集包含了文档的完整页面截图，每个截图均为固定宽度（750px）且长度可变，基于内容的不同而不同。若原始资源不可用，则以750x750px的黑色占位图替代。数据集通过收集文档的原始URL、镜像URL以及标识资源可用性的布尔值来构建。

特点

WMT24++ Images数据集显著的特点在于其包含了多语言及方言的文档截图，这些文档截图能够保留翻译片段中嵌入的图像和原始文档结构。此外，数据集中的每个文档均具有唯一的标识符，方便追踪和引用。该数据集采用Apache-2.0协议进行许可，确保了数据的开放性和可访问性。

使用方法

用户可以通过HuggingFace的数据集接口来访问和使用WMT24++ Images数据集。数据集的配置文件提供了必要的路径信息，以便加载测试split的数据。在使用时，用户需要根据提供的字段名，如'image'、'document_id'等，来访问相应的数据。此外，用户在使用数据集的研究成果时，应正确引用相关论文以符合学术规范。

背景与挑战

背景概述

WMT24++数据集是在全球多语言翻译领域的一个重要研究突破，由Daniel Deutsch等众多研究人员共同于2025年构建完成。该数据集的创建旨在扩展WMT24的语言覆盖范围至55种语言及方言，为多模态翻译或语言理解研究提供了宝贵的资源。它包含了原始文档的完整页面截图，保留了翻译片段中嵌入的任何图像，这对于理解文档的原始结构和语境具有极为重要的意义。该数据集的构建，对于促进多语言翻译技术的发展，特别是对于那些低资源语言，具有深远的影响。

当前挑战

在构建WMT24++数据集的过程中，研究人员面临了诸多挑战。首先，需要确保文档的多样性和代表性，这对于覆盖55种语言及方言来说尤为困难。其次，技术的挑战包括如何有效地处理和存储大量的图像数据，以及如何确保图像中嵌入的文本信息的准确提取和翻译。此外，数据集构建过程中的数据来源可用性也是一个重要挑战，尤其是对于那些不再可访问的原始文档，需要提供镜像副本以保持数据的完整性。

常用场景

经典使用场景

在当前多模态翻译及语言理解研究领域，wmt24pp-images数据集以其独特的图像与文本结合特性，成为了一个经典的研究资源。该数据集包含原始文档截图，保留了翻译片段中嵌入的图像和文档结构，因而常被用于开展多模态翻译任务和深入的语言理解分析。

衍生相关工作

基于wmt24pp-images数据集，研究者们衍生出了一系列相关工作，包括对多模态翻译系统的评估、多语言文档的自动摘要以及跨模态信息检索等，推动了多模态处理领域的发展。

数据集最近研究