floschne/xm3600_1k

Name: floschne/xm3600_1k
Creator: floschne
Published: 2024-05-23 14:05:50
License: 暂无描述

Hugging Face2024-05-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/floschne/xm3600_1k

下载链接

链接失效反馈

官方服务：

资源简介：

Crossmodal-3600是一个多语言多模态评估数据集，包含36种语言的图像和对应的文本描述。每个语言都有1000个图像ID，每个图像ID对应一组描述。数据集还包括图像特征，但由于一个bug，图像不能直接存储为PIL.Image，需要通过特定的方法加载。数据集的使用需要引用原始作者的工作。

Crossmodal-3600 is a multilingual multimodal evaluation dataset encompassing images and their corresponding textual descriptions across 36 languages. Each language has 1000 unique image IDs, with each ID paired with a set of descriptive texts. The dataset also includes image features. However, due to a software bug, the images cannot be directly loaded as PIL.Image objects, and a dedicated loading method is required. Proper citation of the original authors' work is mandatory when utilizing this dataset.

提供机构：

floschne

原始信息汇总

数据集概述

数据集名称

名称: Crossmodal-3600
别名: XM3600

数据集描述

任务类别: image-to-text
语言支持: 支持36种语言，包括阿拉伯语、孟加拉语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、波斯语、芬兰语、菲律宾语、法语、印地语、克罗地亚语、匈牙利语、印度尼西亚语、意大利语、希伯来语、日语、韩语、毛利语、荷兰语、挪威语、波兰语、葡萄牙语、盖丘亚语、罗马尼亚语、俄语、瑞典语、斯瓦希里语、泰卢固语、泰语、土耳其语、乌克兰语、越南语、中文。

数据集特征

特征列表:
- image_id: 字符串类型
- image_locale: 字符串类型
- captions: 字符串序列
- captions_tokenized: 字符串序列
- captions_tokenized_lowercase: 字符串序列
- image: 结构化数据，包含bytes（二进制类型）和path（null类型）

数据集大小

下载大小: 1871753198字节
数据集大小: 1879912737字节

数据集分片

分片信息: 每个语言分片包含1000个示例，总字节数在51935948至52855563之间。

许可证

许可证: cc-by-4.0

数据集配置

配置名称: default
数据文件路径: 每个语言分片的数据文件路径格式为data/{language}-*。

数据集使用

引用信息: bibtex @inproceedings{ThapliyalCrossmodal2022, author = {Ashish Thapliyal and Jordi Pont-Tuset and Xi Chen and Radu Soricut}, title = {{Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset}}, booktitle = {EMNLP}, year = {2022} }

搜集汇总

数据集介绍

构建方式

floschne/xm3600_1k数据集的构建采取了对原始Crossmodal-3600数据集的子集化处理，从中随机选取了1000个图像标识，并保持了36种语言的对应描述。数据集包含图像特征以及对应的PIL Image格式图像，并确保了数据结构的统一性和连贯性。

特点

该数据集的特点在于其多语言、跨模态的特性，支持36种语言，且每个图像都配有相应语言的描述。此外，数据集采用cc-by-4.0协议进行许可，保证了数据的使用和共享自由。每个语言子集都包含1000个图像及其描述，为研究者提供了丰富的多语言图像描述数据。

使用方法

在使用floschne/xm3600_1k数据集时，用户需注意图像的加载方式。由于存在bug，图像不能直接作为PIL.Image.Image存储，而需要通过特定的转换步骤。具体操作是通过datasets库加载数据集，使用map函数对图像进行解码，并重新命名列，以适应后续的数据处理和分析需求。

背景与挑战

背景概述

Crossmodal-3600数据集，简称XM3600，是一项由Ashish Thapliyal，Jordi Pont-Tuset，Xi Chen和Radu Soricut等研究人员于2022年创建的多语言跨模态评估数据集。该数据集旨在为多语言图像描述任务提供基准，涵盖36种语言，每种语言针对1000个图像ID提供描述。XM3600的创建，不仅丰富了跨模态研究领域的数据资源，也为评估和比较不同语言环境下图像描述模型的性能提供了重要工具。

当前挑战

该数据集在构建过程中面临的主要挑战包括：确保跨语言的一致性和准确性，处理大规模多语言数据集的复杂性，以及图像与文本之间关联性的精确建模。此外，数据集的广泛应用还带来了在多语言环境下的模型泛化能力、语言理解和图像识别的准确性等挑战。

常用场景

经典使用场景

在跨模态研究的领域内，floschne/xm3600_1k数据集被广泛用于评估和训练多语言图像描述模型。该数据集涵盖了36种语言，为每种语言提供了1000张图像及其对应的描述，从而成为研究者在图像到文本转换任务中的经典选择。

衍生相关工作

基于floschne/xm3600_1k数据集，学术界衍生出了一系列相关工作，包括但不限于多语言图像描述模型、跨模态检索技术，以及用于增强现实和虚拟现实应用的多模态交互研究。这些工作进一步扩展了数据集的应用范围，并推动了相关领域的学术发展。

数据集最近研究