AyaVisionBench

Name: AyaVisionBench
Creator: Cohere For AI
Published: 2025-03-04 15:58:13
License: 暂无描述

Hugging Face2025-03-04 更新2025-03-05 收录

下载链接：

https://huggingface.co/datasets/CohereForAI/AyaVisionBench

下载链接

链接失效反馈

官方服务：

资源简介：

Aya Vision Benchmark是一个多语言视觉语言数据集，包含23种语言和9个不同的任务类别，每个类别15个样本，总共为每种语言提供135个图像-问题对。该数据集旨在评估模型在跨语言和多模态理解方面的综合性能。

提供机构：

Cohere For AI

创建时间：

2025-03-03

搜集汇总

数据集介绍

构建方式

AyaVisionBench数据集的构建首先从Cauldron测试集中选取图像，确保这些图像在训练过程中未被见过。接着为每张图像生成一个需要视觉上下文才能回答的问题。这些问题经过人工审核和自动化过滤两阶段的验证，以确保其清晰性、相关性和跨语言的连贯性与质量。

特点

该数据集跨越23种语言，包含9个不同的任务类别，每个类别有15个样本，形成每个语言135个图像-问题对。这些问题设计用于需要视觉理解的场景，如图像字幕、图表理解、图像差异识别等，全面评估模型在跨语言和多媒体理解方面的能力。

使用方法

使用该数据集时，需要安装Datasets库，并通过指定语言代码来加载相应的子集。例如，加载韩语子集的代码为`load_dataset("CohereForAI/AyaVisionBench", "kor_Hang")`。数据集字段包括图像、图像来源、图像来源类别、索引、问题和语言，每个字段都有其特定的数据类型和结构。

背景与挑战

背景概述

Aya Vision Benchmark数据集旨在评估视觉语言模型在现实世界多语言场景中的表现。该数据集由Cohere For AI发布于2023年，涵盖了23种语言和9个不同的任务类别，每个类别有15个样本，形成了每个语言135个图像-问题对。这些问题需要视觉上下文来回答，覆盖了世界上半数人口所说的语言，这使得该数据集非常适合全面评估跨语言和多媒体理解。该数据集的任务范围包括图像字幕、图表和图形理解、找出两个图像之间的差异、通用视觉问答、OCR、文档理解、文本转录、视觉推理（包括逻辑和数学）以及将屏幕截图转换为代码等。

当前挑战

在构建Aya Vision Benchmark数据集的过程中，研究人员首先从Cauldron数据集中选取了图像，确保这些图像在训练过程中未曾出现过。接着，为每张图像生成一个需要视觉上下文才能回答的问题。这些问题的生成和后续的两次验证过程是数据集构建中的主要挑战。第一次验证由人工注释者完成，以确保问题的清晰性、相关性和对图像的依赖性。第二次验证通过自动化过滤步骤进行，以进一步确保跨语言的一致性和质量。此外，数据集的多语言覆盖也是一个挑战，因为它需要将英语子集翻译成22种额外的语言，并确保模型在不同语言和脚本上的泛化能力和鲁棒性。

常用场景

经典使用场景

AyaVisionBench数据集广泛应用于评估视觉语言模型在现实世界多语言场景中的性能。其经典使用场景包括进行图像描述、图表理解、图像差异识别、视觉问答、光学字符识别、文档理解、文本转录以及视觉推理等任务。这些应用场景旨在全面检验模型在跨语言和跨模态理解方面的能力。

实际应用

在实际应用中，AyaVisionBench数据集可用于开发和测试多语言视觉问答系统、自动图像描述工具、文档分析系统等。这些应用对于需要处理多语言内容的场景至关重要，如国际化的客户服务、多语种教育材料制作等。

衍生相关工作

基于AyaVisionBench数据集的研究成果已经衍生出一系列相关工作，包括跨语言视觉语言模型的构建、多模态信息处理的算法研究以及针对特定语言或任务的定制化模型开发。这些工作进一步推动了视觉语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集