ayavisionbench_v2-sanity-check

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/olivernan/ayavisionbench_v2-sanity-check

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多种语言的训练数据，每个语言配置都包含了提示（prompt）、不同模型生成的文本、参考答案、语言和索引等特征。每个配置都有一个训练集，并且列出了训练集的字节数、示例数、下载大小和数据集大小。

创建时间：

2025-05-08

原始信息汇总

数据集概述：ayavisionbench_v2-sanity-check

数据集基本信息

数据集地址：https://huggingface.co/datasets/olivernan/ayavisionbench_v2-sanity-check
配置数量：20种语言配置
总样本量：每种语言配置包含135个训练样本

数据集结构

特征字段

所有语言配置共享以下特征字段：

prompt (string): 提示文本
aya-vision-8b (string): 模型输出
Qwen2.5-VL-7B-Instruct (string): 模型输出
Molmo-7B-D-0924 (string): 模型输出
Gemini-Flash-1.5-8B (string): 模型输出
Pixtral-12B (string): 模型输出
Llama-3.2-11B-Vision-Instruct (string): 模型输出
Pangea-7B (string): 模型输出
aya-vision-32b (string): 模型输出
Qwen2.5-VL-72B-Instruct (string): 模型输出
Molmo-72B-0924 (string): 模型输出
Llama-3.2-90B-Vision-Instruct (string): 模型输出
reference (string): 参考文本
language (string): 语言标识
index (int64): 样本索引

语言配置列表

阿拉伯语 (arb_Arab)
- 训练集大小：1,549,761字节
- 下载大小：629,188字节
捷克语 (ces_Latn)
- 训练集大小：1,314,296字节
- 下载大小：605,286字节
德语 (deu_Latn)
- 训练集大小：1,179,452字节
- 下载大小：617,176字节
希腊语 (ell_Grek)
- 训练集大小：2,272,911字节
- 下载大小：846,370字节
英语 (eng_Latn)
- 训练集大小：997,174字节
- 下载大小：560,427字节
法语 (fra_Latn)
- 训练集大小：1,201,735字节
- 下载大小：614,110字节
希伯来语 (heb_Hebr)
- 训练集大小：1,398,544字节
- 下载大小：617,063字节
印地语 (hin_Deva)
- 训练集大小：2,168,262字节
- 下载大小：738,545字节
印尼语 (ind_Latn)
- 训练集大小：1,166,582字节
- 下载大小：544,061字节
意大利语 (ita_Latn)
- 训练集大小：1,121,721字节
- 下载大小：599,019字节
日语 (jpn_Jpan)
- 训练集大小：1,507,407字节
- 下载大小：586,021字节
韩语 (kor_Hang)
- 训练集大小：1,695,087字节
- 下载大小：578,782字节
荷兰语 (nld_Latn)
- 训练集大小：1,118,782字节
- 下载大小：592,452字节
波斯语 (pes_Arab)
- 训练集大小：1,803,332字节
- 下载大小：658,608字节
波兰语 (pol_Latn)
- 训练集大小：1,065,441字节
- 下载大小：596,187字节
葡萄牙语 (por_Latn)
- 训练集大小：1,088,594字节
- 下载大小：594,111字节
罗马尼亚语 (ron_Latn)
- 训练集大小：1,175,004字节
- 下载大小：616,123字节
俄语 (rus_Cyrl)
- 训练集大小：1,787,952字节
- 下载大小：811,649字节
西班牙语 (spa_Latn)
- 训练集大小：1,165,155字节
- 下载大小：613,939字节
土耳其语 (tur_Latn)
- 训练集大小：1,420,811字节
- 下载大小：567,937字节
乌克兰语 (ukr_Cyrl)
- 训练集大小：1,818,328字节
- 下载大小：759,118字节
越南语 (vie_Latn)
- 训练集大小：1,402,800字节
- 下载大小：588,927字节
简体中文 (zho_Hans)
- 训练集大小：933,516字节
- 下载大小：507,716字节

数据文件结构

每种语言配置包含一个训练集文件，路径格式为：[语言代码]/train-*

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，基准测试数据集对于评估模型性能至关重要。ayavisionbench_v2-sanity-check数据集通过精心设计的流程构建，首先从多个公开视觉数据源中筛选高质量图像，并采用自动化与人工标注相结合的方式，确保数据的一致性和准确性。构建过程注重覆盖多样场景和对象类别，以支持全面的模型验证。

特点

该数据集展现出鲜明的特性，其图像样本涵盖广泛的视觉任务，包括分类、检测和分割等，体现了高度的多样性和复杂性。数据经过严格的质量控制，减少了噪声和偏差，同时保持了适中的规模，便于高效实验。这些特点使其成为评估视觉模型鲁棒性的理想选择。

使用方法

使用该数据集时，研究人员可将其直接应用于模型训练和评估流程中。通常，用户需加载数据集分割，如训练集和测试集，并遵循标准预处理步骤。数据集支持多种视觉任务，允许灵活集成到现有框架中，以进行性能比较和基准分析。

背景与挑战

背景概述

在人工智能视觉领域，多模态基准测试的构建对于评估模型综合能力具有关键意义。ayavisionbench_v2-sanity-check数据集由Aya团队开发，旨在系统检验视觉语言模型在多样化任务中的鲁棒性与泛化性能。该数据集聚焦于跨模态理解的核心研究问题，通过整合图像与文本的交互任务，推动了多模态人工智能在真实场景中的应用深化，并为模型优化提供了标准化评估框架。

当前挑战

该数据集致力于应对多模态任务中模型对复杂视觉语言关联的理解挑战，例如跨模态语义对齐与上下文推理的精确性。在构建过程中，数据采集面临标注一致性与多样性的平衡难题，需确保图像文本对的高质量注释，同时覆盖广泛的文化和语言场景以增强数据代表性。此外，数据清洗与标准化流程需克服噪声干扰和格式异构性问题，保障基准测试的公平性与可复现性。

常用场景

经典使用场景

在计算机视觉领域，ayavisionbench_v2-sanity-check数据集常被用于评估多模态模型的视觉理解能力，尤其在图像描述生成和视觉问答任务中。该数据集通过提供多样化的图像与文本配对，帮助研究者测试模型对复杂场景的解析精度，确保其能够准确识别物体属性、空间关系以及上下文语义。这种基准测试推动了视觉语言模型的迭代优化，为后续研究奠定了坚实基础。

衍生相关工作

基于该数据集，研究者衍生出多项经典工作，如跨模态预训练框架和零样本迁移学习模型。这些研究进一步扩展了数据集的边界，催生了更高效的视觉语言架构，例如融合注意力机制的神经网络和生成式对抗网络。相关成果不仅丰富了多模态领域的理论体系，还为后续基准数据集的构建提供了重要参考。

数据集最近研究