vcr-org/VCR-wiki-en-easy-test

Name: vcr-org/VCR-wiki-en-easy-test
Creator: vcr-org
Published: 2024-07-28 09:39:01
License: 暂无描述

Hugging Face2024-07-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vcr-org/VCR-wiki-en-easy-test

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Wiki数据集是一个用于视觉字幕恢复（VCR）任务的数据集，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。该数据集包含图像、堆叠图像、仅文本图像、字幕和交叉文本等特征。数据集构建过程包括数据收集、初始过滤、N-gram选择、文本嵌入图像创建、图像拼接和第二轮过滤。数据集提供了详细的字段描述和评估方法，并附有免责声明和引用信息。

提供机构：

vcr-org

原始信息汇总

VCR-Wiki 数据集概述

数据集描述

VCR-Wiki 数据集用于视觉字幕恢复（Visual Caption Restoration, VCR）任务，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。

数据集特征

question_id: int64，当前分区的实例ID。
image: image，原始视觉图像（VI）。
caption: string，TEI图像中未遮挡的原始文本。
stacked_image: image，包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。
only_it_image: image，遮挡的TEI图像。
only_it_image_small: image，小尺寸的遮挡TEI图像。
crossed_text: List[string]，当前实例中遮挡的n-gram。

数据集分割

test: 包含5000个样本，数据大小为900383144字节。

数据集大小

download_size: 899250889字节
dataset_size: 900383144字节

配置

default: 包含测试数据文件路径 data/test-*。

许可证

数据集使用 CC BY-SA 4.0 许可证。

来源数据集

wikimedia/wit_base

任务类别

visual-question-answering

语言

数据集别名

VCR

数据集构建

数据集通过以下步骤构建：

数据收集和初步过滤：从 wikimedia/wit_base 收集数据，过滤掉敏感内容。
N-gram选择：截断描述并使用 spaCy 进行分词，随机遮挡5-gram。
创建嵌入文本的图像：将描述嵌入图像，调整宽度并遮挡选定的5-gram。
拼接图像：将TEI与VI拼接成堆叠图像。
第二轮过滤：过滤掉没有遮挡n-gram或高度超过900像素的条目。

免责声明

VCR-Wiki 数据集及其子集仅供视觉字幕恢复及相关视觉语言任务的研究和教育目的使用。用户需确保其使用符合道德准则，并遵守CC BY-SA 4.0许可证的条款。

引用

如需引用该数据集，请使用以下BibTeX： bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VCR-Wiki数据集的构建体现了对模型跨模态理解能力的精细化考量。该数据集源自wikimedia/wit_base，通过严谨的流程生成合成图像以服务于视觉字幕恢复任务。构建过程首先过滤敏感内容，随后对图像描述进行截断与分词，并随机掩码不包含特定实体类别的五元组。掩码区域以白色矩形覆盖，其尺寸大小决定了任务难度等级：简易版本保留较多像素供母语者辨识，而困难版本仅暴露一至两个像素，极大挑战模型对细微视觉线索的整合能力。最终，将掩码后的文本嵌入图像与原始视觉图像拼接，形成堆叠图像，并经过二次过滤确保数据质量与规格统一。

使用方法

该数据集主要用于视觉字幕恢复任务的模型评估与基准测试。研究人员可通过多种框架进行使用：其一，利用项目提供的评估脚本，指定模型标识符与数据集处理器进行本地推理与指标计算；其二，整合至VLMEvalKit评估框架，通过预定义的数据配置项对模型进行系统化评测；其三，使用lmms-eval框架，以指定任务名称启动分布式评估流程。数据集支持对开源模型与基于API的闭源模型进行评测，并提供了精确匹配度与杰卡德相似度等核心指标。用户可根据需要选择完整测试集或不同规模的子集，以高效衡量模型在跨模态文本恢复任务上的性能表现。

背景与挑战

背景概述

视觉字幕恢复（VCR）任务旨在评估视觉语言模型利用图像内像素级提示准确还原部分遮蔽文本的能力。VCR-Wiki数据集由Tianyu Zhang等研究人员于2024年构建，其核心研究问题聚焦于模型对图像、上下文及遮蔽文本微小暴露区域所蕴含综合信息的理解与推理。该数据集基于wikimedia/wit_base构建，通过合成图像生成流程，以可控的文本可见度调节任务难度，为视觉语言理解领域提供了新颖的基准测试工具，推动了多模态模型在细粒度语义重建方向的发展。

当前挑战

VCR任务所解决的领域挑战在于突破传统OCR与文本处理技术的局限，要求模型深度融合视觉内容与上下文语义，从极有限的文本暴露线索中推断完整信息。构建过程中的挑战涉及多层面：其一，数据生成需平衡任务难度，确保“简单”版本对母语者可行而“困难”版本仅暴露微量像素；其二，数据过滤需排除敏感内容与无效条目，同时维持文本遮蔽比例不超过50%；其三，评估体系需涵盖多种模型架构与规模，并设计精确匹配与相似度指标以量化性能差距。

常用场景

经典使用场景

在视觉语言模型评估领域，VCR-Wiki数据集为视觉字幕恢复任务提供了标准化的测试基准。该数据集通过合成图像与部分遮蔽文本的组合，构建了模型需同时理解视觉内容与文本上下文才能准确恢复遮蔽信息的典型场景。其核心应用在于系统性地衡量模型整合像素级视觉线索与语言先验知识的能力，尤其在处理传统OCR技术失效的复杂情境时，数据集的难度分级机制为模型性能的细粒度评估创造了条件。

解决学术问题

该数据集针对视觉语言理解中跨模态信息融合的深层机制问题，提供了可量化的研究工具。它有效揭示了当前模型在整合局部视觉线索与全局语义上下文方面的局限性，特别是当文本信息仅通过像素级残差呈现时，模型往往难以实现人类水平的推理精度。这一设计突破了传统视觉问答任务对完整文本输入的依赖，推动了学术界对模型细粒度视觉理解与上下文推理能力评估方法的革新，为构建更鲁棒的跨模态表示学习框架指明了方向。

实际应用

在实际应用层面，该数据集所针对的视觉字幕恢复能力对文档数字化、历史档案修复及无障碍技术开发具有显著价值。例如，在数字化保存过程中，受损或部分遮蔽的文本需要结合图像背景进行智能补全；在辅助技术领域，帮助视障用户理解含有文本的图像内容同样依赖此类跨模态推理能力。数据集的难度分级机制可直接映射到不同应用场景对恢复精度的差异化需求，为技术落地提供了可调节的评估标准。

数据集最近研究