vcr-org/VCR-wiki-en-hard-test

Name: vcr-org/VCR-wiki-en-hard-test
Creator: vcr-org
Published: 2024-07-28 09:39:03
License: 暂无描述

Hugging Face2024-07-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vcr-org/VCR-wiki-en-hard-test

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Wiki数据集用于视觉字幕恢复（VCR）任务，旨在评估视觉语言模型在图像中使用像素级提示准确恢复部分遮挡文本的能力。数据集包含图像、字幕、堆叠图像等特征，并通过调整字幕可见性来控制任务难度。数据集构建过程包括数据收集、初始过滤、N-gram选择、文本嵌入图像创建、图像拼接和第二轮过滤。数据集还提供了详细的评估方法和模型性能比较。

提供机构：

vcr-org

原始信息汇总

VCR-Wiki 数据集概述

数据集描述

VCR-Wiki 数据集是为视觉字幕恢复（Visual Caption Restoration, VCR）任务设计的，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。

数据集特征

question_id: int64，当前分割中的实例ID。
image: image，原始视觉图像（VI）。
caption: string，TEI图像中未遮挡的原始文本。
stacked_image: image，包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。
only_it_image: image，遮挡的TEI图像。
only_it_image_small: image，小尺寸的遮挡TEI图像。
crossed_text: List[string]，当前实例中遮挡的n-gram。

数据集分割

test: 包含5000个样本，总字节数为897444957。

数据集大小

下载大小: 896368998字节
数据集大小: 897444957字节

数据集配置

default: 包含测试数据文件，路径为data/test-*。

许可证

数据集使用CC BY-SA 4.0许可证。

来源数据集

wikimedia/wit_base

任务类别

visual-question-answering

语言

数据集构建

数据收集和初步过滤: 从wikimedia/wit_base收集原始数据，并过滤掉包含敏感内容的实例。
N-gram选择: 截断描述并使用spaCy进行分词，随机遮挡5-gram。
创建文本嵌入图像: 将描述嵌入图像，并根据任务难度调整遮挡矩形的大小。
图像拼接: 将TEI与VI拼接成堆叠图像。
第二轮过滤: 过滤掉没有遮挡n-gram或高度超过900像素的实例。

免责声明

VCR-Wiki数据集及其子集仅供视觉字幕恢复及相关视觉语言任务的研究和教育目的使用。用户需确保其使用符合伦理指南和标准，并遵守CC BY-SA 4.0许可证的条款。

引用

bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VCR-Wiki数据集的构建体现了对多模态信息整合能力的精细考量。该数据集源自wikimedia/wit_base，经过严格的初始筛选，剔除了涉及敏感内容的条目以规避潜在风险。构建流程中，首先对图像描述进行截断与分词处理，并随机掩蔽不含特定实体信息的5-gram序列，掩蔽比例控制在文本总量的50%以内。随后，将文本嵌入图像并生成掩蔽区域，通过调整掩蔽矩形尺寸区分任务难度：简易版本保留较多像素供母语者辨识，而困难版本仅显露一至两个像素，极大提升了视觉线索的解析挑战。最终，将掩蔽文本图像与原始视觉图像拼接，形成堆叠图像，并经过二次过滤确保数据质量与格式规范。

特点

VCR-Wiki数据集的核心特征在于其专注于视觉字幕恢复任务，旨在评估模型整合图像、上下文及细微像素线索以还原掩蔽文本的能力。数据集包含5000个测试实例，涵盖英语与中文的双语环境，并依据掩蔽程度区分为简易与困难两种难度等级，从而系统化地衡量模型在不同视觉信息可见性下的性能表现。数据字段设计全面，不仅提供原始图像、堆叠图像及掩蔽文本图像等多模态输入，还包含完整字幕与掩蔽n-gram列表，支持对模型输出进行精确匹配与相似度评估。该数据集通过合成图像生成流程，确保了任务既对母语者可行，又能有效规避传统OCR方法的局限性，为视觉语言模型的细粒度理解设立了新的基准。

使用方法

为促进视觉字幕恢复任务的标准化评估，VCR-Wiki数据集提供了多种集成化的使用方法。研究人员可通过官方GitHub仓库获取评估脚本，利用HuggingFace平台加载数据集，并支持对开源模型进行本地推理与性能测算，涵盖精确匹配与Jaccard相似度等指标。对于闭源模型，数据集提供了基于API的评估管道，允许用户通过预存图像或流式加载方式执行推理。此外，数据集已与VLMEvalKit及lmms-eval等主流评估框架深度集成，用户可通过指定任务名称直接调用，涵盖全量测试集及不同规模的子集，从而灵活适配各类计算资源与实验需求。这种多框架兼容的设计确保了评估过程的便捷性与可复现性，助力视觉语言模型研究的持续深化。

背景与挑战

背景概述

视觉字幕恢复（VCR）任务旨在评估视觉语言模型依据图像像素级线索还原被遮蔽文本的能力，该任务超越了传统光学字符识别技术的范畴，要求模型深度融合视觉内容与上下文语义。VCR-Wiki数据集由Tianyu Zhang等研究人员于2024年构建，其核心研究问题聚焦于探索模型在文本信息严重缺失情境下的多模态推理与重建性能。该数据集基于wikimedia/wit_base资源，通过系统化流程生成合成图像，并依据字幕可见度调控任务难度，为视觉语言理解领域提供了新颖的基准测试平台，推动了模型在细粒度跨模态对齐方面的研究进展。

当前挑战

VCR-Wiki数据集所针对的视觉字幕恢复任务，其核心挑战在于模型必须整合图像全局语境、局部像素提示及语言先验知识，以推断被完全或近乎完全遮蔽的文本内容，这对现有模型的跨模态融合与推理能力提出了严峻考验。在数据集构建过程中，研究团队面临双重挑战：其一，需设计精细的文本遮蔽策略，确保遮蔽区域既排除数字、人名等易识别实体，又保持任务对人类而言的可解性；其二，必须建立严格的过滤机制以剔除敏感内容，并在保持图像文本嵌入自然性的同时，精确控制遮蔽比例与像素暴露程度，从而生成具有不同难度梯度的可靠评估样本。

常用场景

经典使用场景

在视觉语言模型评估领域，VCR-Wiki数据集被广泛用于视觉字幕恢复任务的基准测试。该数据集通过合成图像与部分遮蔽文本的组合，构建了模型需依赖图像上下文及像素级线索来还原完整字幕的挑战性场景。经典使用场景涉及对多模态模型进行系统性评估，考察其整合视觉信息与文本残片的能力，尤其在处理仅暴露极少数像素的硬性任务时，模型的表现差异得以凸显。这一场景为研究者提供了衡量模型细粒度视觉理解与上下文推理能力的标准化平台。

实际应用

在实际应用层面，VCR-Wiki数据集所针对的视觉字幕恢复能力可延伸至多个现实场景。例如，在文档数字化过程中，处理因污损、遮挡或低分辨率而部分缺失的文本图像；在增强现实系统中，实时解析并补全环境中的模糊标识或广告文字；亦或在文化遗产保护中，修复历史图片中褪色或破损的铭文。这些应用均要求模型具备从残缺视觉信息中推断完整语义的能力，而该数据集为训练和验证此类模型提供了关键的数据支撑与评估基准。

衍生相关工作

围绕VCR-Wiki数据集，已衍生出一系列重要的相关研究工作。众多视觉语言模型如GPT-4o、CogVLM2、InternVL-V2等均在该数据集上进行了系统性评估，其性能对比结果成为模型能力分析的重要参考。同时，开源评估框架如VLMEvalKit和lmms-eval已集成对该数据集的官方支持，促进了标准化评测流程的建立。这些工作不仅深化了对多模态模型局限性的理解，也推动了模型架构与训练方法的改进，例如针对细粒度视觉文本理解的模块设计或数据增强策略的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集