VCR-wiki-zh-hard-test-500

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/vcr-org/VCR-wiki-zh-hard-test-500

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Wiki数据集是一个专为视觉标题恢复（VCR）任务设计的官方Hugging Face数据集。该数据集通过图像中的像素级提示，评估视觉语言模型准确恢复部分遮挡文本的能力。数据集包含图像和文本特征，支持中文和英文，并详细描述了数据集的构建过程、统计信息以及模型评估方法。

创建时间：

2024-06-11

原始信息汇总

VCR-Wiki 数据集概述

数据集描述

特征字段

question_id: int64, 实例在当前分片中的ID。
image: image, 原始视觉图像（VI）。
caption: string, TEI图像中未遮罩的原始文本。
stacked_image: image, 包含原始视觉图像和遮罩文本嵌入图像的堆叠图像（VI+TEI）。
only_it_image: image, 遮罩的TEI图像。
only_it_image_small: image, 小尺寸的遮罩TEI图像。
crossed_text: sequence: string, 当前实例中遮罩的n-grams。

数据分片

test: 包含500个实例，大小为100452047字节。

数据集大小

下载大小: 100332998字节
数据集大小: 100452047字节

配置

default 配置包含 test 分片的数据文件路径为 data/test-*。

许可

数据集使用 cc-by-sa-4.0 许可。

来源数据集

原始数据来自 wikimedia/wit_base。

任务类别

数据集用于 visual-question-answering 任务。

语言

数据集支持中文（zh）。

数据集别名

pretty_name: VCR

数据集规模

size_categories: n<1K

数据集构建

数据收集与初步过滤

原始数据来自 wikimedia/wit_base，并过滤掉包含敏感内容（如NSFW和犯罪相关术语）的实例。

N-gram选择

描述被截断为不超过5行，并使用spaCy进行分词，随机遮罩5-grams，遮罩的5-grams不包含数字、人名、宗教或政治团体、设施、组织、地点、日期和时间等标签，且遮罩的token不超过整个描述的50%。

创建嵌入文本的图像

创建嵌入文本的图像（TEI），宽度调整为300像素，并使用白色矩形遮罩选定的5-grams。矩形的大小反映了任务的难度。

图像拼接

将TEI与主视觉图像（VI）拼接，得到堆叠图像。

第二轮过滤

过滤掉没有遮罩n-grams或高度超过900像素的所有实例。

免责声明

数据集及其子集在 CC BY-SA 4.0 许可下提供，仅用于视觉字幕恢复及相关视觉语言任务的研究和教育目的。
用户需确保其使用符合道德指南和标准，避免造成伤害、延续偏见或滥用数据。
任何基于数据集的修改或衍生作品必须共享在相同的许可下。
商业使用需遵守 CC BY-SA 4.0 许可，并给予适当的归属。

引用

bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

搜集汇总

数据集介绍

构建方式

VCR-wiki-zh-hard-test-500数据集的构建过程基于wikimedia/wit_base数据集，经过多轮筛选和处理。首先，通过过滤敏感内容确保数据的安全性。随后，使用spaCy对描述进行分词，并随机掩码5-gram文本，确保掩码内容不包含数字、人名、宗教或政治团体等敏感信息。接着，将文本嵌入图像中，生成包含掩码文本的图像，并根据任务难度调整掩码区域的大小。最后，将掩码文本图像与原始视觉图像拼接，形成最终的堆叠图像。整个过程旨在生成具有挑战性的视觉文本恢复任务。

使用方法

VCR-wiki-zh-hard-test-500数据集的使用方法多样，支持通过Hugging Face的API进行模型评估。用户可以使用提供的评估脚本对开源模型进行测试，或通过API对闭源模型进行评估。评估过程中，用户需指定模型ID、数据集路径以及输出路径，脚本将自动生成评估结果并保存为JSON文件。此外，数据集还支持通过VLMEvalKit和lmms-eval框架进行评估，用户可根据需求选择适合的评估工具。数据集的使用旨在帮助研究人员测试和提升视觉语言模型在文本恢复任务中的表现。

背景与挑战

背景概述

VCR-Wiki-zh-hard-test-500数据集是视觉字幕恢复（Visual Caption Restoration, VCR）任务中的一个重要子集，旨在评估视觉-语言模型在中文环境下恢复部分遮挡文本的能力。该数据集由Tianyu Zhang等人于2024年提出，基于wikimedia/wit_base数据集构建，并通过合成图像生成技术创建了具有不同难度的任务样本。VCR任务的核心研究问题在于如何结合图像、上下文以及被遮挡文本的细微线索，准确恢复被遮挡的文字内容。该数据集的发布为视觉-语言模型的研究提供了新的挑战和评估标准，推动了多模态理解领域的发展。

当前挑战

VCR-Wiki-zh-hard-test-500数据集面临的主要挑战包括两个方面。首先，在任务层面，视觉字幕恢复要求模型能够从极小的可见像素中推断出被遮挡的文本内容，这对模型的视觉理解和语言推理能力提出了极高的要求。当前的主流模型在处理此类任务时表现不佳，尤其是在中文环境下，模型的恢复精度显著低于人类水平。其次，在数据集构建过程中，如何生成具有合理遮挡程度的合成图像，同时确保任务对母语者仍然可行，是一个技术难点。此外，数据集的过滤和标注过程需要避免引入偏见或敏感内容，这对数据质量控制提出了更高的要求。

常用场景

经典使用场景

VCR-wiki-zh-hard-test-500数据集主要用于视觉字幕恢复（VCR）任务，旨在评估视觉-语言模型在图像中恢复部分被遮挡文本的能力。该数据集通过提供图像、上下文以及被遮挡文本的细微线索，要求模型结合这些信息进行准确的文本恢复。这一任务不仅挑战了模型的多模态理解能力，还为研究视觉与语言之间的交互提供了丰富的实验场景。

解决学术问题

VCR-wiki-zh-hard-test-500数据集解决了视觉-语言模型在处理部分遮挡文本时的性能瓶颈问题。传统的OCR和文本处理方法在此类任务中表现不佳，而该数据集通过合成图像和可调节的文本可见性，为模型提供了更具挑战性的测试环境。这一数据集的出现推动了视觉-语言模型在复杂场景下的性能提升，并为相关领域的研究提供了新的基准。

实际应用

在实际应用中，VCR-wiki-zh-hard-test-500数据集可用于开发智能图像处理系统，如自动修复受损文档、恢复历史文献中的模糊文字等。此外，该数据集还可用于增强多模态模型在现实场景中的应用能力，例如在自动驾驶中识别被遮挡的路标，或在医疗影像中恢复模糊的诊断信息。这些应用场景展示了该数据集在推动技术进步中的重要作用。

数据集最近研究