vcr-org/VCR-wiki-en-easy-test-500

Name: vcr-org/VCR-wiki-en-easy-test-500
Creator: vcr-org
Published: 2024-07-28 09:39:02
License: 暂无描述

Hugging Face2024-07-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vcr-org/VCR-wiki-en-easy-test-500

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Wiki数据集是一个用于视觉字幕恢复（VCR）任务的数据集，旨在评估视觉语言模型在图像中使用像素级提示准确恢复部分遮挡文本的能力。该数据集包含图像、字幕、堆叠图像等特征，并通过合成图像生成管道控制任务难度。数据集的构建过程包括数据收集、初始过滤、N-gram选择、文本嵌入图像创建、图像拼接和二次过滤。数据集还提供了详细的字段描述和免责声明，强调了数据集的准确性和可靠性、伦理使用、修改和衍生作品的共享要求以及商业使用的许可条件。

提供机构：

vcr-org

原始信息汇总

VCR-Wiki 数据集概述

数据集描述

VCR-Wiki 数据集是为视觉字幕恢复（Visual Caption Restoration, VCR）任务设计的，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕以及相关的图像处理信息。

数据集特征

question_id: int64，当前分区的实例ID。
image: image，原始视觉图像（VI）。
caption: string，TEI图像中未遮挡的原始文本。
stacked_image: image，包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。
only_it_image: image，遮挡的TEI图像。
only_it_image_small: image，小尺寸的遮挡TEI图像。
crossed_text: List[string]，当前实例中遮挡的n-grams。

数据集分割

test: 包含500个样本，总字节数为92235053.0。

数据集大小

下载大小: 92121427字节
数据集大小: 92235053.0字节

数据集配置

default: 包含测试数据文件，路径为data/test-*。

许可证

数据集使用CC BY-SA 4.0许可证。

源数据集

wikimedia/wit_base

任务类别

visual-question-answering

语言

数据集统计

数据集包含500个测试样本，适用于视觉字幕恢复任务。

数据集构建

数据集通过以下步骤构建：

数据收集和初步过滤：从wikimedia/wit_base收集数据，过滤掉包含敏感内容的实例。
N-gram选择：截断描述并使用spaCy进行分词，随机遮挡5-grams。
创建嵌入文本的图像：将描述嵌入图像，并根据任务难度遮挡文本。
图像拼接：将TEI与VI拼接成堆叠图像。
二次过滤：过滤掉没有遮挡n-grams或高度超过900像素的实例。

免责声明

VCR-Wiki数据集及其子集仅供研究与教育目的使用，用户需确保其使用符合伦理指南和标准，并遵守CC BY-SA 4.0许可证的条款。

引用

如需引用VCR-Wiki数据集，请使用以下BibTeX： bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集