vcr-org/VCR-wiki-zh-easy-test-500

Name: vcr-org/VCR-wiki-zh-easy-test-500
Creator: vcr-org
Published: 2024-07-28 09:39:06
License: 暂无描述

Hugging Face2024-07-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vcr-org/VCR-wiki-zh-easy-test-500

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Wiki数据集是一个用于视觉字幕恢复（VCR）任务的数据集，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含多个特征，如问题ID、图像、字幕、堆叠图像等，并且提供了测试集的分割信息。数据集构建过程包括数据收集、过滤、N-gram选择、文本嵌入图像生成等步骤。数据集还提供了详细的评估方法和模型性能比较，适用于研究和教育用途。

提供机构：

vcr-org

原始信息汇总

VCR-Wiki 数据集概述

数据集描述

VCR-Wiki 数据集是为视觉字幕恢复（Visual Caption Restoration, VCR）任务设计的，旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕和相关图像特征，适用于视觉问答等任务。

数据集特征

question_id: int64，实例ID。
image: image，原始视觉图像。
caption: string，未遮挡的原始文本。
stacked_image: image，包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。
only_it_image: image，遮挡的文本嵌入图像。
only_it_image_small: image，小尺寸的遮挡文本嵌入图像。
crossed_text: List[string]，当前实例中遮挡的n-grams。

数据集分割

test: 包含500个样本，总大小为103399800字节。

数据集配置

default: 包含测试数据文件路径 data/test-*。

数据集来源

wikimedia/wit_base: 原始数据来源。

任务类别

visual-question-answering: 适用于视觉问答任务。

语言

zh: 数据集主要包含中文内容。

数据集大小

n<1K: 数据集大小类别。

许可证

cc-by-sa-4.0: 数据集使用Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证。

数据集构建

数据收集和初始过滤: 从 wikimedia/wit_base 收集数据，过滤掉包含敏感内容（如NSFW和犯罪相关术语）的实例。
N-gram选择: 截断描述并使用spaCy进行分词，随机遮挡5-grams。
创建文本嵌入图像: 将描述嵌入图像，调整宽度并遮挡选定的5-grams。
拼接图像: 将文本嵌入图像与原始视觉图像拼接。
二次过滤: 过滤掉没有遮挡n-grams或高度超过900像素的实例。

免责声明

VCR-Wiki 数据集及其子集仅供研究与教育目的使用，用户需确保其使用符合伦理指南和标准，并遵守CC BY-SA 4.0许可证的条款。

引用

若使用该数据集，请引用以下文献： bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集