five

vcr-org/VCR-wiki-zh-hard-test-500

收藏
Hugging Face2024-07-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/vcr-org/VCR-wiki-zh-hard-test-500
下载链接
链接失效反馈
官方服务:
资源简介:
VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕、堆叠图像等特征,并提供了测试集的分割信息。数据集构建过程包括数据收集、初始过滤、N-gram选择、文本嵌入图像创建、图像拼接和第二轮过滤。数据集还提供了详细的字段描述和免责声明。

VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕、堆叠图像等特征,并提供了测试集的分割信息。数据集构建过程包括数据收集、初始过滤、N-gram选择、文本嵌入图像创建、图像拼接和第二轮过滤。数据集还提供了详细的字段描述和免责声明。
提供机构:
vcr-org
原始信息汇总

VCR-Wiki 数据集概述

数据集信息

特征

  • question_id: 数据类型为 int64,表示当前分组中的实例ID。
  • image: 数据类型为 image,表示原始视觉图像(VI)。
  • caption: 数据类型为 string,表示TEI图像中未屏蔽的原始文本。
  • stacked_image: 数据类型为 image,表示包含原始视觉图像和屏蔽文本嵌入图像的堆叠图像(VI+TEI)。
  • only_it_image: 数据类型为 image,表示屏蔽的TEI图像。
  • only_it_image_small: 数据类型为 image,表示小尺寸的屏蔽TEI图像。
  • crossed_text: 数据类型为 List[string],表示当前实例中屏蔽的n-gram。

分组

  • test: 包含500个样本,数据大小为100452047字节。

数据集大小

  • 下载大小: 100332998字节
  • 数据集大小: 100452047字节

配置

  • default: 数据文件路径为 data/test-*

许可证

  • cc-by-sa-4.0

来源数据集

  • wikimedia/wit_base

任务类别

  • visual-question-answering

语言

  • zh

数据集名称

  • VCR

相关论文

  • arxiv: 2406.06462

数据集规模

  • n<1K

数据集构建

数据收集和初步过滤

  • 原始数据来自 wikimedia/wit_base。在构建数据集之前,首先过滤掉包含敏感内容(如NSFW和犯罪相关术语)的实例,以减轻AI风险和偏见。

N-gram选择

  • 将每个条目的描述截断为不超过5行,并使用预定义的字体和大小设置。然后使用spaCy对描述进行分词,并随机屏蔽5-gram,屏蔽的5-gram不包含数字、人名、宗教或政治团体、设施、组织、地点、日期和时间(由spaCy标记),并且屏蔽的令牌总数不超过标题中令牌的50%。

创建嵌入图像的文本

  • 为描述创建嵌入图像的文本(TEI),将其宽度调整为300像素,并使用白色矩形屏蔽选定的5-gram。矩形的大小反映了任务的难度:(1)在简单版本中,任务对母语人士来说很容易,但开源OCR模型几乎总是失败;(2)在困难版本中,揭示的部分仅由大多数字母或字符的一到两个像素组成,但语言的母语人士仍然可以完成恢复任务。

图像拼接

  • 将TEI与主视觉图像(VI)拼接,得到堆叠图像。

第二轮过滤

  • 过滤掉所有没有屏蔽n-gram或高度超过900像素的条目。

免责声明

VCR-Wiki数据集及其子集在Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证下提供。该数据集仅用于视觉字幕恢复及相关视觉语言任务的研究和教育目的。

重要考虑事项:

  1. 准确性和可靠性:尽管VCR-Wiki数据集已经过过滤以排除敏感内容,但仍可能包含不准确或意外的偏见。用户应鼓励批判性地评估数据集的内容及其对特定研究目标的适用性。
  2. 伦理使用:用户必须确保其对VCR-Wiki数据集的使用符合伦理指南和标准,特别是在避免伤害、延续偏见或以可能对个人或团体产生负面影响的方式滥用数据方面。
  3. 修改和衍生作品:基于VCR-Wiki数据集的任何修改或衍生作品必须在相同的许可证(CC BY-SA 4.0)下共享。
  4. 商业使用:在CC BY-SA 4.0许可证下,VCR-Wiki数据集的商业使用是允许的,前提是给予适当的归属,并且任何衍生作品都在相同的许可证下共享。

通过使用VCR-Wiki数据集及其子集,您同意本免责声明和相关许可证中概述的条款和条件。数据集的创建者不对因使用该数据集而导致的任何直接或间接损害负责。

引用

如果您发现VCR对您的研究和应用有用,请使用以下BibTeX引用:

bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作