vcr-org/VCR-wiki-en-easy-test-100
收藏Hugging Face2024-07-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vcr-org/VCR-wiki-en-easy-test-100
下载链接
链接失效反馈官方服务:
资源简介:
VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、堆叠图像、仅包含文本的图像、字幕和交叉文本等字段。数据集的构建过程包括数据收集、初始过滤、N-gram选择、创建嵌入文本的图像、图像拼接和第二轮过滤。数据集的使用受CC BY-SA 4.0许可证约束,适用于研究和教育目的。
The VCR-Wiki dataset is designed for the Visual Caption Restoration (VCR) task, aiming to evaluate the capability of vision-language models to restore partially obscured texts within images. The dataset includes fields such as images, stacked images, images with only text, captions, and crossed texts. The dataset construction process involves data collection, initial filtering, N-gram selection, creating text embedded in images, image concatenation, and second-round filtering. The dataset is licensed under CC BY-SA 4.0 and is intended for research and educational purposes.
提供机构:
vcr-org
原始信息汇总
VCR-Wiki 数据集概述
数据集描述
VCR-Wiki 数据集是为视觉字幕恢复(Visual Caption Restoration, VCR)任务设计的,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕以及用于任务的合成图像。
数据集特征
- question_id:
int64,当前分区的实例ID。 - image:
image,原始视觉图像(VI)。 - caption:
string,TEI图像中未遮挡的原始文本。 - stacked_image:
image,包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。 - only_it_image:
image,遮挡的TEI图像。 - only_it_image_small:
image,小尺寸的遮挡TEI图像。 - crossed_text:
List[string],当前实例中遮挡的n-gram。
数据集分割
- test: 包含100个样本,总字节数为19073565。
数据集大小
- 下载大小: 19047792字节
- 数据集大小: 19073565字节
数据集配置
- default: 包含测试数据文件,路径为
data/test-*。
数据集来源
- wikimedia/wit_base
任务类别
- visual-question-answering
语言
- en
数据集构建
- 数据收集和初步过滤: 从
wikimedia/wit_base收集数据,并过滤掉包含敏感内容的实例。 - N-gram选择: 截断描述并使用spaCy进行分词,随机遮挡5-gram。
- 创建嵌入文本的图像: 将文本嵌入图像中,并根据任务难度调整遮挡矩形的大小。
- 图像拼接: 将TEI与VI拼接成堆叠图像。
- 第二轮过滤: 过滤掉没有遮挡n-gram或高度超过900像素的实例。
数据集声明
VCR-Wiki数据集及其子集在CC BY-SA 4.0许可下提供,仅用于视觉字幕恢复及相关视觉语言任务的研究和教育目的。用户需确保其使用符合伦理指南,并遵守许可条款。
引用
bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }
搜集汇总
数据集介绍

构建方式
在视觉语言模型评估领域,VCR-Wiki数据集的构建体现了对多模态信息整合能力的精细考量。该数据集源自wikimedia/wit_base,经过严格的内容过滤以排除敏感信息。构建流程采用系统化方法,首先对图像描述进行截断与分词处理,随后随机掩蔽不含特定实体类别的五元组,掩蔽比例控制在描述文本的50%以内。通过将文本嵌入图像并应用白色矩形掩蔽,生成包含视觉图像与掩蔽文本的堆叠图像。掩蔽矩形尺寸的差异化设计,形成了任务难度可调的“简易”与“困难”版本,最终通过像素高度筛选确保数据质量与一致性。
特点
VCR-Wiki数据集的核心特征在于其专注于视觉字幕恢复任务,旨在评估模型整合像素级视觉线索与上下文信息的能力。数据集包含原始视觉图像、堆叠图像、掩蔽文本图像及完整字幕文本,并标注了被掩蔽的文本片段。其独特之处在于通过控制掩蔽区域的显露程度,构建了不同难度的评估场景:简易版本对母语者而言可解但OCR模型通常失效,困难版本仅显露极少量像素却仍对人类可行。这种设计使得该数据集能够有效检验模型超越传统文本处理、依赖多模态推理的深层理解能力。
使用方法
该数据集主要用于视觉语言模型的基准测试与能力评估。研究人员可通过多种框架进行使用:利用官方提供的评估脚本,支持对开源模型进行本地推理或通过API调用闭源模型;亦可集成至VLMEvalKit或lmms-eval等评估框架中。使用前需配置相应环境,指定模型标识符与数据集句柄(如vcr_wiki_en_easy)。评估过程将生成精确匹配度与杰卡德相似度等指标,便于横向比较不同模型在视觉字幕恢复任务上的性能表现,为模型优化与研究方向提供量化依据。
背景与挑战
背景概述
视觉字幕修复(VCR)任务旨在评估视觉语言模型依据图像像素级提示,准确还原被部分遮蔽文本的能力。该数据集由Tianyu Zhang等研究人员于2024年构建,其核心研究问题聚焦于探索模型如何整合图像内容、上下文信息以及被遮蔽文本的细微暴露线索,以完成精确的文本恢复。VCR-Wiki数据集基于wikimedia/wit_base构建,通过合成图像-字幕对生成可控难度的测试样本,为视觉语言理解领域提供了衡量模型细粒度感知与推理能力的新基准。
当前挑战
视觉字幕修复任务面临的核心挑战在于模型需超越传统OCR与文本处理范式,深度融合视觉与语言模态以解析极有限的文本暴露线索。具体而言,在‘困难’版本中,多数字母仅暴露一至两个像素,对模型的视觉感知精度与上下文推理能力构成严峻考验。数据构建过程中的挑战则涉及合成图像生成管道的设计,包括如何平衡遮蔽程度以区分任务难度,以及通过多轮过滤确保数据质量与安全性,同时避免引入敏感内容与偏见。
常用场景
经典使用场景
在视觉语言模型评估领域,VCR-Wiki数据集被广泛用于视觉字幕恢复任务的基准测试。该数据集通过合成图像与部分遮蔽文本的组合,构建了一个需要模型融合视觉线索与上下文信息以还原被遮挡文字的典型场景。其经典应用体现在对多模态模型进行系统性评估,考察模型在像素级提示下恢复文本的精确能力,为研究者提供了衡量模型在复杂视觉语言理解任务上表现的标准化工具。
实际应用
在实际应用层面,VCR-Wiki数据集的能力评估可延伸至文档图像修复、增强现实中的文本识别以及无障碍技术开发等领域。例如,在历史档案数字化过程中,模型通过该数据集训练的恢复能力可用于重建受损或部分模糊的文献字幕;在辅助视觉障碍人士的设备中,此类技术能帮助从复杂视觉场景中提取并补全关键文本信息,提升人机交互的包容性与实用性。
衍生相关工作
围绕VCR-Wiki数据集,已衍生出多项重要的研究工作。基于该数据集构建的评估框架如VLMEvalKit和lmms-eval被广泛采纳,成为比较各类视觉语言模型性能的标准平台。相关研究进一步探索了模型架构优化、跨语言泛化能力以及少样本学习策略,例如对CogVLM2、InternVL等模型的改进工作均以此数据集为基准,推动了视觉字幕恢复任务在模型鲁棒性与泛化性方面的理论进展。
以上内容由遇见数据集搜集并总结生成



