vcr-org/VCR-wiki-zh-easy-test-500
收藏Hugging Face2024-07-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/vcr-org/VCR-wiki-zh-easy-test-500
下载链接
链接失效反馈官方服务:
资源简介:
VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含多个特征,如问题ID、图像、字幕、堆叠图像等,并且提供了测试集的分割信息。数据集构建过程包括数据收集、过滤、N-gram选择、文本嵌入图像生成等步骤。数据集还提供了详细的评估方法和模型性能比较,适用于研究和教育用途。
VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含多个特征,如问题ID、图像、字幕、堆叠图像等,并且提供了测试集的分割信息。数据集构建过程包括数据收集、过滤、N-gram选择、文本嵌入图像生成等步骤。数据集还提供了详细的评估方法和模型性能比较,适用于研究和教育用途。
提供机构:
vcr-org
原始信息汇总
VCR-Wiki 数据集概述
数据集描述
VCR-Wiki 数据集是为视觉字幕恢复(Visual Caption Restoration, VCR)任务设计的,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕和相关图像特征,适用于视觉问答等任务。
数据集特征
- question_id:
int64,实例ID。 - image:
image,原始视觉图像。 - caption:
string,未遮挡的原始文本。 - stacked_image:
image,包含原始视觉图像和遮挡文本嵌入图像的堆叠图像。 - only_it_image:
image,遮挡的文本嵌入图像。 - only_it_image_small:
image,小尺寸的遮挡文本嵌入图像。 - crossed_text:
List[string],当前实例中遮挡的n-grams。
数据集分割
- test: 包含500个样本,总大小为103399800字节。
数据集配置
- default: 包含测试数据文件路径
data/test-*。
数据集来源
- wikimedia/wit_base: 原始数据来源。
任务类别
- visual-question-answering: 适用于视觉问答任务。
语言
- zh: 数据集主要包含中文内容。
数据集大小
- n<1K: 数据集大小类别。
许可证
- cc-by-sa-4.0: 数据集使用Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)许可证。
数据集构建
- 数据收集和初始过滤: 从
wikimedia/wit_base收集数据,过滤掉包含敏感内容(如NSFW和犯罪相关术语)的实例。 - N-gram选择: 截断描述并使用spaCy进行分词,随机遮挡5-grams。
- 创建文本嵌入图像: 将描述嵌入图像,调整宽度并遮挡选定的5-grams。
- 拼接图像: 将文本嵌入图像与原始视觉图像拼接。
- 二次过滤: 过滤掉没有遮挡n-grams或高度超过900像素的实例。
免责声明
VCR-Wiki 数据集及其子集仅供研究与教育目的使用,用户需确保其使用符合伦理指南和标准,并遵守CC BY-SA 4.0许可证的条款。
引用
若使用该数据集,请引用以下文献: bibtex @article{zhang2024vcr, title = {VCR: Visual Caption Restoration}, author = {Tianyu Zhang and Suyuchen Wang and Lu Li and Ge Zhang and Perouz Taslakian and Sai Rajeswar and Jie Fu and Bang Liu and Yoshua Bengio}, year = {2024}, journal = {arXiv preprint arXiv: 2406.06462} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



