five

vcr-org/VCR-wiki-zh-hard|视觉问答数据集|图像理解数据集

收藏
hugging_face2024-07-28 更新2024-06-12 收录
视觉问答
图像理解
下载链接:
https://hf-mirror.com/datasets/vcr-org/VCR-wiki-zh-hard
下载链接
链接失效反馈
资源简介:
VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕、堆叠图像等特征,并提供了训练、验证和测试集的详细信息。数据集构建过程包括数据收集、过滤、n-gram选择、文本嵌入图像创建、图像拼接和二次过滤等步骤。数据集还提供了模型评估的详细方法和结果。

VCR-Wiki数据集是一个用于视觉字幕恢复(VCR)任务的数据集,旨在评估视觉语言模型在图像中恢复部分遮挡文本的能力。数据集包含图像、字幕、堆叠图像等特征,并提供了训练、验证和测试集的详细信息。数据集构建过程包括数据收集、过滤、n-gram选择、文本嵌入图像创建、图像拼接和二次过滤等步骤。数据集还提供了模型评估的详细方法和结果。
提供机构:
vcr-org
原始信息汇总

数据集概述

数据集特征

  • image:图像数据类型
  • caption:字符串数据类型
  • stacked_image:图像数据类型
  • only_it_image:图像数据类型
  • only_it_image_small:图像数据类型
  • crossed_text:字符串序列数据类型

数据集分割

  • test:包含5000个示例,总大小为1005851898.7488415字节
  • validation:包含5000个示例,总大小为1007605144.261219字节
  • train:包含336448个示例,总大小为67801347115.279724字节

数据集大小

  • 下载大小:69580595287字节
  • 数据集总大小:69814804158.28978字节

数据文件配置

  • default配置
    • test:路径为data/test-*
    • validation:路径为data/validation-*
    • train:路径为data/train-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于从[wikimedia/wit_base](https://huggingface.co/datasets/wikimedia/wit_base)收集的原始数据,旨在通过图像中的像素级提示准确恢复部分遮挡的文本。构建过程首先进行数据清洗,去除敏感内容,然后使用spaCy工具对描述进行分词,随机遮挡5-grams,并创建带有文本的图像。最后,将图像与原始视觉图像拼接,形成最终的训练数据。
特点
VCR数据集的特点在于它能够测试视觉语言模型在图像中恢复被遮挡文本的能力。由于遮挡部分通常只有微小的暴露区域,这使得基于文本的处理方法无效。数据集分为训练集、验证集和测试集,每个集合并提供原始图像、带文本的图像、仅文本的图像和被遮挡的n-grams。
使用方法
VCR数据集可通过HuggingFace Datasets平台下载和使用。用户可以根据需要选择训练集、验证集或测试集。数据集提供了多种评估模型性能的方法,包括使用开源脚本、VLMEvalKit框架和lmms-eval框架。此外,用户还可以通过API对闭源模型进行评估。
背景与挑战
背景概述
视觉问答系统在人工智能领域一直是一个重要的研究方向,其核心在于让机器能够理解和回答关于图像的问题。VCR-Wiki数据集应运而生,旨在评估视觉语言模型在视觉标题修复任务中的能力。该数据集由Tianyu Zhang等人于2024年创建,主要研究人员包括来自MILA和Google的专家。VCR-Wiki数据集的核心研究问题是如何利用图像中的像素级线索来准确地恢复被部分遮挡的文本。这一问题的解决对于视觉问答系统的发展具有重要意义,因为它能够提高机器对图像内容的理解和表达能力。
当前挑战
VCR-Wiki数据集所面临的挑战主要包括:1)视觉问答领域的问题挑战:如何准确地恢复被部分遮挡的文本,这需要模型能够理解图像中的像素级线索,以及图像和上下文之间的关系;2)数据集构建过程中的挑战:如何生成具有挑战性的合成图像,以控制任务的难度。此外,由于当前视觉语言模型在VCR任务上的表现与人类相比仍有差距,因此如何提升模型在这一任务上的表现也是一个重要的挑战。
常用场景
经典使用场景
VCR-Wiki数据集旨在评估视觉-语言模型在图像中恢复部分遮挡文本的能力。该数据集的经典使用场景是视觉问题回答(Visual Question Answering, VQA),其中模型需要根据图像内容、上下文和遮蔽文本的微小暴露区域来准确恢复文本。这种任务对OCR和基于文本的处理方法提出了挑战,因为它们无法充分利用图像中的像素级提示。
衍生相关工作
基于VCR-Wiki数据集,研究人员已经开展了多项相关工作。例如,一些研究探索了如何利用图像中的像素级提示来提高文本恢复的准确性,而另一些研究则关注于如何设计更有效的模型结构来处理视觉-语言任务。此外,还有一些研究尝试将VCR-Wiki数据集与其他数据集相结合,以进一步提高模型的性能。
数据集最近研究
最新研究方向
VCR-Wiki 数据集专注于视觉语言模型在视觉字幕恢复任务上的能力。该数据集挑战模型在部分遮挡文本的情况下,利用图像中的像素级提示准确恢复文本的能力。当前研究热点集中在如何提高视觉语言模型在VCR任务上的表现,以及如何利用该数据集评估和改进视觉语言模型在视觉字幕恢复任务上的能力。该数据集的发布对视觉语言模型的评估和改进具有重要意义,有望推动视觉字幕恢复领域的研究发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录

DNS-Challenge

深度噪声抑制挑战数据集,包含干净的语音和噪声剪辑,用于训练和评估在有噪声环境下增强语音的模型。

huggingface 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录