UCSC-VLAA/Recap-COCO-30K
收藏Hugging Face2024-06-12 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/UCSC-VLAA/Recap-COCO-30K
下载链接
链接失效反馈官方服务:
资源简介:
Llava recaptioned COCO2014 ValSet数据集用于文本到图像生成评估。包含特征:image_id(COCO图像ID),coco_url(COCO图像URL),image(图像),caption(原始COCO描述),recaption(LLaVA重新描述的COCO描述)。数据集大小在10K到100K之间。
The Llava recaptioned COCO2014 ValSet dataset is used for text-to-image generation evaluation. It includes features such as image_id (COCO image ID), coco_url (COCO image URL), image (image), caption (original COCO caption), and recaption (LLaVA recaptioned COCO caption). The dataset size ranges between 10K and 100K.
提供机构:
UCSC-VLAA
原始信息汇总
数据集概述
许可证
- CC BY 4.0
任务类别
- 文本到图像生成
数据集大小
- 10K<n<100K
数据集信息
- 特征列表
image_id(int64): 图像IDcoco_url(string): COCO图像URLimage(Image): 图像数据caption(string): 原始COCO描述recaption(string): LLaVA重新描述的COCO描述
数据集结构
- 字段描述
image_id(str): COCO图像IDcoco_url(image): COCO图像URLcaption(str): 原始COCO描述recaption(str): LLaVA重新描述的COCO描述
引用
-
BibTeX:
@article{li2024recapdatacomp, title={What If We Recaption Billions of Web Images with LLaMA-3?}, author={Li, Xianhang and Tu, Haoqin and Hui, Mude and Wang, Zeyu and Zhao, Bingchen and Xiao, Junfei and Ren, Sucheng and Mei, Jieru and Liu, Qing and Zheng, Huangjie and Zhou, Yuyin and Xie, Cihang}, journal={arXiv preprint arXiv:2406.12345}, year={2024} }
搜集汇总
数据集介绍

构建方式
UCSC-VLAA/Recap-COCO-30K数据集的构建,是基于COCO2014验证集的图像和原始描述。通过对原始图像描述的再描述(recaptioning),利用LLaMA-3模型生成新的描述,进而形成了包含原始描述和再描述的数据集,旨在为文本到图像生成任务的评估提供标准资源。
特点
该数据集的特点在于其结合了原始图像描述与经过LLaMA-3模型处理后的再描述,提供了双重文本信息,对于评估文本到图像生成的质量具有独特优势。数据集规模适中,包含的图像数量介于10K到100K之间,便于多种规模的研究和应用使用。
使用方法
用户可以通过访问数据集中的'image_id'获取COCO图像的URL,进而访问图像本身。同时,'caption'和'recaption'字段提供了原始和再描述文本,可用于训练或评估相关模型。数据集的合理引用,将有助于学术研究的准确性和可靠性,遵循cc-by-4.0协议,用户需遵循相关版权规定使用数据集。
背景与挑战
背景概述
UCSC-VLAA/Recap-COCO-30K数据集,诞生于2024年,是由Li Xianhang等研究人员在计算机视觉与自然语言处理领域的一项重要成果。该数据集基于COCO2014的验证集,通过LLaMA-3模型重新生成图像描述,旨在推动文本到图像生成任务的评估技术发展。该数据集的创建,不仅丰富了图像描述生成的研究素材,也为模型评估提供了新的视角,对相关领域产生了深远的影响。
当前挑战
该数据集在构建过程中,面临了如何精确捕捉图像内容与丰富语义的挑战,同时确保重生成的描述在质量与多样性上能够满足研究需求。在领域问题上,数据集的挑战体现在如何利用先进模型提高文本到图像生成的准确度和自然度,以及如何有效评估生成模型的性能。
常用场景
经典使用场景
在文本到图像生成的研究领域中,UCSC-VLAA/Recap-COCO-30K数据集以其独特的图像与再描述文本对,成为评估模型性能的重要基准。该数据集提供了原始的COCO图像描述以及通过LLaMA-3模型生成的图像描述,使得研究者能够对比不同描述之间的差异,进而优化生成模型的对齐性和准确性。
解决学术问题
该数据集解决了图像描述生成中的多样性和一致性问题,为学术研究提供了深入理解自然语言处理模型在图像描述任务中的表现和局限。其引入的再描述概念,有助于探索模型对于同一图像内容的不同表述能力,进而提升模型在真实世界应用中的泛化能力。
衍生相关工作
基于UCSC-VLAA/Recap-COCO-30K数据集的研究成果,衍生出了众多探索图像与文本关联性的经典工作。研究者们利用该数据集对模型进行训练和评估,推动了文本到图像合成技术的发展,并在计算机视觉和自然语言处理的交叉领域产生了广泛的影响。
以上内容由遇见数据集搜集并总结生成



