five

SakanaAI/JA-VG-VQA-500

收藏
Hugging Face2024-05-14 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/SakanaAI/JA-VG-VQA-500
下载链接
链接失效反馈
官方服务:
资源简介:
JA-VG-VQA-500数据集是日本视觉基因组VQA数据集的一个500样本子集,用于评估EvoVLM-JP-v1-7B模型。该数据集包含图像ID、URL、宽度、高度、COCO ID、Flickr ID、问答对(包括答案、问题、问答ID等)和图像等特征。数据集分为测试集和训练集,分别包含500和1000个样本。数据集的使用方法、引用和致谢信息也在README中提供。

JA-VG-VQA-500数据集是日本视觉基因组VQA数据集的一个500样本子集,用于评估EvoVLM-JP-v1-7B模型。该数据集包含图像ID、URL、宽度、高度、COCO ID、Flickr ID、问答对(包括答案、问题、问答ID等)和图像等特征。数据集分为测试集和训练集,分别包含500和1000个样本。数据集的使用方法、引用和致谢信息也在README中提供。
提供机构:
SakanaAI
原始信息汇总

JA-VG-VQA-500 数据集概述

数据集描述

JA-VG-VQA-500Japanese Visual Genome VQA 数据集 的一个 500 样本子集。该数据集用于评估 EvoVLM-JP-v1-7B。更多详情请参考我们的 报告博客

数据集信息

语言

  • 日语 (ja)

许可证

  • Creative Commons Attribution 4.0 License (cc-by-4.0)

大小类别

  • 1K<n<10K

任务类别

  • 视觉问答 (visual-question-answering)

特征

  • image_id: 图像ID,数据类型为 int64
  • url: 图像URL,数据类型为 string
  • width: 图像宽度,数据类型为 int64
  • height: 图像高度,数据类型为 int64
  • coco_id: COCO图像ID,数据类型为 float64
  • flickr_id: Flickr图像ID,数据类型为 float64
  • qas: 问答对列表
    • a_objects: 答案对象,数据类型为 null 的序列
    • answer: 答案,数据类型为 string
    • q_objects: 问题对象,数据类型为 null 的序列
    • qa_id: 问答对ID,数据类型为 int64
    • question: 问题,数据类型为 string
  • image: 图像,数据类型为 image

数据集分割

  • test: 测试集,包含 500 个样本,大小为 73348776.0 字节
  • train: 训练集,包含 1000 个样本,大小为 140066760.0 字节

数据集大小

  • 下载大小: 495258420 字节
  • 数据集大小: 497983127.0 字节

配置

  • default: 默认配置
    • test: 测试集文件路径为 data/test-*
    • train: 训练集文件路径为 data/train-*

使用方法

使用以下代码加载数据集:

python from datasets import load_dataset

dataset = load_dataset("SakanaAI/JA-VG-VQA-500", split="test")

致谢

我们感谢源数据集的开发者们,他们的贡献和作品使我们的工作成为可能。

引用

bibtex @article{Krishna2016VisualGC, title = {Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations}, author. = {Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei}, journal = {International Journal of Computer Vision}, year. = {2017}, volume. = {123}, pages. = {32-73}, URL = {https://doi.org/10.1007/s11263-016-0981-7}, doi = {10.1007/s11263-016-0981-7} }

bibtex @InProceedings{C18-1163, author = "Shimizu, Nobuyuki and Rong, Na and Miyazaki, Takashi", title = "Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps", booktitle = "Proceedings of the 27th International Conference on Computational Linguistics", year = "2018", publisher = "Association for Computational Linguistics", pages = "1918--1928", location = "Santa Fe, New Mexico, USA", url = "http://aclweb.org/anthology/C18-1163" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作