SakanaAI/JA-VG-VQA-500

Name: SakanaAI/JA-VG-VQA-500
Creator: SakanaAI
Published: 2024-05-14 04:11:31
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/SakanaAI/JA-VG-VQA-500

下载链接

链接失效反馈

官方服务：

资源简介：

JA-VG-VQA-500数据集是日本视觉基因组VQA数据集的一个500样本子集，用于评估EvoVLM-JP-v1-7B模型。该数据集包含图像ID、URL、宽度、高度、COCO ID、Flickr ID、问答对（包括答案、问题、问答ID等）和图像等特征。数据集分为测试集和训练集，分别包含500和1000个样本。数据集的使用方法、引用和致谢信息也在README中提供。

提供机构：

SakanaAI

原始信息汇总

JA-VG-VQA-500 数据集概述

数据集描述

JA-VG-VQA-500 是 Japanese Visual Genome VQA 数据集的一个 500 样本子集。该数据集用于评估 EvoVLM-JP-v1-7B。更多详情请参考我们的报告和博客。

数据集信息

语言

日语 (ja)

许可证

Creative Commons Attribution 4.0 License (cc-by-4.0)

大小类别

1K<n<10K

任务类别

视觉问答 (visual-question-answering)

特征

image_id: 图像ID，数据类型为 int64
url: 图像URL，数据类型为 string
width: 图像宽度，数据类型为 int64
height: 图像高度，数据类型为 int64
coco_id: COCO图像ID，数据类型为 float64
flickr_id: Flickr图像ID，数据类型为 float64
qas: 问答对列表
- a_objects: 答案对象，数据类型为 null 的序列
- answer: 答案，数据类型为 string
- q_objects: 问题对象，数据类型为 null 的序列
- qa_id: 问答对ID，数据类型为 int64
- question: 问题，数据类型为 string
image: 图像，数据类型为 image

数据集分割

test: 测试集，包含 500 个样本，大小为 73348776.0 字节
train: 训练集，包含 1000 个样本，大小为 140066760.0 字节

数据集大小

下载大小: 495258420 字节
数据集大小: 497983127.0 字节

配置

default: 默认配置
- test: 测试集文件路径为 data/test-*
- train: 训练集文件路径为 data/train-*

使用方法

使用以下代码加载数据集：

python from datasets import load_dataset

dataset = load_dataset("SakanaAI/JA-VG-VQA-500", split="test")

致谢

我们感谢源数据集的开发者们，他们的贡献和作品使我们的工作成为可能。

引用

bibtex @article{Krishna2016VisualGC, title = {Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations}, author. = {Ranjay Krishna and Yuke Zhu and Oliver Groth and Justin Johnson and Kenji Hata and Joshua Kravitz and Stephanie Chen and Yannis Kalantidis and Li-Jia Li and David A. Shamma and Michael S. Bernstein and Li Fei-Fei}, journal = {International Journal of Computer Vision}, year. = {2017}, volume. = {123}, pages. = {32-73}, URL = {https://doi.org/10.1007/s11263-016-0981-7}, doi = {10.1007/s11263-016-0981-7} }

bibtex @InProceedings{C18-1163, author = "Shimizu, Nobuyuki and Rong, Na and Miyazaki, Takashi", title = "Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps", booktitle = "Proceedings of the 27th International Conference on Computational Linguistics", year = "2018", publisher = "Association for Computational Linguistics", pages = "1918--1928", location = "Santa Fe, New Mexico, USA", url = "http://aclweb.org/anthology/C18-1163" }

5,000+

优质数据集

54 个

任务类型

进入经典数据集