TheMrguiller/BilbaoCaptions
收藏Hugging Face2023-08-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TheMrguiller/BilbaoCaptions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Deusto大学计算与智能系统硕士项目的学生收集,数据来源于巴斯克地区著名的网页Deia和Getimages。数据集主要用于视觉问答任务,包含图像和对应的描述。数据集分为训练集和测试集,比例为80%和20%。数据集存在一些缺陷,如描述过于具体或过于泛泛,且足球比赛数据较多,导致数据不平衡。
该数据集由Deusto大学计算与智能系统硕士项目的学生收集,数据来源于巴斯克地区著名的网页Deia和Getimages。数据集主要用于视觉问答任务,包含图像和对应的描述。数据集分为训练集和测试集,比例为80%和20%。数据集存在一些缺陷,如描述过于具体或过于泛泛,且足球比赛数据较多,导致数据不平衡。
提供机构:
TheMrguiller
原始信息汇总
数据集概述
数据集基本信息
- 名称: BilbaoCaptions
- 语言: 英语
- 标签: 代码
- 大小分类: 100B<n<1T
数据集结构
特征
- caption: 字符串类型,描述图像内容。
- image: 图像类型,对应的图像文件。
数据分割
- 训练集: 3960个样本,占用1372144989.6字节。
- 测试集: 990个样本,占用343036247.4字节。
数据集大小
- 下载大小: 1709055735字节
- 数据集总大小: 1715181237字节
数据集用途
- 主要用途: 视觉问答任务
数据集特点
- 描述问题: 描述有时过于具体,不适合作为标题。
- 内容不平衡: 包含过多足球比赛数据。
- 描述通用性: 部分描述过于通用。
数据集来源
- 收集来源: 来自巴斯克地区著名的网页Deia和Getimages。
- 数据集创建者: 德乌斯托大学计算与智能系统硕士学位的学生。



