five

Optasia/captioned_images

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Optasia/captioned_images
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含660多张带有专业标注的图像数据集,这些图像是从一个包含450M图像和780M真实记录的数据集中选取的。数据集具有高度多样性,包含许多美学图像和日常照片,这些照片由数百万人在8年内使用不同相机在不同环境下拍摄,并由人工进行描述性标注。数据集用于训练机器学习视觉模型。数据集中已移除个人身份信息和人类图像,标注信息存储在image_captions.csv文件中。数据集中的文本主要是英语,但也包含西班牙语、阿拉伯语等其他语言。

这是一个包含660多张带有专业标注的图像数据集,这些图像是从一个包含450M图像和780M真实记录的数据集中选取的。数据集具有高度多样性,包含许多美学图像和日常照片,这些照片由数百万人在8年内使用不同相机在不同环境下拍摄,并由人工进行描述性标注。数据集用于训练机器学习视觉模型。数据集中已移除个人身份信息和人类图像,标注信息存储在image_captions.csv文件中。数据集中的文本主要是英语,但也包含西班牙语、阿拉伯语等其他语言。
提供机构:
Optasia
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-2.0
  • 语言: 阿拉伯语、英语、西班牙语
  • 标签: 图像、标注图像、带标题图像、机器学习视觉、大型语言模型、图像到文本、图像生成
  • 大小分类: 100M<n<1B

数据集详情

  • 图像数量: 超过660张
  • 总数据集大小: 包含450M图像,780M记录的地面实况数据
  • 多样性: 数据集高度多样,包含多种类型的图像,如日常照片和美学照片,拍摄时间跨度为8年,使用不同相机在不同设置下拍摄
  • 标注: 图像由人工准确描述,标注信息存储在image_captions.csv文件中
  • 内容多样性: 包含多种对象,如295601张礼品卡、12029267件衬衫、4497752只狗、1855440棵树等
  • 语言: 主要为英语,也包含西班牙语、阿拉伯语等其他语言

访问方式

  • 样本数据: 已移除个人识别信息和人物图像
  • 完整数据集访问: 通过电子邮件optasia.corp@gmail.com请求访问权限
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作