five

ruisu516/DiverseCount

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/ruisu516/DiverseCount
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1350张不同数量对象的图像,每类数量(2到10)有150张图像。图像来自多个来源,包括COCO数据集、Conceptual 12M、YFCC100M和SBU Captions Dataset。对于数量较大的图像(如9和10),还手动从互联网上收集了一些图像。每个图像文本对都经过人工检查和修正,以确保语法正确并去除噪声信息。图像也经过人工检查以避免重复。该数据集可用于训练、改进或评估视觉语言模型的对象计数准确性。

This dataset includes 1350 images of objects of varied counts, 150 images for each count between 2 and 10. It consists of images automatically sourced from multiple sources, including the COCO Dataset, Conceptual 12M, YFCC100M, and SBU Captions Dataset. In addition, due to the fact that images with large counts (i.e., nine and ten) are scarce, to compose 150 images for each count, we also manually collect some images from the Internet. Each text image pair is manually checked and the captions are revised to get rid of grammar errors and noisy information. Images are also manually checked to avoid duplication. This dataset can be used to train to improve or evaluate a visual language models object counting accuracy.
提供机构:
ruisu516
原始信息汇总

数据集描述

概述

  • 数据集名称: 包含1350张对象数量各异的图像,每个数量(2到10)对应150张图像。
  • 数据来源: 图像自动从多个来源获取,包括COCO数据集、Conceptual 12M、YFCC100M和SBU Captions数据集。对于数量较大的图像(如九和十),由于稀缺性,部分图像通过手动从互联网收集。
  • 数据处理: 每对文本图像经过手动检查,修正了语法错误和噪声信息。图像也经过手动检查以避免重复。
  • 应用场景: 用于训练或评估视觉语言模型在对象计数准确性方面的表现。

数据结构

  • 特征:
    • dataset_name: 数据集名称,类型为字符串。
    • org_id: 组织ID,类型为整数。
    • target: 目标,类型为字符串。
    • image_url: 图像URL,类型为字符串。
    • target_context: 目标上下文,类型为字符串。
    • number: 数量,类型为整数。

数据分割

  • 训练集:
    • 名称: train
    • 字节数: 288167
    • 样本数: 1350

数据大小

  • 下载大小: 150553字节
  • 数据集大小: 288167字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作