COCO

github2018-08-22 更新2024-05-31 收录

下载链接：

https://github.com/ShevaXu/ai-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

COCO是一个大规模的对象检测、分割和字幕数据集。包含33万张图片（超过20万张标记），150万个对象实例，80个对象类别，91个东西类别，每张图片5个字幕，25万个带有关键点的人。

COCO is a large-scale dataset for object detection, segmentation, and captioning. It includes 330,000 images (with over 200,000 labeled), 1.5 million object instances, 80 object categories, 91 stuff categories, 5 captions per image, and 250,000 people with keypoints.

创建时间：

2018-06-27

原始信息汇总

数据集概述

Vision

COCO
- 330K images (>200K labeled)
- 1.5 million object instances
- 80 object categories, 91 stuff categories
- 5 captions per image
- 250,000 people with keypoints
Open Images Dataset V4
- 15,440,132 boxes on 600 categories
- 30,113,078 image-level labels on 19,794 categories
YouTube-BoundingBoxes Dataset
- 380,000 15-20s video segments
- 240,000 different YouTube videos
- Human-annotated with high precision classifications and bounding boxes at 1 frame per second
DensePose
- DensePose-COCO: 50K COCO images with manually annotated image-to-surface correspondences

Auto Driving

Berkeley DeepDrive
- 100,000 HD video sequences of over 1,100-hour driving
- 100,000 images of road object detections
- 10,000 images of instance segmentation
- 100,000 images of driveable area & lane markings
KITTI Benchmark
- Tasks: stereo, optical flow, visual odometry, 3D object detection, and 3D tracking

Games

OPENDOTA
- Parsing replay files provides highly detailed match data
StarData
- StarCraft: Brood War replay dataset with 65646 games
- 365 GB, 1535 million frames, and 496 million player actions

Misc

Visual Genome
- 108,077 Images
- 5.4 Million Region Descriptions
- 1.7 Million Visual Question Answers
- 3.8 Million Object Instances
- 2.8 Million Attributes
- 2.3 Million Relationships
- Everything Mapped to Wordnet Synsets
OpenAI Gym
- Toolkit for developing and comparing reinforcement learning algorithms
Microsoft Research Open Data
- NewsQA: 12,744 stories with 119,633 Question-Answer Pairs
- Frames: Human-human goal oriented dataset with 1369 dialogues
SoccerNet
- Scalable Dataset for Action Spotting in Soccer Videos

搜集汇总

数据集介绍

构建方式

COCO数据集的构建是基于大规模图像收集与人工标注相结合的方式，旨在为对象检测、分割和图像描述等计算机视觉任务提供丰富的训练数据。该数据集包含超过33万张图像，其中超过20万张进行了标注，涵盖了150万的对象实例，包括80种对象类别和91种物质类别。此外，每张图像还附有5个描述性的标题以及25万个人体的关键点信息。

特点

COCO数据集的特点在于其规模宏大、类别全面、标注细致。它不仅提供了对象实例级别的标注，还包括了图像级别的描述，使得该数据集适用于多种计算机视觉应用。数据集的多样性确保了模型在不同场景和条件下的泛化能力，关键点的标注则为人体姿态估计等任务提供了重要支撑。

使用方法

使用COCO数据集时，用户可以直接下载已标注的图像及其相关信息，用于训练和测试计算机视觉模型。数据集提供了详细的标注文件，方便研究人员进行数据处理和模型评估。同时，COCO数据集的官方页面也提供了相关的工具和基准，帮助用户更好地理解和利用该数据集。

背景与挑战

背景概述

COCO数据集，全称为Common Objects in Context，是一个大规模的图像识别数据集，由Microsoft Research团队创建于2014年。该数据集旨在促进目标检测、图像分割和图像描述生成等计算机视觉领域的研究。COCO数据集包含超过33万张图片，其中超过200K张图片被标注，拥有150万以上的物体实例，涵盖80种物体类别和91种背景类别，每张图片配有5个描述性句子，并且标注了25万人的关键点信息。COCO数据集以其全面的标注和丰富的场景布局，对计算机视觉领域的研究产生了深远影响。

当前挑战

COCO数据集在构建过程中面临的挑战主要包括：如何实现高精度的物体检测与分割，以及如何生成准确且多样化的图像描述。此外，由于数据集规模巨大，数据标注的一致性和准确性控制也是一项重要挑战。在研究领域问题方面，COCO数据集解决的挑战包括提高物体检测的准确度、实现细致的图像分割以及发展更为准确的图像理解与描述生成技术。

常用场景

经典使用场景

在计算机视觉研究领域，COCO数据集作为一项大规模的对象检测、分割及图像描述的数据集，其经典使用场景主要集中于对象识别、图像分割以及图像描述生成等任务。该数据集提供了丰富的图像资源及标注信息，支持研究者进行深度学习模型的训练与评估。

解决学术问题

COCO数据集解决了传统图像数据集中标注信息单一、类别覆盖不全面等问题。它涵盖了80个对象类别和91个物品类别，并包含超过150万的对象实例标注，以及25万个人体关键点标注，极大地满足了学术研究中对于数据多样性和标注精细度的需求，推动了计算机视觉技术的进步。

衍生相关工作

基于COCO数据集，学术界衍生出了众多经典工作，如DensePose-COCO，它将图像与表面对应关系的手动标注扩展到50K COCO图像，推动了姿态估计和人体解析领域的研究。此外，COCO数据集还激发了大量关于图像分割、目标检测和图像描述生成算法的创新工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集