five

MSCOCO|对象检测数据集|图像分割数据集

收藏
github2024-03-24 更新2024-05-31 收录
对象检测
图像分割
下载链接:
https://github.com/shunk031/huggingface-datasets_MSCOCO
下载链接
链接失效反馈
资源简介:
COCO是一个大规模的对象检测、分割和字幕数据集,具有对象分割、识别在上下文中、超像素东西分割等特性。包含超过33万张图像(超过20万张标记),150万个对象实例,80个对象类别,91个东西类别,每张图像5个字幕,25万个具有关键点的人物。

COCO is a large-scale dataset for object detection, segmentation, and captioning, featuring object segmentation, recognition in context, superpixel stuff segmentation, and more. It includes over 330,000 images (more than 200,000 labeled), 1.5 million object instances, 80 object categories, 91 stuff categories, 5 captions per image, and 250,000 people with keypoints.
创建时间:
2023-09-06
原始信息汇总

数据集概述

数据集名称

  • 名称: MSCOCO
  • 别名: COCO

数据集特征

  • 任务类型:
    • 图像分割
    • 目标检测
    • 其他
  • 具体任务:
    • 实例分割
    • 语义分割
    • 全景分割
  • 语言: 英语(单语种)
  • 许可证: Creative Commons Attribution 4.0 License (cc-by-4.0)
  • 数据来源: 原始数据
  • 注释创建者: 众包
  • 标签:
    • 图像字幕
    • 目标检测
    • 关键点检测
    • 东西分割
    • 全景分割

数据集详细信息

  • 图像数量: 330K(超过200K标记)
  • 对象实例数量: 1.5 million
  • 对象类别数量: 80
  • 东西类别数量: 91
  • 每张图像字幕数量: 5
  • 含有关键点的人物数量: 250,000

数据集结构

  • 数据实例:
    • 2014年:
      • 字幕数据集
      • 实例数据集
      • 人物关键点数据集
    • 2017年:
      • 字幕数据集
      • 实例数据集
      • 人物关键点数据集

许可证信息

  • 注释和网站: 属于COCO Consortium,根据Creative Commons Attribution 4.0 License授权。
  • 图像: COCO Consortium不拥有图像版权,使用需遵守Flickr服务条款。
  • 软件: 根据特定条件允许重分发和修改,需保留版权声明。

引用信息

bibtex @inproceedings{lin2014microsoft, title={Microsoft coco: Common objects in context}, author={Lin, Tsung-Yi and Maire, Michael and Belongie, Serge and Hays, James and Perona, Pietro and Ramanan, Deva and Doll{a}r, Piotr and Zitnick, C Lawrence}, booktitle={Computer Vision--ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13}, pages={740--755}, year={2014}, organization={Springer} }

贡献者

  • 创建者: COCO Consortium
AI搜集汇总
数据集介绍
main_image_url
构建方式
MSCOCO数据集的构建基于大规模的图像采集和标注工作,涵盖了日常生活中常见的场景和物体。该数据集通过众包平台招募大量标注者,对图像进行详细的语义分割、边界框标注以及多标签分类,确保每张图像具有高精度的标注信息。此外,数据集还包含了丰富的上下文信息和多对象关系,以支持复杂场景的理解和分析。
特点
MSCOCO数据集以其多样性和复杂性著称,包含了超过30万张图像,涵盖了80个常见物体类别。每张图像平均包含5个对象,且支持多对象标注和语义分割,为计算机视觉研究提供了丰富的训练和测试资源。此外,数据集还提供了多语言的图像描述,增强了其在跨语言任务中的应用潜力。
使用方法
MSCOCO数据集广泛应用于计算机视觉领域的多个任务,包括图像分类、目标检测、语义分割和图像描述生成等。研究者可以通过下载官方提供的训练、验证和测试集,利用这些数据进行模型训练和性能评估。此外,数据集的多对象标注和语义分割信息,使得其在复杂场景理解和多任务学习中具有独特的优势。
背景与挑战
背景概述
MSCOCO(Microsoft Common Objects in Context)数据集于2014年由微软研究院发布,旨在解决图像理解任务中的多对象识别与场景描述问题。该数据集由Tsung-Yi Lin等人主导开发,包含了超过30万张图像,涵盖80个常见对象类别,每张图像平均有5个对象标注。MSCOCO的发布极大地推动了计算机视觉领域的发展,特别是在对象检测、分割和图像描述生成等任务上,为研究人员提供了丰富的数据资源和基准测试平台。
当前挑战
MSCOCO数据集在构建过程中面临了多重挑战。首先,对象标注的复杂性要求高精度的边界框和像素级分割,这增加了数据标注的难度和成本。其次,场景的多样性和对象的密集分布使得自动标注算法难以达到人工标注的准确度。此外,数据集的规模和多样性要求高效的存储和处理技术,以确保数据的高效利用和快速访问。这些挑战不仅影响了数据集的构建,也对后续的模型训练和性能评估提出了更高的要求。
发展历史
创建时间与更新
MSCOCO数据集于2014年首次发布,旨在为计算机视觉领域提供一个大规模、高质量的图像数据集。自发布以来,MSCOCO经历了多次更新,最近一次重大更新是在2017年,进一步丰富了数据集的多样性和复杂性。
重要里程碑
MSCOCO数据集的创建标志着计算机视觉领域的一个重要里程碑。其首次引入的图像标注方法,特别是对象实例分割和关键点检测,极大地推动了相关算法的发展。2015年,MSCOCO举办了首届图像识别挑战赛,吸引了全球研究者的广泛参与,进一步提升了数据集的影响力。此外,MSCOCO在2017年的更新中,增加了更多的图像和标注信息,使其成为计算机视觉研究中的标准基准之一。
当前发展情况
当前,MSCOCO数据集已成为计算机视觉领域不可或缺的资源,广泛应用于图像识别、目标检测、语义分割等多个子领域。其丰富的标注信息和多样化的图像内容,为深度学习模型的训练和评估提供了坚实的基础。MSCOCO不仅推动了学术研究的前沿进展,也在工业界得到了广泛应用,促进了实际应用中的技术革新。随着技术的不断进步,MSCOCO数据集的持续更新和扩展,将继续为计算机视觉领域的发展提供强大的支持。
发展历程
  • MSCOCO数据集首次发布,包含超过30万张图像,每张图像附有详细的标注信息,主要用于图像识别和语义分割任务。
    2014年
  • MSCOCO数据集在ImageNet大规模视觉识别挑战赛中首次应用,显著提升了图像识别和物体检测的性能。
    2015年
  • MSCOCO数据集扩展了其标注范围,增加了更多的语义和实例分割标注,进一步丰富了数据集的应用场景。
    2017年
  • MSCOCO数据集在自然语言处理领域得到广泛应用,特别是在图像描述生成和视觉问答任务中,成为基准数据集之一。
    2019年
  • MSCOCO数据集发布了新的版本,优化了标注质量和数据分布,继续推动计算机视觉和自然语言处理领域的研究进展。
    2021年
常用场景
经典使用场景
在计算机视觉领域,MSCOCO(Microsoft Common Objects in Context)数据集以其丰富的多对象场景和详细的注释而著称。该数据集广泛应用于图像分割、目标检测和图像描述生成等任务。通过提供大量包含多个对象的复杂场景图像,MSCOCO为研究人员提供了一个理想的平台,以测试和改进算法在真实世界环境中的表现。
实际应用
在实际应用中,MSCOCO数据集被广泛用于自动驾驶、智能监控和增强现实等领域。例如,自动驾驶系统依赖于精确的目标检测和场景理解,MSCOCO提供的丰富数据和高质量注释极大地促进了这些系统的发展。同样,智能监控系统通过利用MSCOCO数据集训练的模型,能够更准确地识别和跟踪目标,提高监控效率和安全性。
衍生相关工作
基于MSCOCO数据集,许多经典工作得以展开,如Faster R-CNN、Mask R-CNN和BERT等模型的发展。这些模型在目标检测、实例分割和自然语言处理等领域取得了显著成果。此外,MSCOCO还激发了大量关于数据增强和模型泛化能力的研究,推动了计算机视觉技术的整体进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录