MS COCO|图像识别数据集|深度学习数据集
收藏数据集概述
MS COCO
规格
- 来源:MS Coco
- 图片数量:约125,000
- 磁盘大小:约30GB
数据集描述
MS Coco是一个包含常见物体并置于上下文中描述的数据集,用于NeuralTalk2。使用mscoco/build-dataset.sh path/to/folder
脚本可以下载并准备数据集。
im2text
规格
- 来源:SBU dataset
- 图片数量:约900,000
- 磁盘大小:约120GB(下载需300GB)
数据集描述
SBU数据集分类约一百万张图片,与MS Coco类似,但每张图片仅有一个描述。下载方式有两种:通过build-dataset.sh /path/to/target first_image nb_images
或download-dataset.sh /path/to/target
下载12个10GB的文件并重建。
ImageNet
规格
- 来源:ImageNet
- 图片数量:未提供
- 磁盘大小:未提供
数据集描述
ImageNet是一个旨在索引和分类各种自然图像的项目,包含约14M图像及其英文描述。数据集存在大量缺失图像,非商业项目可尝试获取原始数据集。

- MS COCO数据集首次发布,旨在为图像识别和分割任务提供高质量的标注数据。
- MS COCO数据集在ICCV 2015上正式介绍,并成为图像理解领域的重要基准。
- MS COCO数据集引入了新的挑战,包括实例分割和全景分割,进一步扩展了其应用范围。
- MS COCO数据集在计算机视觉领域的应用显著增加,成为许多先进算法和模型的标准测试集。
- MS COCO数据集持续更新,增加了更多的标注类别和实例,以适应不断发展的研究需求。
- 1Microsoft COCO: Common Objects in ContextMicrosoft Research · 2014年
- 2DensePose: Dense Human Pose Estimation In The WildFacebook AI Research · 2018年
- 3Mask R-CNNFacebook AI Research · 2017年
- 4Focal Loss for Dense Object DetectionFacebook AI Research · 2017年
- 5Panoptic SegmentationUniversity of Oxford · 2018年
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
olympics.csv
该数据集包含不同国家参加奥运会的奖牌榜,数据来源于维基百科的历届奥运会奖牌榜。
github 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录