Open Images Dataset V4
收藏arXiv2020-02-21 更新2024-06-21 收录
下载链接:
https://g.co/dataset/openimages/
下载链接
链接失效反馈官方服务:
资源简介:
Open Images V4是一个包含920万张图像的数据集,提供了统一的图像分类、目标检测和视觉关系检测注释。这些图像使用Creative Commons Attribution许可证,允许共享和改编,且从Flickr收集,没有预定义的类别名称或标签列表,从而确保了类别的自然分布并避免了初始设计偏差。数据集在多个维度上规模庞大:包含3010万个图像级标签,涵盖19800个概念;1540万个边界框,涉及600个对象类别;以及375000个视觉关系注释,涉及57个类别。特别是对于目标检测,提供了1540万个边界框,分布在190万张图像上,比其他大型数据集多15倍。图像通常展示复杂的场景,平均每张图像有8个标注对象。此外,还标注了对象之间的视觉关系,支持视觉关系检测,这是一个需要结构化推理的新兴任务。
Open Images V4 is a dataset comprising 9.2 million images, which provides unified annotations for image classification, object detection, and visual relationship detection. These images are collected from Flickr under the Creative Commons Attribution license, which permits sharing and adaptation. Notably, there are no pre-defined category names or label lists, ensuring the natural distribution of categories and avoiding initial design biases. The dataset is large-scale across multiple dimensions: it contains 30.1 million image-level labels covering 19,800 concepts, 15.4 million bounding boxes across 600 object categories, and 375,000 visual relationship annotations spanning 57 categories. Specifically for object detection, it provides 15.4 million bounding boxes distributed across 1.9 million images, which is 15 times more than other large-scale datasets. Images typically depict complex scenes, with an average of 8 annotated objects per image. Additionally, visual relationships between objects are annotated, supporting visual relationship detection, an emerging task that requires structured reasoning.
提供机构:
谷歌
创建时间:
2018-11-03
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,大规模标注数据是推动模型性能突破的关键。Open Images V4数据集的构建过程体现了对数据规模、多样性与标注质量的系统性追求。其图像主要从Flickr平台采集,所有图像均遵循知识共享署名许可协议,确保了数据的可共享性与商业应用潜力。为避免初始设计偏差,图像收集未预设类别列表或标签,从而获得了自然的类别分布。数据集构建采用了分层采样与计算机辅助标注相结合的策略:首先利用在大型内部数据集上预训练的图像分类模型生成候选标签,随后通过人工验证流程对候选标签进行确认,该流程结合了内部专业标注员与外部众包平台,并采用多数投票机制确保标注一致性。对于目标检测任务,标注了600个可边界框标注类别的1540万个边界框,其中约90%采用高效的“极限点击”技术绘制,其余则通过“边界框验证序列”方法生成。视觉关系检测的标注则建立在已有边界框的基础上,针对预定义的329种关系三元组进行人工验证。整个构建过程强调标注的完整性、几何准确性以及跨任务标注的统一性。
特点
Open Images V4数据集以其前所未有的规模、丰富的标注类型与复杂的场景构成而著称。该数据集包含超过920万张图像,提供了三种统一的标注:涵盖近2万个概念的3010万个图像级标签、针对600个物体类别的1540万个边界框以及涉及57个类别的37.5万个视觉关系标注。其规模在目标检测方面尤为突出,边界框数量是当时其他最大数据集的15倍以上。数据集的图像通常呈现包含多个物体的复杂场景,平均每张图像标注有8个物体,这为模型理解真实世界场景的复杂性提供了挑战。此外,所有标注共存于同一组图像中,实现了图像分类、目标检测和视觉关系检测任务的统一,支持跨任务的学习与分析。数据集的类别体系源自一个庞大的内部概念集合,涵盖了从粗粒度到细粒度的物体类别、场景、事件、材料与属性,确保了语义的广度与深度。
使用方法
Open Images V4数据集为计算机视觉多个核心任务的研究与模型开发提供了基准。研究者可通过其官方网站获取图像、标注及可视化工具。对于图像分类任务,可利用其海量的图像级标签(包括正例与负例)训练和评估模型,特别适合研究大规模不完全标注下的学习算法。在目标检测方面,该数据集巨量的边界框标注为训练数据饥渴的现代检测器(如Faster R-CNN, SSD等)提供了充足的样本,其复杂的多物体场景和丰富的物体尺寸分布(包含大量小物体)对检测器提出了更高要求。视觉关系检测任务则可利用其精确定义的关系三元组进行模型训练与评估。由于标注是统一的,该数据集特别适用于探索多任务学习、知识迁移以及零样本学习等前沿方向,例如结合图像级细粒度标签与边界框标注进行细粒度目标检测,或利用边界框标注辅助零样本视觉关系检测。在使用时,需注意其图像级标注并非穷尽,评估指标经过了相应调整以公平反映模型性能。
背景与挑战
背景概述
Open Images Dataset V4 由谷歌研究团队于2020年正式发布,作为计算机视觉领域的重要里程碑,该数据集旨在统一图像分类、目标检测和视觉关系检测三大任务。其核心研究问题在于解决大规模、多任务视觉数据标注的稀缺性,通过提供超过900万张图像、3000万图像级标签、1540万边界框及37.5万视觉关系标注,显著推动了深度学习模型在复杂场景理解方面的进展。该数据集采用知识共享许可协议,图像源自Flickr平台,避免了预设类别标签带来的偏差,从而更真实地反映了自然世界的视觉分布。其规模与多样性对目标检测等任务产生了深远影响,为模型训练与评估提供了前所未有的资源基础。
当前挑战
Open Images Dataset V4 面临的挑战主要体现在两个方面:其一,在领域问题层面,该数据集致力于解决图像分类、目标检测和视觉关系检测的综合性难题,尤其视觉关系检测要求模型进行结构化推理,识别对象间的交互关系,这对算法的语义理解与空间建模能力提出了极高要求。其二,在构建过程中,数据采集与标注面临严峻挑战,包括如何从海量图像中筛选复杂场景、避免网络搜索引擎偏差,以及高效标注数百万边界框时确保几何精度与语义一致性。此外,处理19,794个图像级类别与600个可标注类别的层次结构,并协调多任务标注的统一性,均需克服大规模人工验证与质量控制的技术瓶颈。
常用场景
经典使用场景
在计算机视觉领域,大规模标注数据集是推动模型性能突破的关键基石。Open Images V4以其920万张图像、1540万个边界框和37.5万条视觉关系标注,为图像分类、目标检测和视觉关系检测三大核心任务提供了统一且丰富的训练资源。该数据集通过从Flickr采集具有知识共享许可的图像,避免了预设类别列表带来的偏差,确保了类别分布的天然多样性。其每张图像平均标注8个对象的复杂性,为模型处理真实世界多对象场景提供了理想平台。
实际应用
在实际应用层面,Open Images V4为智能视觉系统的开发提供了强大支撑。基于其训练的模型可广泛应用于自动驾驶中的多目标识别与关系推断、零售行业的商品检测与交互分析、以及多媒体内容的结构化索引等领域。数据集的开放许可特性允许商业场景的无障碍使用,促进了产业界对先进视觉技术的快速集成。其复杂场景标注尤其有助于提升模型在真实环境中的鲁棒性,例如处理遮挡、截断及群体对象等挑战性情况。
衍生相关工作
该数据集催生了众多前沿研究,例如基于统一标注的跨任务学习框架探索,以及利用层级类别结构进行零样本视觉关系检测的方法创新。在细粒度检测方面,研究者通过结合图像级标签与边界框标注,实现了对汽车品牌、犬种等子类别的识别。数据集还支撑了如BAR-CNN等视觉关系检测模型的性能验证,并启发了针对非完全标注场景下的评估指标设计。这些工作共同推动了计算机视觉向更深入、更结构化的场景理解方向发展。
以上内容由遇见数据集搜集并总结生成



