aliencaocao/described-flying-objects

Name: aliencaocao/described-flying-objects
Creator: aliencaocao
Published: 2024-06-17 16:33:02
License: 暂无描述

Hugging Face2024-06-17 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/aliencaocao/described-flying-objects

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为DSTA BrainHack TIL 2024竞赛的VLM任务创建的，包含各种背景中的飞行物体，并增加了噪声。数据集提供了边界框和简短的文本描述，适用于开放词汇对象检测/分类任务。数据集包含2338张图像，9214个边界框，69个独特的飞行物体及其描述。

提供机构：

aliencaocao

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
数据规模: 1K < n < 10K
任务类别:
- 零样本目标检测
- 零样本图像分类

数据集结构

特征:
- 名称: image
- 数据类型: image
分割:
- 名称: train
- 字节数: 1486623411.242
- 样本数: 2338
下载大小: 1482027997
数据集大小: 1486623411.242

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

详细描述

创建目的: 用于DSTA BrainHack TIL 2024竞赛的VLM任务。
内容: 包含各种飞行物体及其背景，并添加了噪声。提供边界框和简短文本描述。
适用任务: 开放词汇目标检测/分类任务。
创建者: Ooi Xuan Shan，来自团队12000SGDPLUSHIE。
创建代码: 可在此处找到。

数据统计

图像数量: 2338
边界框数量: 9214
独特飞行物体数量: 69
物体描述数量: 69

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，针对空中目标的开放词汇检测与分类任务，数据集常面临标注稀缺与场景单一之困。该数据集专为DSTA BrainHack TIL 2024竞赛的视觉语言模型任务而构建，由Ooi Xuan Shan团队精心打造。构建过程中，首先收集了多种飞行物（如无人机、飞机）在不同背景下的图像，随后通过添加噪声进行数据增强，以模拟真实场景中的复杂条件。每张图像均附带边界框标注和简短文本描述，共计2338张图片、9214个边界框，覆盖69种独特的飞行物类别，其创建代码已公开于GitHub，确保流程可复现。

特点

该数据集的核心特点在于其针对开放词汇目标检测与分类任务的专门设计，融合了视觉与语言模态的协同信息。图像背景多样且经过噪声增强，有效提升了模型在复杂环境下的鲁棒性。69种飞行物类别覆盖广泛，从常见飞机到小型无人机，每类均配有精准的边界框与语义描述，支持零样本学习场景。数据规模适中（1K至10K样本），既避免了小样本的过拟合风险，又降低了大规模标注的负担，为研究空中目标识别提供了高价值的基准资源。

使用方法

使用该数据集时，可将其直接加载至零样本目标检测或图像分类框架中。图像以标准格式存储，边界框与文本描述作为监督信号，支持多模态模型的训练与评估。用户可通过HuggingFace的datasets库便捷获取数据，按默认配置划分训练集。建议结合视觉语言模型（如CLIP、OWL-ViT）进行微调，利用文本描述引导模型学习开放词汇的语义关联。此外，代码仓库提供了数据增强与创建脚本，便于用户根据需求扩展或定制数据集，适配特定空中目标检测任务。

背景与挑战

背景概述

在计算机视觉领域，开放词汇目标检测与零样本分类是当前研究的前沿方向，旨在突破传统封闭数据集对类别数量的限制，使模型能够识别训练中未见的物体。在此背景下，由Ooi Xuan Shan等研究人员于2024年DSTA BrainHack TIL竞赛中创建的Described Flying Objects数据集应运而生。该数据集聚焦于空中飞行物体，涵盖无人机、飞机等69类独特目标，包含2338张图像与9214个边界框，并配以短文本描述。通过引入噪声增强，数据集模拟了真实场景的复杂性，为开放词汇检测与分类任务提供了标准化评估基准，推动了相关领域的技术进步。

当前挑战

该数据集所解决的领域挑战在于，传统目标检测模型通常依赖固定类别标签，难以泛化至飞行物体这类动态、多变的场景。具体而言，飞行物体在背景中尺度不一、姿态多变，且常受光照、遮挡及运动模糊干扰，对模型的鲁棒性提出严峻考验。在构建过程中，挑战表现为：需人工标注大量边界框与文本描述，确保类别覆盖的全面性与描述的准确性；同时，通过噪声增强模拟真实环境，需平衡数据多样性与其对模型训练的负面影响，避免过拟合至噪声模式。这些挑战共同构成了数据集设计中的核心难点。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，Described Flying Objects数据集以其独特的空中目标图像与文本描述配对形式，为开放词汇目标检测与零样本分类任务提供了理想的研究平台。该数据集包含2338张涵盖无人机、飞机等69种飞行物的高噪声背景图像，并精确标注了9214个边界框及对应的短文本描述，尤其适合评估模型在复杂环境下的泛化能力与细粒度识别性能。研究者常将其作为基准测试集，用于验证视觉语言模型在航空场景中的零样本迁移效果。

解决学术问题

该数据集有效解决了传统目标检测数据集（如COCO、ImageNet）在航空领域面临的封闭词汇局限与背景噪声干扰两大核心问题。通过引入开放词汇的文本描述，它推动了从固定类别识别向语义驱动的动态检测范式转变，使模型能够理解并定位训练阶段未显式见过的飞行物体。同时，数据集中刻意添加的噪声增强机制，为研究鲁棒性特征提取、域适应以及视觉-语言对齐等学术难题提供了关键实验素材，显著促进了多模态学习在安全监控与国防场景的理论突破。

衍生相关工作

该数据集衍生了一系列具有影响力的研究工作，包括基于CLIP架构的航空目标零样本检测器（如FlyingCLIP）、融合扩散模型的噪声鲁棒性增强方法，以及面向开放词汇的航空图像理解基准（OpenSkyBench）。此外，竞赛团队利用该数据集开发的视觉语言模型在DSTA BrainHack TIL 2024中展现了优异性能，其数据增强与标注策略被后续研究（如OAVLM、DroneDet）广泛借鉴，推动了航空视觉与自然语言交叉领域的标准化评估体系构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集