Large-Scale Object Detection Dataset
收藏arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://adhemardesenneville.github.io/Large-Scale-Object-Detection/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由法国巴黎萨克雷大学等机构创建,包含生物沼气池及其子元素的标注数据。数据集由训练集、验证集和测试集组成,其中训练集包含163个样本,验证集包含40个样本,测试集包含5096个样本,涵盖了整个法国Marne省。数据集的创建旨在通过迭代检测和手动验证的方式,从有限的标注数据中生成一个能够在全国范围内稳健检测生物沼气池的模型。该数据集可用于识别未知的生物沼气池站点,更新不完整的清单或生成新的清单,并通过生物沼气池的视觉特征预测沼气生产总量。
This dataset was developed by Paris-Saclay University in France and other affiliated institutions, containing annotated data of biogas digesters and their sub-elements. The dataset is divided into training, validation, and test subsets, with 163 samples in the training set, 40 in the validation set, and 5096 samples in the test set, covering the entire Marne Department of France. The primary purpose of constructing this dataset is to generate a robust, nationwide biogas digester detection model via iterative detection and manual verification using limited annotated data. This dataset can be utilized to identify unknown biogas digester sites, update incomplete existing inventories or create new inventories, and predict total biogas production volume based on the visual features of biogas digesters.
提供机构:
法国巴黎萨克雷大学, 法国国家科研中心, 巴黎-萨克雷高等师范学校, 伯雷利中心, 法国
创建时间:
2025-07-24
搜集汇总
数据集介绍
构建方式
该数据集通过整合法国大东部地区的生物消化器站点遥感图像构建而成,数据源主要采用法国国家地理和森林信息研究所(IGN)提供的20厘米分辨率RGB正射影像,经重采样至50厘米/像素后裁剪为1024×1024像素的图像块。标注工作采用地理定位分割标注方式,对每个生物消化器站点标注了整体设施、厌氧消化罐和生物质堆三个层级结构。数据集采用渐进式构建策略,通过初始标注集训练基础检测器后,在大范围未标注区域进行迭代检测,并引入人工验证的高置信度误检样本作为困难负样本,逐步扩充数据集规模与多样性。
特点
该数据集具有显著的小样本学习特性,初始训练集仅包含163个正例和163个负例,验证集含40个正例与400个负例,测试集则覆盖法国马恩省的5096张图像,其中仅27张含目标对象。数据空间分布呈现高度稀疏性,生物消化器站点在景观背景中属于罕见目标,这种真实世界的长尾分布为模型鲁棒性评估提供了理想条件。独特的部件级标注体系(消化罐与生物质堆)支持基于部件关系的概率推理,为提升检测精度提供了结构化特征表示。
使用方法
该数据集适用于遥感目标检测模型的开发与评估,特别针对小样本学习与部件关联推理场景。使用时应先采用DOTA等遥感数据集进行预训练,再通过初始标注集微调模型。检测阶段可结合部件检测结果的概率分布(公式1-2)进行误检过滤,通过伯努利独立假设计算部件存在概率。迭代优化时建议保留Top-K高置信度误检样本纳入训练集,每轮迭代后需重建包含困难负样本的验证集。针对不同分辨率数据(0.5m/1.5m/10m)需进行域适应训练,其中SPOT 1.5m数据在性能与效率间展现出最佳平衡。
背景与挑战
背景概述
Large-Scale Object Detection Dataset是由法国巴黎萨克雷大学、AMIAD和兰斯香槟-阿登大学的研究团队于2025年提出的,专注于通过遥感影像检测生物消化池以监测甲烷排放。该数据集旨在解决环境科学领域中,对小规模甲烷排放源进行精准监测的难题。生物消化池作为重要的甲烷排放源,其分布广泛但数量稀少,传统监测方法成本高昂且效率低下。该数据集的建立为开发基于计算机视觉的自动化监测系统提供了重要基础,对气候变化研究和环境政策制定具有显著意义。
当前挑战
该数据集面临的主要挑战包括:1)在领域问题层面,生物消化池在遥感影像中呈现尺寸小、分布稀疏的特点,且易与工业区、农场等结构混淆,导致检测精度难以提升;2)在构建过程中,研究人员需处理极高分辨率影像带来的计算负担,同时应对标注数据稀缺的问题。此外,不同卫星影像源(如SPOT和Sentinel-2)之间存在显著的分辨率和域差异,增加了数据一致性的维护难度。数据集的高度不平衡特性(正负样本比例约1:200)进一步加剧了模型训练的复杂性。
常用场景
经典使用场景
该数据集在环境监测领域具有重要应用价值,特别是在大规模甲烷排放监测方面。研究人员利用该数据集训练基于部件的目标检测模型,能够从有限的标注样本中学习生物消化池的视觉特征,进而在法国大东部地区等广阔地理区域内识别这些设施。数据集特别适用于处理遥感影像中稀有目标的检测难题,其部件标注策略(包括消化罐和生物质堆)显著提升了模型在复杂背景下的识别精度。
解决学术问题
该数据集有效解决了遥感目标检测中的关键科学问题:针对稀疏分布的小型甲烷排放设施,传统检测方法面临样本不足和类间不平衡的挑战。通过引入部件级标注和概率统计后处理,数据集支持开发出能够从有限样本中泛化的检测模型。其创新性地将生物消化池分解为可检测的子结构,显著降低了大规模检测中的误报率,为环境科学领域提供了量化小型甲烷排放源的新方法。
衍生相关工作
该数据集推动了多个衍生研究方向:Robinson等人将其检测框架扩展应用于禽畜养殖场监测;Ramachandran团队借鉴其部件检测思想开发了油气设施识别系统。在方法论层面,LSKNet和Oriented R-CNN等先进检测架构通过该数据集验证了在环境监测中的有效性。数据集还促进了时空分析技术的发展,支持追踪生物消化池建设的时间演变趋势。
以上内容由遇见数据集搜集并总结生成



