five

NEU-171K

收藏
arXiv2025-03-20 更新2025-03-21 收录
下载链接:
https://github.com/tengerye/3FOVD
下载链接
链接失效反馈
官方服务:
资源简介:
NEU-171K是一个专为监督细粒度物体检测和开放词汇检测设计的大型数据集,由东北大学软件工程学院创建。该数据集包含145,825张图像,676,471个边界框和719个细粒度类别,涵盖车辆和零售产品两个领域。每个类别都有关联的描述性字幕,用于辅助检测任务。该数据集旨在促进细粒度物体检测的研究,特别是在开放词汇检测设置中,能够处理未见过的类别。

NEU-171K is a large-scale dataset specifically designed for supervised fine-grained object detection and open-vocabulary detection, developed by the School of Software Engineering of Northeastern University. This dataset contains 145,825 images, 676,471 bounding boxes, and 719 fine-grained categories, covering two domains: vehicles and retail products. Each category is associated with a descriptive caption to assist detection tasks. This dataset aims to advance research in fine-grained object detection, particularly in open-vocabulary detection settings that enable handling of unseen categories.
提供机构:
东北大学软件工程学院
创建时间:
2025-03-19
搜集汇总
数据集介绍
main_image_url
构建方式
NEU-171K数据集的构建基于两个主要子集:汽车(NEU-171K-C)和零售产品(NEU-171K-RP)。汽车图像通过手持摄像机和行车记录仪在真实道路环境中采集,而零售产品图像则在模拟仓库环境的实验室中拍摄。为确保数据的多样性和避免数据泄露,视频帧被分配到训练、验证和测试集时,同一视频的帧被分配到同一集合,且帧之间至少间隔5秒。零售产品图像的分辨率为3024×4032像素,汽车图像的分辨率为1080×1920像素。每个图像都经过精细的标注,确保每个对象的多个部分都有至少一个属性描述。
使用方法
NEU-171K数据集可用于监督学习和开放词汇目标检测任务。在监督学习任务中,数据集被划分为训练、验证和测试集,分别用于模型的训练、调优和评估。在开放词汇检测任务中,模型通过图像和文本描述进行推理,能够识别未见过的类别。为了提升检测性能,研究者提出了一种后处理技巧,通过移除重叠面积过大或过小的边界框来减少误检。该数据集还支持对现有开放词汇检测器的基准测试,帮助研究者评估模型在细粒度目标检测任务中的表现。
背景与挑战
背景概述
NEU-171K数据集由东北大学的研究团队于2025年提出,旨在解决细粒度开放词汇目标检测(Fine-Grained Open-Vocabulary Object Detection, FG-OVD)中的关键问题。该数据集包含两个子集:NEU-171K-C(汽车)和NEU-171K-RP(零售产品),共计145,825张图像、676,471个边界框和719个细粒度类别。NEU-171K的创建填补了现有细粒度检测数据集的空白,尤其是在开放词汇检测领域。该数据集不仅支持传统的监督学习,还为开放词汇检测提供了新的基准,推动了细粒度视觉理解的研究。其独特之处在于,每个类别都配备了详细的文本描述,要求模型在检测过程中同时理解视觉细节和复杂的语言提示。
当前挑战
NEU-171K数据集在构建和应用中面临多重挑战。首先,细粒度目标检测本身具有较高的难度,因为细粒度类别之间的视觉差异较小,而类内差异较大,模型需要捕捉微妙的视觉特征。其次,开放词汇检测要求模型能够从有限的标注数据中泛化到未见过的类别,这对模型的泛化能力提出了极高的要求。此外,数据集的构建过程中,标注细粒度类别和生成复杂的文本描述耗费了大量人力,且需要确保标注的准确性和一致性。在模型评估方面,现有的开放词汇检测器在处理NEU-171K时表现不佳,尤其是在处理长且复杂的文本描述时,容易产生大量误检。为此,研究团队提出了一种后处理技术,通过过滤重叠区域和异常大小的边界框来减少误检,但仍需进一步优化模型以应对这一挑战。
常用场景
经典使用场景
NEU-171K数据集在细粒度开放词汇目标检测任务中展现了其独特的价值。该数据集通过提供精细的标注和复杂的图像描述,使得模型能够在开放词汇环境下识别和定位细粒度对象。其经典使用场景包括在自动驾驶系统中识别不同类型的车辆,或在零售环境中精确检测商品类别。这些场景要求模型具备对细微视觉差异的敏感度,以及对复杂语言描述的理解能力。
解决学术问题
NEU-171K数据集解决了开放词汇目标检测中的多个关键学术问题。首先,它通过引入细粒度类别和复杂的图像描述,减少了数据泄露的风险,确保了评估的公平性和可靠性。其次,该数据集为模型提供了丰富的视觉和语言信息,使得模型能够在未见过的类别上进行准确的预测。此外,NEU-171K还为细粒度目标检测任务提供了一个新的基准,推动了该领域的研究进展。
实际应用
在实际应用中,NEU-171K数据集为多个行业提供了重要的技术支持。例如,在自动驾驶领域,该数据集可以帮助车辆识别不同类型的车辆和行人,从而提高驾驶安全性。在零售行业,NEU-171K可以用于商品库存管理和自动结账系统,提升运营效率。此外,该数据集还可应用于安防监控、医疗影像分析等领域,推动智能化解决方案的发展。
数据集最近研究
最新研究方向
近年来,随着开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)技术的快速发展,研究者们逐渐意识到现有数据集在细粒度对象检测(Fine-Grained Object Detection, FGOD)方面的局限性。NEU-171K数据集的提出,填补了这一领域的空白,为细粒度开放词汇目标检测(Fine-Grained Open-Vocabulary Detection, FG-OVD)提供了新的研究平台。该数据集包含145,825张图像、676,471个边界框和719个细粒度类别,涵盖汽车和零售产品两大领域。通过引入细粒度提示(Fine-Grained Prompts),NEU-171K不仅支持传统的监督学习,还扩展至开放词汇检测,要求模型能够理解复杂的图像细节和文本描述。这一研究方向的核心挑战在于如何通过细粒度文本提示准确检测具有微小类间差异的对象,同时避免数据泄露问题。NEU-171K的发布为细粒度开放词汇检测任务设立了新的基准,推动了视觉与语言融合领域的前沿研究。
相关研究论文
  • 1
    Fine-Grained Open-Vocabulary Object Detection with Fined-Grained Prompts: Task, Dataset and Benchmark东北大学软件工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作