PaveBench

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/MML-Group/PaveBench

下载链接

链接失效反馈

官方服务：

资源简介：

PaveBench是一个用于路面病害感知和交互式视觉-语言分析的大规模基准数据集，基于中国辽宁省高速公路检测车辆采集的真实世界图像构建。数据集包含视觉和多模态两个子集：视觉子集提供20,124张512×512分辨率的路面图像，支持图像分类、目标检测和语义分割任务；多模态子集PaveVQA包含32,160个问答对，涵盖单轮对话、多轮交互和专家校正三种类型。数据集包含六种路面病害类别，并特别设计了包含视觉混淆模式（如污渍、阴影和道路标记）的硬干扰子集以增强鲁棒性评估。PaveVQA问题设计围绕实际检测需求，包括存在验证、病害分类、定位、定量分析、严重性评估和维护建议等。数据集支持分类、目标检测、语义分割和视觉问答四项核心任务，旨在为路面领域的精确视觉感知和交互式多模态推理提供统一基础。

PaveBench is a large-scale benchmark dataset for pavement disease perception and interactive vision-language analysis, constructed using real-world images collected by highway detection vehicles in Liaoning Province, China. The dataset comprises two subsets: the visual subset and the multimodal subset. The visual subset includes 20,124 pavement images with a resolution of 512×512, supporting image classification, object detection, and semantic segmentation tasks. The multimodal subset, named PaveVQA, contains 32,160 question-answer pairs covering three types: single-turn dialogue, multi-turn interaction, and expert correction. The dataset encompasses six categories of pavement diseases, and a hard-disturbance subset specially designed with visual confusion patterns such as stains, shadows, and road markings is incorporated to facilitate robustness evaluation. The questions in PaveVQA are developed around actual detection requirements, covering existence verification, disease classification, localization, quantitative analysis, severity assessment, maintenance suggestions, and other related aspects. The dataset supports four core tasks including classification, object detection, semantic segmentation, and visual question answering, aiming to provide a unified foundation for accurate visual perception and interactive multimodal reasoning in the pavement engineering field.

创建时间：

2026-03-26

原始信息汇总

PaveBench 数据集概述

数据集基本信息

数据集名称: PaveBench
许可证: CC BY-NC-SA 4.0
语言: 英语 (en)
数据规模: 10K < n < 100K
发布状态: 将在相关论文正式接受后，依据 CC BY-NC-SA 4.0 许可证公开发布。

核心任务与领域

任务类别: 视觉问答、图像分割、目标检测、图像分类。
研究领域: 计算机视觉、视觉-语言、视觉问答、图像分割、目标检测、图像分类、多模态学习、基准测试。

数据集内容与构成

PaveBench 是一个用于路面病害感知和交互式视觉-语言分析的大规模基准数据集，构建于真实世界的高速公路检测图像之上。

视觉感知子集 (Multi-Task Visual Perception)

图像数量: 20,124 张高分辨率路面图像。
图像尺寸: 512 × 512 像素。
支持任务: 图像分类、目标检测、语义分割。
图像类别: 纵向裂缝、横向裂缝、鳄鱼裂缝、修补、坑洞、负样本。
关键特性: 包含精心筛选的困难干扰项，如路面污渍、树影、道路标记等，用于鲁棒性评估。

多模态子集 (PaveVQA)

问答对总数: 32,160 对。
构成:
- 单轮查询: 10,050 对。
- 多轮交互: 20,100 对。
- 纠错对: 2,010 对。
问题覆盖范围: 存在性验证、病害分类、定位、定量分析、严重性评估、维护建议等。

数据来源与特点

数据来源: 中国辽宁省，使用配备高分辨率线扫描相机的高速公路检测车采集。
图像特点: 顶视正射路面视图，保留了病害模式的几何特性，支持可靠的下游量化分析。
标注特点: 为多项路面病害任务提供统一标注，旨在连接视觉感知与交互式视觉-语言分析。

基准测试与实验

视觉感知评估: 支持在统一基准下的分类、检测和分割任务。在检测和分割任务中，纵向裂缝和横向裂缝被合并为线性裂缝。
多模态VQA评估: LoRA 微调显著提升了视觉语言模型在路面特定问答上的性能。
智能体增强的VQA框架: 通过使用专门的视觉工具来锚定视觉语言模型的响应，提高了定量分析的可靠性。

引用信息

如需在您的工作中使用此数据集，请引用： bibtex @article{li2026pavebench, title={PaveBench: A Versatile Benchmark for Pavement Distress Perception and Interactive Vision-Language Analysis}, author={Li, Dexiang and Che, Zhenning and Zhang, Haijun and Zhou, Dongliang and Zhang, Zhao and Han, Yahong}, journal={arXiv preprint arXiv:2604.02804}, year={2026}, url={https://arxiv.org/abs/2604.02804} }

搜集汇总

数据集介绍

构建方式

在道路基础设施智能检测领域，PaveBench数据集依托于真实的高速公路巡检场景构建而成。其视觉感知数据来源于中国辽宁省，通过搭载高分辨率线扫描相机的专业巡检车辆采集，获取了具备几何保真性的正射投影路面图像。数据标注采用分层多任务流程，为每张图像同步生成图像级分类标签、实例级边界框以及像素级分割掩码，确保了跨视觉任务评估的一致性。此外，数据集还精心引入了现实世界中易混淆的干扰模式，如污渍与阴影，构建了用于鲁棒性评估的困难样本子集。

使用方法

该数据集为计算机视觉与多模态学习研究提供了系统化的评估框架。研究者可依据不同配置分别加载分类、检测、分割或视觉问答任务数据。对于视觉任务，模型可在包含困难干扰样本的测试集上评估其鲁棒性；对于多模态任务，则可利用单轮、多轮及修正对话数据，全面考察视觉语言模型在专业领域的理解、交互与自我修正能力。实验表明，结合LoRA微调与智能体增强框架，能显著提升模型在路面病害定量分析中的可靠性，为领域适应性研究提供了有效路径。

背景与挑战

背景概述

PaveBench数据集由研究团队于2026年提出，旨在为路面病害感知与交互式视觉语言分析提供一个综合性基准。该数据集基于中国辽宁省高速公路巡检车辆采集的真实图像构建，涵盖了分类、目标检测、语义分割及视觉问答四大核心任务。通过整合大规模视觉标注与多轮对话的视觉语言数据，PaveBench致力于推动计算机视觉与多模态学习在基础设施健康监测领域的应用，为自动化路面巡检系统的研发提供了关键的数据支撑。

当前挑战

在领域层面，PaveBench旨在解决路面病害自动识别中的复杂挑战，包括在真实场景中区分裂缝、坑洞等病害与路面污渍、树影等视觉干扰物的困难，以及实现跨任务统一评估的需求。数据构建过程中，研究团队面临标注一致性的难题，需在分类、检测与分割任务间保持标签对齐，同时还需设计涵盖识别、定位、量化估计与维护推理的多轮问答对，以确保视觉语言数据的实用性与低幻觉特性。

常用场景

经典使用场景

在道路基础设施智能检测领域，PaveBench数据集为多任务视觉感知与交互式视觉语言分析提供了统一的评估基准。其经典使用场景集中于对真实高速公路路面图像进行自动化病害识别与分析，支持分类、检测、分割及视觉问答四大核心任务。通过整合大规模真实俯视路面图像与精心构建的困难干扰样本，该数据集能够全面评估模型在复杂现实环境下的鲁棒性与准确性，为路面病害的精细化感知奠定了数据基础。

解决学术问题

PaveBench有效解决了道路工程与计算机视觉交叉领域中的若干关键学术问题。其一，它通过统一标注框架弥合了分类、检测与分割任务之间的评估鸿沟，促进了多任务学习模型的发展。其二，数据集引入的困难干扰样本挑战了模型对路面病害与相似视觉模式（如污渍、阴影）的区分能力，推动了模型鲁棒性研究。其三，其视觉语言问答子集PaveVQA将视觉感知与自然语言推理相结合，为多模态模型在专业领域的可解释性与交互性提供了研究平台。

实际应用

该数据集的实际应用场景紧密贴合智慧交通与基础设施运维的迫切需求。在高速公路自动化巡检系统中，基于PaveBench训练的模型能够实时识别裂缝、坑槽等病害，并精确量化其位置、面积与严重程度。视觉语言问答功能进一步支持巡检人员通过自然语言交互获取病害详情与维护建议，提升了决策效率。此外，数据集提供的专家校正交互数据，为开发能够接受反馈并自我修正的智能辅助系统提供了关键训练资源。

数据集最近研究