ShixuanAn/RDD_2020

Name: ShixuanAn/RDD_2020
Creator: ShixuanAn
Published: 2024-03-20 00:31:36
License: 暂无描述

Hugging Face2024-03-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ShixuanAn/RDD_2020

下载链接

链接失效反馈

官方服务：

资源简介：

RDD2020数据集是一个包含来自印度、日本和捷克共和国的26,336张道路图像的综合集合，标注了超过31,000处道路损坏实例。该数据集旨在支持机器学习模型的开发和评估，以实现自动道路损坏检测，为市政和道路机构提供有效的道路状况监测资源。数据集格式为JPEG图像和PASCAL VOC格式的XML注释，图像分辨率因国家而异。数据集的使用包括开发和基准测试机器学习模型，特别是用于道路损坏的自动检测和分类。数据集的创建动机是为了满足市政和道路机构的需求，通过将图像转换为PIL格式并解析XML注释来简化数据处理。数据集的社会影响在于其能够帮助市政和道路机构更有效地管理和维护道路基础设施。然而，数据集主要包含三个国家的图像，可能无法完全代表全球的道路状况，用户在使用时应注意这一点。

提供机构：

ShixuanAn

原始信息汇总

数据集卡片 RDD_2020

数据集概述

RDD2020 数据集是一个包含来自印度、日本和捷克共和国的 26,336 张道路图像的综合集合，标注了超过 31,000 个道路损坏实例。该数据集旨在支持自动道路损坏检测的机器学习模型的开发和评估，为市政和道路机构提供了一个有价值的资源，用于高效的道路状况监测。

数据集详情

数据集描述

来源： Mendeley Data - DOI: 10.17632/5ty2wb6gvg.1
大小： 1.13 GB
格式： 图像（JPEG）和标注（PASCAL VOC 格式的 XML）
分辨率：
- 印度：720 × 720 像素
- 日本和捷克：600 × 600 像素
类别： 纵向裂缝（D00）、横向裂缝（D10）、鳄鱼裂缝（D20）、坑洼（D40）
许可证： https://creativecommons.org/licenses/by/4.0/

数据集结构

数据实例

数据将遵循以下结构： json { "image_id": "Czech_000248", "country": "Czech", "type": "train", "image": "<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x600>", "image_path": "train/Czech/images/Czech_000248.jpg", "crack_type": ["D20", "D20"], "crack_coordinates": { "x_min": [188, 3], "x_max": [309, 171], "y_min": [463, 438], "y_max": [509, 519] } }

数据字段

"image_id"[string]: 图像的ID，由国家加上顺序号组成。
"country"[string]: 照片拍摄的国家。
"type"[string]: 图像所属的数据集类别，如 train, test1, 或 test2。
"image"[integer]: 转换为 PIL 格式的图像数据。
"crack_type"[string]: 图像中检测到的裂缝类型。
"crack_coordinates"[integer]: 包含裂缝坐标的整数。

数据集创建

数据收集和处理

道路图像（.jpg）使用车载智能手机以约 40Km/h 的平均速度收集。使用 LabelImg 工具创建 XML 文件来标注图像中的道路损坏。

数据源生产者

Deeksha Arya, Hiroya Maeda, Sanjay Kumar Ghosh, Durga Toshniwal, Hiroshi Omata, Takehiro Kashiyama, Toshikazu Seto, Alexander Mraz, Yoshihide Sekimot

标注

标注过程

每个图像都带有相应的 XML 文件，包含 PASCAL VOC 格式的标注。这些标注描述了图像中道路损坏的位置和类型，分为四个主要类型：纵向裂缝（D00）、横向裂缝（D10）、鳄鱼裂缝（D20）和坑洼（D40）。

社会影响

RDD2020 数据集的结构化旨在对道路基础设施管理产生有针对性的可衡量影响。通过将原始图像和 XML 标注转换为具有清晰定义属性的数据集，如 photo_id、country、type、pics_array、image_resolution、crack_type 和 crack_coordinates，为市政和道路机构创建了一个强大的工具。这些实体可以部署机器学习模型，准确识别和分类道路损坏，如裂缝和坑洼，这对道路维护和安全至关重要。

偏差、风险和局限性

该数据集主要包含来自三个国家（印度、日本和捷克共和国）的图像，可能无法全面代表全球的道路状况。用户在将基于此数据集训练的模型推广到其他地区时应谨慎。

建议

用户应了解数据集的风险、偏差和技术局限性。需要更多信息以提供进一步的建议。

搜集汇总

数据集介绍

构建方式

RDD2020数据集的构建，旨在助力机器学习模型在道路损害检测与分类领域的发展与评估。该数据集的构建过程涉及从印度、日本和捷克共和国收集的26,336张道路图像，并使用LabelImg工具对这些图像中的31,000多个道路损害实例进行XML格式注释，进而转换成PASCAL VOC格式，确保了数据集的准确性与可用性。

特点

该数据集的特点在于其地域多样性，包含三个国家的道路图像，以及详细的损害类型分类。图像分辨率根据来源国家的不同而有所变化，且所有图像都转换为PIL格式，便于机器学习框架处理。此外，数据集遵循Creative Commons BY-NC 4.0许可，保证了数据的开放性与共享性。

使用方法

使用RDD2020数据集时，用户可以直接将其应用于开发与基准测试旨在自动检测和分类道路损害的机器学习模型。数据集的结构化设计，使得图像与损害类型及其坐标的对应关系明确，便于模型训练与验证。用户在使用前应了解数据集的偏差、风险和局限性，并谨慎地将模型泛化到其他地区。

背景与挑战

背景概述

RDD2020数据集，全称为智能手机道路损伤检测与分类图像数据集，是由Deeksha Arya等研究人员于2020年构建的。该数据集包含了来自印度、日本和捷克共和国的26,336张道路图像，并标注了超过31,000个道路损伤实例。其旨在支持机器学习模型的发展与评估，以实现道路损伤的自动检测，为市政当局和道路管理机构提供高效的道路状况监测资源。该数据集的创建，不仅推动了相关领域研究的深入，也为智能交通系统的发展提供了重要支撑。

当前挑战

RDD2020数据集在研究领域面临的挑战主要包括：一是数据集的地域局限性，由于图像主要来源于三个国家，可能无法全面代表全球的道路条件，这限制了模型的泛化能力；二是构建过程中的技术挑战，如图像的收集与标注质量，以及不同国家和地区间道路损伤类型的差异。此外，数据集的多样性和规模也要求研究者在模型训练和评估时，必须考虑模型的鲁棒性和准确性。

常用场景

经典使用场景

在智能交通系统的研究与应用领域，RDD2020数据集因其详尽的图像标注和多样化的地域来源，成为了开发与评估道路损害自动检测机器学习模型的重要资源。该数据集的经典使用场景主要围绕道路损害的识别与分类，通过对不同类型裂缝和坑洞的精确标注，研究者能够设计并测试深度学习架构，以提升模型在不同道路损害类型上的检测准确性。

实际应用

在实际应用中，RDD2020数据集可用于辅助市政当局和道路管理机构进行道路维护和修复。通过部署基于该数据集训练的机器学习模型，这些机构能够实现对道路损害的自动化检测，进而提高道路维护的效率，降低人力成本，并提升道路使用安全性。

衍生相关工作

RDD2020数据集的发布促进了多项相关工作的开展，包括但不限于改进的道路损害检测算法、跨国家道路损害类型的比较研究，以及结合现实世界数据对模型泛化能力的评估。这些衍生工作不仅推动了道路基础设施智能化管理的进程，也为机器学习在交通领域的应用提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集