five

MORDA|自动驾驶数据集|域适应数据集

收藏
arXiv2025-01-09 更新2025-01-11 收录
自动驾驶
域适应
下载链接:
https://morda-e8d07e.gitlab.io
下载链接
链接失效反馈
资源简介:
MORDA数据集是由MORAI公司创建的一个合成驾驶数据集,旨在通过模拟真实驾驶环境来辅助自动驾驶车辆的域适应。该数据集包含约37,000帧数据,每帧包含六张1600×900的图像和一个32通道的点云数据,并附带多种类型的标注信息,如2D/3D边界框、语义分割和深度信息。数据集的创建过程通过模拟器复现了韩国多个地区的数字孪生地图,并结合了nuScenes数据集的传感器配置和标注规则。MORDA数据集的应用领域主要集中在自动驾驶领域,旨在解决自动驾驶车辆在不同地理区域部署时的性能适应问题,同时保持其在源域上的性能不下降。
提供机构:
MORAI公司
创建时间:
2025-01-09
原始信息汇总

MORDA 数据集概述

数据集名称

MORDA: Synthetic Dataset to Facilitate Adaptation of Object Detectors to Unseen Real-target Domain While Preserving Performance on Real-source Domain

数据集简介

MORDA 是一个合成数据集,旨在帮助目标检测器适应未见过的真实目标域(Real-target Domain),同时保持在真实源域(Real-source Domain)上的性能。该数据集通过模拟真实目标域(如韩国)和真实源域(如 nuScenes 数据集)的数字孪生环境,生成多视角图像和点云数据,并附带丰富的边界框标签。

数据集目标

  • 目标检测器适应:帮助目标检测器在未见过的真实目标域中表现良好。
  • 性能保持:在真实源域上的性能不下降甚至提升。

数据集特点

  • 多模态数据:包含多视角图像和点云数据。
  • 丰富的标注:提供详细的边界框标签。
  • 合成环境:通过模拟器生成,具有时间和成本效益。

数据集应用

  • 2D/3D 目标检测:用于训练和评估 2D 和 3D 目标检测器。
  • 域适应:帮助模型在未见过的真实目标域中表现良好。

数据集贡献

  • 性能提升:实验表明,使用 MORDA 数据集训练的检测器在真实目标域中的平均精度(mAP)显著提升,同时在真实源域中的性能保持不变或有所增强。

数据集生成

  • 数字孪生:重建真实目标域和真实源域的数字孪生环境。
  • 数据生成框架:在模拟器中生成合成数据。

数据集实验

  • 实验设置:使用 nuScenes 和 MORDA 的组合训练集训练 2D/3D 目标检测器。
  • 评估:在未见过的真实目标域中评估模型性能。

数据集链接

数据集链接

AI搜集汇总
数据集介绍
main_image_url
构建方式
MORDA数据集的构建基于合成环境,旨在通过模拟真实世界的驾驶环境来减少数据采集和标注的成本。研究团队利用nuScenes数据集作为真实源域(DSrc Real),并通过数字孪生技术模拟了韩国多个地区的驾驶环境作为真实目标域(DT rg Real)。通过将nuScenes的传感器配置和标注规则与韩国地理特征相结合,研究团队在模拟器中生成了合成融合域(DSrc+T rg Syn),并在此域中创建了MORDA数据集。该数据集包含了87个场景,涵盖了静态和动态场景,模拟了复杂的交通环境和多样的车辆类型。
特点
MORDA数据集的特点在于其高度仿真的合成环境,能够有效模拟真实目标域的驾驶场景。数据集包含了约37,000帧数据,每帧数据包括六张1600×900分辨率的图像和一个32通道的点云数据,并配有像素级、实例级的分割标签以及2D/3D边界框标注。与nuScenes相比,MORDA提供了更多的3D边界框标注,且标注频率更高(20 Hz),能够更好地捕捉动态物体的运动信息。此外,MORDA还弥补了nuScenes中某些类别(如卡车、建筑车辆等)的长尾分布问题,增强了数据集的多样性和平衡性。
使用方法
MORDA数据集的使用方法主要围绕其在自动驾驶感知任务中的应用展开。研究团队通过将MORDA与nuScenes数据集结合,训练了多种2D/3D目标检测模型,并在未见的韩国AI-Hub数据集上进行了性能评估。实验结果表明,使用MORDA训练的模型在目标域上的检测性能显著提升,同时在源域上的性能也得到了保持或略微增强。MORDA的使用不仅减少了模型对真实目标域数据的依赖,还通过合成数据提供了对目标域的间接学习能力,为自动驾驶系统在跨域部署中的性能优化提供了有力支持。
背景与挑战
背景概述
MORDA数据集由MORAI Inc.的研究团队于2025年提出,旨在解决自动驾驶车辆(AVs)感知模型在跨域部署时的性能退化问题。随着深度学习技术在自动驾驶感知任务中的广泛应用,模型对大规模高质量数据的依赖成为显著挑战,尤其是在将模型从源域(如nuScenes数据集)迁移到目标域(如韩国道路环境)时,数据获取和标注的高成本问题尤为突出。MORDA通过构建合成环境,模拟目标域的地理特征和传感器配置,提供了一种低成本、高效的解决方案。该数据集结合了nuScenes的传感器配置和韩国道路的数字孪生地图,生成了包含37,000帧数据的合成数据集,支持2D/3D目标检测、分割等多种任务。实验表明,MORDA能够显著提升模型在目标域上的性能,同时保持源域的性能。
当前挑战
MORDA数据集面临的挑战主要包括两个方面。首先,在领域适应方面,目标域(如韩国道路环境)是完全未知的,模型需要在未见过目标域数据的情况下进行训练,这对模型的泛化能力提出了极高要求。其次,在数据集构建过程中,如何确保合成数据与源域数据在传感器配置、标注规则等方面的一致性,以避免数据分布差异导致的性能下降,是一个关键挑战。此外,合成数据的真实性、多样性和覆盖范围也直接影响模型在实际场景中的表现。尽管MORDA通过数字孪生技术和nuScenes的基准配置部分解决了这些问题,但在复杂交通场景的模拟、动态物体的行为建模等方面仍需进一步优化。
常用场景
经典使用场景
MORDA数据集主要用于自动驾驶领域中的目标检测任务,特别是在跨域适应(Domain Adaptation)场景中。通过结合真实源域(如nuScenes)和合成数据,MORDA能够帮助深度学习模型在未见过的目标域(如韩国道路环境)中保持或提升检测性能。其经典使用场景包括训练2D/3D目标检测器,使其在真实源域和目标域中均表现出色。
衍生相关工作
MORDA数据集的推出催生了一系列相关研究工作,特别是在跨域适应和合成数据增强领域。例如,基于MORDA的研究进一步探索了如何通过更复杂的训练策略(如对抗训练和自训练)来提升模型在目标域中的性能。此外,MORDA的成功应用也激发了更多关于合成数据与真实数据融合的研究,推动了自动驾驶领域中合成数据集的标准化和广泛应用。
数据集最近研究
最新研究方向
近年来,MORDA数据集在自动驾驶领域的研究中引起了广泛关注,尤其是在目标检测器的跨域适应问题上。随着自动驾驶技术的快速发展,如何在不同地理环境中保持检测器的高性能成为了一个关键挑战。MORDA通过合成数据的方式,成功模拟了目标域(如韩国)的驾驶环境,同时保留了源域(如nuScenes数据集)的特征,从而在不依赖大量真实目标域数据的情况下,显著提升了检测器在目标域上的表现。这一研究方向不仅降低了数据采集和标注的成本,还为自动驾驶系统在全球范围内的部署提供了新的可能性。此外,MORDA的合成数据生成方法也为其他领域的跨域适应问题提供了借鉴,推动了合成数据在深度学习中的广泛应用。
相关研究论文
  • 1
    MORDA: A Synthetic Dataset to Facilitate Adaptation of Object Detectors to Unseen Real-target Domain While Preserving Performance on Real-source DomainMORAI公司 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

Hang Seng Index

恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。

www.hsi.com.hk 收录

NHANES

NHANES(National Health and Nutrition Examination Survey)是美国国家健康与营养调查的数据集,旨在评估美国人口的健康和营养状况。数据集包括健康检查、实验室测试、问卷调查等多方面的信息。

www.cdc.gov 收录

LPW

Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。

OpenDataLab 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录