mReasoning

Name: mReasoning
Creator: 加州大学洛杉矶分校; Motional; 东北大学
Published: 2026-04-22 01:34:19
License: 暂无描述

arXiv2026-04-22 更新2026-04-23 收录

下载链接：

https://spanvla.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

mReasoning是由Motional公司构建的自动驾驶推理数据集，包含3万条复杂交互场景样本，涵盖车道变更、弱势道路使用者等安全关键场景。数据源自专家驾驶日志，通过Gemini-3-Pro模型自动生成紧凑的思维链标注。该数据集旨在解决VLA模型在长尾场景中的推理能力不足问题，为自动驾驶系统的决策规划提供精细化训练样本。

mReasoning is an autonomous driving reasoning dataset constructed by Motional. It comprises 30,000 complex interactive scenario samples, covering safety-critical scenarios including lane changes and vulnerable road users (VRUs). The dataset is derived from expert driving logs, with compact chain-of-thought annotations automatically generated via the Gemini-3-Pro model. This dataset is designed to address the insufficient reasoning capabilities of VLA models in long-tail scenarios, providing fine-grained training samples for the decision-making and planning of autonomous driving systems.

提供机构：

加州大学洛杉矶分校; Motional; 东北大学

创建时间：

2026-04-22

原始信息汇总

SpanVLA 数据集概述

数据集名称

mReasoning

数据集简介

mReasoning 是一个专注于复杂推理需求场景和负样本-恢复样本的真实世界驾驶推理数据集。

数据集规模与构成

包含 30k 个复杂交互场景。
包含 3k + 3k 个负样本-恢复样本。

数据采集

来源：真实世界驾驶场景。
采集地点：覆盖拉斯维加斯、波士顿、匹兹堡和新加坡。

数据样本示例

切入场景：一辆来自右前方的车辆在交叉路口突然切入。
交叉路口场景：自车已进入交叉路口；尽管交通信号灯为红色，它应适当让行并跟随前车完成左转。

关联模型与方法

该数据集用于支持 SpanVLA 模型的研究与训练，特别是其基于 GRPO 的微调后处理方法，使模型能够从正样本、负样本和恢复样本中学习。

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，复杂的长尾场景对模型的推理能力提出了严峻挑战。mReasoning数据集聚焦于高交互强度的真实世界驾驶场景，其构建过程依托于内部专家驾驶日志，通过自动化标注流程生成高质量的思维链数据。该数据集从拉斯维加斯、波士顿、匹兹堡和新加坡等地采集了涵盖车道变换、施工区域、弱势道路使用者等关键场景的30,000个样本，并利用Gemini-3-Pro模型作为标注骨干，结合预定义的元素分析和状态模式，生成结构化的推理轨迹，最后经过人工质量检查确保标注的准确性与完整性。

使用方法

该数据集主要用于视觉-语言-动作模型的监督微调与强化微调阶段。在监督微调中，模型利用数据集中高质量的思维链注释与动作令牌，联合学习推理与规划能力。在强化微调阶段，通过结合正样本、负样本与恢复样本，并设计负行为惩罚与恢复行为奖励，驱动模型在复杂场景中优化驾驶策略。此外，数据集集成了NAVSIM评估框架，支持基于预测驾驶员模型评分的奖励计算，使得模型能够在安全、舒适与效率等多维度指标上得到全面优化。

背景与挑战

背景概述

mReasoning数据集由Motional、加州大学洛杉矶分校及东北大学的研究团队于2026年提出，旨在应对自动驾驶领域在复杂长尾场景下的推理与规划挑战。该数据集聚焦于真实世界驾驶场景，特别强调高交互性、高风险情境以及负样本与恢复样本的收集，以增强视觉-语言-动作模型的鲁棒性与泛化能力。其核心研究问题在于如何利用高质量推理数据与负向行为样本，提升端到端自动驾驶系统在未知及边缘场景中的决策可靠性与安全性，对推动VLA模型在实际部署中的实用化进程具有显著影响力。

当前挑战

mReasoning数据集致力于解决自动驾驶中复杂场景下的推理与规划问题，其核心挑战在于如何准确建模高交互、长尾情境下的驾驶行为，并有效利用负样本与恢复样本优化策略。在构建过程中，研究团队面临多重挑战：一是高质量推理数据的标注需克服场景复杂性高、人工标注成本巨大的困难，为此设计了基于Gemini-3-Pro的自动化链式思维标注流程；二是负样本与恢复样本的收集与标注需确保数据真实性与代表性，同时需建立与现有仿真基准兼容的评估管道，以支持强化学习微调。

常用场景

经典使用场景

在自动驾驶领域，视觉-语言-动作模型面临复杂长尾场景下的推理与规划挑战。mReasoning数据集专为这类高需求场景设计，其经典使用场景在于为VLA模型提供高质量的真实世界驾驶推理数据，特别是包含强交互、施工区域、弱势道路使用者等复杂情况的样本。该数据集通过自动化链式思维标注流程生成紧凑的推理轨迹，直接用于模型的监督微调阶段，使模型能够学习如何基于视觉观察和语言指令进行结构化推理，并输出相应的驾驶动作。

解决学术问题

mReasoning数据集主要解决了自动驾驶研究中两个关键学术问题：一是现有开源数据集中复杂交互场景与高质量推理标注的匮乏，导致模型在长尾场景下的泛化能力不足；二是传统模仿学习仅依赖专家正样本，忽略了从负样本和恢复样本中学习的重要性，限制了模型的鲁棒性。该数据集通过提供大量真实世界的负样本与恢复样本，使研究者能够探索基于强化学习的策略优化方法，从而提升模型在未知和挑战性场景中的适应性与安全性。

实际应用

在实际应用层面，mReasoning数据集直接服务于端到端自动驾驶系统的开发与测试。它可用于训练和微调像SpanVLA这样的先进VLA模型，使其在真实道路环境中能够处理突发状况，例如车辆切入、施工区绕行、行人交互等复杂情况。数据集中包含的负样本与恢复样本为系统提供了从错误中学习的机会，有助于在实际部署前显著提升驾驶策略的可靠性和安全性，减少因模型决策失误导致的事故风险。

数据集最近研究