SIMCOACHCORPUS
收藏arXiv2025-09-18 更新2025-11-21 收录
下载链接:
https://docs.google.com/forms/d/e/1FAIpQLSfdpOkc694-8YvdMzT3CN0zso1HFi_DtM3OiIECBP5c8ahx8w/viewform
下载链接
链接失效反馈官方服务:
资源简介:
SIMCOACHCORPUS数据集是一个独特的数据集,包含赛车模拟器驾驶的交互式数据,允许研究人员研究在有专家指导下和没有指导下的运动技能习得过程中的丰富交互现象。该数据集由29位人类参与者在赛车模拟器中围绕赛道驾驶大约九十分钟的数据组成。数据集包括身体特征,如车辆状态和输入、地图(赛道边界和赛车线)、锥形地标,这些都与专业教练的实时口头指导和每个回合结束时的额外反馈同步。数据集还包括对每个实时反馈话语的教练类别注释、学生对教练建议的遵守程度的评级,以及参与者自我报告的认知负荷和情绪状态(在研究期间通过调查收集)。数据集包含超过20,000个实时反馈话语、超过400个回合结束时的反馈话语,以及超过40小时的车辆驾驶数据。我们的自然主义数据集可以用于研究运动学习动态、探索语言现象,以及训练教学计算模型。我们展示了该数据集在上下文学习、模仿学习和主题建模中的应用。本工作中介绍的数据集将在同行评审的论文发表后公开发布。有兴趣的研究人员可以在 https://youtu.be/PgLtIH5Qbv0 注册获取早期访问权限。
提供机构:
丰田研究院
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
在赛车模拟器研究领域,SIMCOACHCORPUS通过精心设计的实验框架构建而成。研究团队招募29名参与者,将其分为教练指导组与自主练习组,在基于CARLA引擎的仿真环境中进行约90分钟的高性能驾驶训练。数据采集涵盖车辆状态轨迹、控制输入、地图信息及语音交互等多模态内容,并通过专业教练的实时指导与每圈结束后的总结反馈形成纵向学习记录。所有数据经过严格的时间同步处理,并辅以认知负荷与情绪状态的问卷调查,构建出包含超过2万条实时指导语句和40小时驾驶记录的完整数据集。
特点
该数据集的核心价值在于其多维度的自然交互特性。它不仅同步记录了车辆轨迹、控制输入与专业教练的语言指导,还创新性地标注了教学语句的分类体系(如油门控制、转向指令等)和学员依从性评估。通过设置教练指导与自主练习的对照条件,数据集精准捕捉了教学干预对驾驶技能发展的影响。超过20,000条实时指导语句与400余条总结反馈构成了丰富的语言分析素材,而学员认知状态与行为数据的关联则为探索具身学习机制提供了独特视角。
使用方法
研究者可基于该数据集开展三类典型应用:在语言分析层面,利用标注体系探究教学语言的时空演化规律,或通过主题建模挖掘指导语句的潜在模式;在机器学习领域,可通过多任务模仿学习框架同时预测学员轨迹与教练指令,或利用上下文学习生成个性化教学反馈;在认知科学方向,可结合纵向行为数据与问卷调查,建立技能习得与认知状态的动态关联模型。数据集提供的示例代码为快速实现上述应用提供了技术支撑,其标准化数据格式确保了跨平台研究的可复现性。
背景与挑战
背景概述
在人工智能与教育深度融合的时代背景下,丰田研究院于2025年推出的SIMCOACHCORPUS数据集填补了具身学习领域的关键空白。该数据集聚焦于高性能驾驶教育场景,通过专业教练与学员在赛车模拟器中的实时互动,系统采集了超过40小时的车辆轨迹数据与2万余条语言指导语句。其核心研究价值在于首次实现了语言指导与运动技能学习的多模态同步记录,为探索个性化教学机制提供了前所未有的实证基础。这一创新性数据资源显著推动了具身智能、运动学习动力学及教育计算模型等交叉领域的发展。
当前挑战
该数据集致力于解决具身技能传授中语言与动作协同建模的核心难题,具体面临双重挑战:在领域问题层面,需突破传统教育数据集中语言与物理动作割裂的局限,构建能够捕捉实时教学互动动态的评估体系;在构建过程中,需克服多模态数据同步采集的技术瓶颈,确保车辆状态数据与语言指导信号的时间对齐精度,同时应对模拟环境与真实教学场景的生态效度平衡,以及大规模人工标注中主观判断一致性的质量控制问题。
常用场景
经典使用场景
在具身智能教学研究领域,SIMCOACHCORPUS数据集通过赛车模拟器环境构建了自然交互场景,完整记录了专业教练对学员进行一对一指导的纵向教学过程。该数据集最经典的应用体现在构建教学语言与运动轨迹的关联模型,研究者可利用同步采集的2万余条实时教学指令与40小时车辆轨迹数据,深入分析教学语言如何影响学员的驾驶行为改进。这种多模态数据融合为理解具身学习中的语言-动作映射机制提供了理想实验平台。
衍生相关工作
该数据集已催生多个重要研究方向:基于多任务模仿学习的教学行为建模工作首次实现了教练指令与学员轨迹的联合预测;在上下文学习框架下开展的终端反馈生成研究,探索了语言模型在教学场景中的适应性问题;此外,数据驱动的技能表示框架利用该数据集构建了运动技能的量化评估体系。这些衍生工作共同推进了具身教学计算模型的发展,为构建下一代智能教学系统奠定了方法论基础。
数据集最近研究
最新研究方向
在具身智能教育领域,SIMCOACHCORPUS数据集正推动多模态交互教学的前沿探索。该数据集通过同步记录专业教练的语言指导与学员驾驶轨迹,为研究运动技能习得过程中的动态教学策略提供了独特视角。当前研究聚焦于构建上下文感知的智能教学系统,利用主题建模技术解析教练指令的时空分布规律,并结合模仿学习框架实现对学生行为与教师反馈的联合预测。该数据集还启发了对个性化教学路径的量化分析,通过对比指导组与自主练习组的纵向表现差异,揭示了语言干预对技能内化的深层影响。这些进展不仅为高性能驾驶教育提供了可计算的教学范式,更对音乐训练、康复治疗等需要语言与动作协同的领域具有重要借鉴意义。
相关研究论文
- 1通过丰田研究院 · 2025年
以上内容由遇见数据集搜集并总结生成



