ntt-icml2021
收藏Hugging Face2025-07-17 更新2025-07-18 收录
下载链接:
https://huggingface.co/datasets/microsoft/ntt-icml2021
下载链接
链接失效反馈官方服务:
资源简介:
Navigation Turing Test (NTT)数据集是一个包含3D游戏环境中人类和机器学习代理导航轨迹的注释集合,用于研究和评估类似于人类的导航行为。数据集包含40个轨迹实例,每个实例都有多种特征表示,如视频、条码、符号表示和俯视图。这些轨迹经过两次用户研究进行注释,注释包括参与者对哪些轨迹更可能是人类玩家或机器学习模型产生的判断。
提供机构:
Microsoft
创建时间:
2025-07-14
原始信息汇总
数据集概述
基本信息
- 名称:Navigation Turing Test (NTT) 数据集
- 语言:英语 (en)
- 开发机构:Microsoft
- 发布日期:ICML 2021
- 许可证:Microsoft Research License Agreement (MSR-LA)
详细条款见:LICENSE
数据集用途
- 主要用途:研究3D视频游戏中人类与AI导航行为的评估与开发
- 适用场景:
- 复现论文结果
- 推动人类类似导航行为的研究
- 不适用场景:
- 商业或现实应用(需进一步测试)
- 高风险决策领域(如执法、医疗等)
数据集内容
- 数据量:40条轨迹实例(人类/机器学习代理在3D游戏中的导航路径)
- 数据类型:
- MP4:游戏角色导航视频
- Barcodes:视频的2D压缩摘要
- Symbolic representation:游戏状态数据(角色坐标、物体位置)
- Topdown:轨迹的2D俯视图
- 标注信息:
- 通过用户研究标注轨迹对人类/AI的归属判断
- 包含参与者回答的完整调查表
- 时间范围:数据生成于2020年12月-2021年2月,标注收集于2021年1月
数据处理与隐私
- 数据来源:原始数据(非现有数据复用)
- 采集方式:由非项目组的微软员工执行
- 隐私措施:
- 手动移除识别信息
- 不含儿童数据
- 无敏感/私人内容
使用建议
- 启动资源:示例代码与文档见 GitHub - microsoft/NTT
- 模型训练:建议交叉验证(因数据量较小)
- 合规要求:使用者需确保符合数据保护法规
验证与局限
- 验证结果:后续研究表明评估结果在不同人群间具有鲁棒性
详见:CHI 2023论文 - 局限性:
- 标注基于主观判断(无标准答案)
- 未系统评估社会文化/经济/人口偏差
- 仅限研究用途
伦理声明
- 经微软机构审查委员会批准
- 参与者知情同意并获补偿
联系方式
搜集汇总
数据集介绍

构建方式
在三维游戏环境中构建人类与智能体导航轨迹的评估基准,Navigation Turing Test数据集通过精心设计的用户研究完成数据采集。研究团队在2020年12月至2021年2月期间,采集了40组人类玩家与机器学习智能体的导航轨迹数据,包含MP4视频、二维条形码、符号化表征和俯视图四种模态表示。数据标注工作由独立于项目组的微软员工完成,通过双盲实验收集参与者对轨迹人类相似度的主观评判,所有流程均通过机构审查委员会审核并遵循知情同意原则。
特点
该数据集最显著的特征在于其多维度的轨迹表征体系,不仅包含原始游戏画面(MP4),还创新性地采用二维条形码压缩技术实现视觉摘要。每种轨迹都配备完整的元数据,包括角色三维坐标、时间步信息及游戏对象位置等符号化数据,辅以俯视投影图提供全局视角。数据集特别注重隐私保护,所有识别信息均经过人工复核清除,且不涉及未成年人数据。通过后续大规模验证研究证实,该数据集对人类相似度评估具有跨人群的稳定性。
使用方法
研究者可通过GitHub仓库获取完整的代码示例和文档支持,建议采用交叉验证方法应对数据规模限制。使用前需仔细阅读微软研究院数据许可协议,确保符合数据保护规范。典型应用场景包括:通过对比分析不同模态表征的预测效果,优化智能体的人类相似度评估模型;利用标注数据训练判别器,提升游戏AI的拟人化导航能力。需特别注意,该数据集仅适用于研究场景,商业应用前需进行额外验证。
背景与挑战
背景概述
由微软研究院于2021年ICML会议上发布的Navigation Turing Test(NTT)数据集,标志着三维虚拟环境中人类导航行为评估研究的重要突破。该数据集由40组人类与智能体在3D游戏环境中的导航轨迹构成,包含视频、条形码、符号化表征和俯视图四种特征表示,旨在建立评估导航行为拟人化程度的基准体系。作为首个将图灵测试范式引入导航行为研究的公开数据集,其创新性地通过双盲用户研究收集了参与者对轨迹人类相似性的主观评价,为游戏AI、机器人导航等领域的算法开发提供了关键参照标准。
当前挑战
该数据集面临的核心挑战体现在算法评估与数据构建两个维度。在评估层面,如何量化主观性的人类相似性判断成为关键难题,不同评估者间存在认知差异导致评判标准难以统一。数据构建过程中,三维环境动态性与观察视角局限性使得轨迹特征提取面临挑战,需要设计多模态表征以全面捕捉导航行为特征。此外,小样本规模限制模型泛化能力,且游戏特定环境导致结论外推存在局限性,需通过跨环境验证确保评估体系的普适性。
常用场景
经典使用场景
在三维虚拟环境中,人类与智能体的导航行为差异一直是计算机视觉与人工智能领域的研究热点。Navigation Turing Test数据集通过精心设计的用户研究,收集了人类玩家与机器学习模型在3D游戏世界中的导航轨迹,为研究者提供了标准化的评估基准。该数据集最经典的使用场景在于训练和验证能够生成类人导航行为的AI模型,特别是在需要高度拟人化移动策略的虚拟角色开发中。
衍生相关工作
基于该数据集衍生的经典研究包括微软团队开发的ANTT评估框架,该框架能自动预测导航轨迹的人类相似度评分。后续工作如CHI 2023发表的《Navigates Like Me》进一步扩展了评估人群范围,验证了评判标准的普适性。这些研究共同推动了类人导航评估从主观判断向可量化指标的重要转变。
数据集最近研究
最新研究方向
在三维虚拟环境导航行为评估领域,Navigation Turing Test(NTT)数据集正推动着人机交互行为仿真的前沿探索。该数据集通过多模态轨迹标注数据,为构建具有人类认知特性的智能导航系统提供了关键基准。当前研究聚焦于跨模态表征学习的创新方法,探索视频流、符号化状态与二维拓扑表征之间的关联映射,以提升AI代理在复杂游戏环境中行为拟真度的自动评估能力。随着元宇宙和数字孪生技术的兴起,该数据集在虚拟角色行为建模、沉浸式交互体验优化等方向展现出独特价值,其标注框架已被拓展应用于机器人路径规划的人类可解释性评估研究。
以上内容由遇见数据集搜集并总结生成



