ntt-icml2021

Name: ntt-icml2021
Creator: Microsoft
Published: 2025-07-17 22:43:52
License: 暂无描述

Hugging Face2025-07-17 更新2025-07-18 收录

下载链接：

https://huggingface.co/datasets/microsoft/ntt-icml2021

下载链接

链接失效反馈

官方服务：

资源简介：

Navigation Turing Test (NTT)数据集是一个包含3D游戏环境中人类和机器学习代理导航轨迹的注释集合，用于研究和评估类似于人类的导航行为。数据集包含40个轨迹实例，每个实例都有多种特征表示，如视频、条码、符号表示和俯视图。这些轨迹经过两次用户研究进行注释，注释包括参与者对哪些轨迹更可能是人类玩家或机器学习模型产生的判断。

提供机构：

Microsoft

创建时间：

2025-07-14

原始信息汇总

数据集概述

基本信息

名称：Navigation Turing Test (NTT) 数据集
语言：英语 (en)
开发机构：Microsoft
发布日期：ICML 2021
许可证：Microsoft Research License Agreement (MSR-LA)
详细条款见：LICENSE

数据集用途

主要用途：研究3D视频游戏中人类与AI导航行为的评估与开发
适用场景：
- 复现论文结果
- 推动人类类似导航行为的研究
不适用场景：
- 商业或现实应用（需进一步测试）
- 高风险决策领域（如执法、医疗等）

数据集内容

数据量：40条轨迹实例（人类/机器学习代理在3D游戏中的导航路径）
数据类型：
- MP4：游戏角色导航视频
- Barcodes：视频的2D压缩摘要
- Symbolic representation：游戏状态数据（角色坐标、物体位置）
- Topdown：轨迹的2D俯视图
标注信息：
- 通过用户研究标注轨迹对人类/AI的归属判断
- 包含参与者回答的完整调查表
时间范围：数据生成于2020年12月-2021年2月，标注收集于2021年1月

数据处理与隐私

数据来源：原始数据（非现有数据复用）
采集方式：由非项目组的微软员工执行
隐私措施：
- 手动移除识别信息
- 不含儿童数据
- 无敏感/私人内容

使用建议

启动资源：示例代码与文档见 GitHub - microsoft/NTT
模型训练：建议交叉验证（因数据量较小）
合规要求：使用者需确保符合数据保护法规

验证与局限

验证结果：后续研究表明评估结果在不同人群间具有鲁棒性
详见：CHI 2023论文
局限性：
- 标注基于主观判断（无标准答案）
- 未系统评估社会文化/经济/人口偏差
- 仅限研究用途

伦理声明

经微软机构审查委员会批准
参与者知情同意并获补偿

联系方式

反馈邮箱：game-intelligence@microsoft.com

搜集汇总

数据集介绍

构建方式

在三维游戏环境中构建人类与智能体导航轨迹的评估基准，Navigation Turing Test数据集通过精心设计的用户研究完成数据采集。研究团队在2020年12月至2021年2月期间，采集了40组人类玩家与机器学习智能体的导航轨迹数据，包含MP4视频、二维条形码、符号化表征和俯视图四种模态表示。数据标注工作由独立于项目组的微软员工完成，通过双盲实验收集参与者对轨迹人类相似度的主观评判，所有流程均通过机构审查委员会审核并遵循知情同意原则。

特点

该数据集最显著的特征在于其多维度的轨迹表征体系，不仅包含原始游戏画面（MP4），还创新性地采用二维条形码压缩技术实现视觉摘要。每种轨迹都配备完整的元数据，包括角色三维坐标、时间步信息及游戏对象位置等符号化数据，辅以俯视投影图提供全局视角。数据集特别注重隐私保护，所有识别信息均经过人工复核清除，且不涉及未成年人数据。通过后续大规模验证研究证实，该数据集对人类相似度评估具有跨人群的稳定性。

使用方法

研究者可通过GitHub仓库获取完整的代码示例和文档支持，建议采用交叉验证方法应对数据规模限制。使用前需仔细阅读微软研究院数据许可协议，确保符合数据保护规范。典型应用场景包括：通过对比分析不同模态表征的预测效果，优化智能体的人类相似度评估模型；利用标注数据训练判别器，提升游戏AI的拟人化导航能力。需特别注意，该数据集仅适用于研究场景，商业应用前需进行额外验证。

背景与挑战

背景概述

由微软研究院于2021年ICML会议上发布的Navigation Turing Test（NTT）数据集，标志着三维虚拟环境中人类导航行为评估研究的重要突破。该数据集由40组人类与智能体在3D游戏环境中的导航轨迹构成，包含视频、条形码、符号化表征和俯视图四种特征表示，旨在建立评估导航行为拟人化程度的基准体系。作为首个将图灵测试范式引入导航行为研究的公开数据集，其创新性地通过双盲用户研究收集了参与者对轨迹人类相似性的主观评价，为游戏AI、机器人导航等领域的算法开发提供了关键参照标准。

当前挑战

该数据集面临的核心挑战体现在算法评估与数据构建两个维度。在评估层面，如何量化主观性的人类相似性判断成为关键难题，不同评估者间存在认知差异导致评判标准难以统一。数据构建过程中，三维环境动态性与观察视角局限性使得轨迹特征提取面临挑战，需要设计多模态表征以全面捕捉导航行为特征。此外，小样本规模限制模型泛化能力，且游戏特定环境导致结论外推存在局限性，需通过跨环境验证确保评估体系的普适性。

常用场景

经典使用场景

在三维虚拟环境中，人类与智能体的导航行为差异一直是计算机视觉与人工智能领域的研究热点。Navigation Turing Test数据集通过精心设计的用户研究，收集了人类玩家与机器学习模型在3D游戏世界中的导航轨迹，为研究者提供了标准化的评估基准。该数据集最经典的使用场景在于训练和验证能够生成类人导航行为的AI模型，特别是在需要高度拟人化移动策略的虚拟角色开发中。

衍生相关工作

基于该数据集衍生的经典研究包括微软团队开发的ANTT评估框架，该框架能自动预测导航轨迹的人类相似度评分。后续工作如CHI 2023发表的《Navigates Like Me》进一步扩展了评估人群范围，验证了评判标准的普适性。这些研究共同推动了类人导航评估从主观判断向可量化指标的重要转变。

数据集最近研究