TOUCHDOWN
收藏github2020-05-16 更新2025-02-19 收录
下载链接:
https://github.com/lil-lab/touchdown
下载链接
链接失效反馈官方服务:
资源简介:
TOUCHDOWN 数据集由 Howard Chen 等人创建,旨在研究自然语言与视觉的联合推理问题。该数据集基于 Google Street View 构建,包含 9,326 个英语指令和空间描述样本,涵盖 29,641 个全景图和 61,319 条连接边。数据集通过众包方式收集,要求参与者根据指令隐藏虚拟目标“Touchdown”,并撰写导航指令和目标位置描述。数据集的创建过程设计为“寻宝游戏”,通过多轮任务确保指令的有效性和自然性。TOUCHDOWN 数据集旨在解决自然语言导航和空间描述解析问题,为视觉问答、导航指令理解等研究领域提供丰富资源。
The TOUCHDOWN dataset, developed by Howard Chen et al., is designed to study the joint reasoning problem of natural language and vision. Built based on Google Street View, it contains 9,326 English instruction and spatial description samples, covering 29,641 panoramic images and 61,319 connected edges. The dataset is collected through crowdsourcing, where participants are asked to hide the virtual target "Touchdown" in accordance with given instructions, and compose navigation instructions and target location descriptions. The creation process of the dataset is structured as a "treasure hunt" game, with multi-round tasks adopted to guarantee the validity and naturalness of the instructions. The TOUCHDOWN dataset aims to tackle the challenges of natural language navigation and spatial description parsing, providing valuable resources for research areas including visual question answering and navigation instruction understanding.
提供机构:
ASAPP Inc.、Cornell University
创建时间:
2020-05-16
原始信息汇总
触地数据集(Touchdown Dataset)
数据集简介
- 触地数据集是一个用于执行导航指令和解析视觉现实世界环境中的空间描述的语料库。
- 任务是遵循指令到达一个目标位置,并在那里找到一个隐藏的物体,即触地熊(Touchdown the bear)。
相关论文
- 论文标题:Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments
- 作者:Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely, Yoav Artzi
- 论文链接:https://arxiv.org/abs/1811.12354
- 任务解释及示例视频:https://youtu.be/uCcDbTZs3v4
- 原始导航实验代码:https://github.com/lil-lab/ciff
数据集内容
- 数据集包含触地语料库。
- 导航环境由大量全景图组成。
- 全景图可通过 StreetLearn 环境下载。
- 请求访问全景图像需填写 StreetLearn Dataset 表单。
- 更多细节请见 此处。
数据集目录结构
data/:包含 JSON 文件train.json、dev.json、test.json。这些是用于导航和空间描述解析(SDR)任务的数据文件。graph/:包含构建图的 .txt 文件。nodes.txt包含图中的所有节点。links.txt包含图中的所有边。
图文件
nodes.txt:包含四列panoid、pano_yaw_angle、latitude、longitudelinks.txt:包含三列start_panoid、heading、end_panoid
JSON 文件结构
- 所有三个文件遵循相同结构,包含以下信息:
路线信息
city:城市名称route_id:唯一路线 IDelapsed:编写此路线指令所花费的时间failure_stats:指令编写者尝试将触地熊放置在最终位置/全景图上的次数num_finished:跟随者找到熊的运行次数full_text:从导航到触地熊放置的完整指令
导航任务
navigation_text:导航指令文本route_panoids:从起点到终点的全景图 ID 列表start_heading:起始航向角度(度)end_heading:终止航向角度(度)
空间描述解析(SDR)任务
td_location_text:SDR 指令文本pre_pano、main_pano、post_pano:全景图 ID,main_pano是放置触地的目标位置全景图 ID。pre_pano和post_pano是目标位置前后全景图pre_static_center、main_static_center、post_static_center:触地放置位置的点击位置{x: width_ratio, y: height_ratio},{x: -1, y: -1}表示触地熊在全景图中找不到
实验复现代码
许可
- 触地数据集(c)2018
- 触地数据集根据 Creative Commons Attribution 4.0 国际许可 授权。
搜集汇总
数据集介绍

构建方式
TOUCHDOWN数据集的构建,依托大量全景图像,旨在模拟真实世界环境中的视觉导航和空间描述解析任务。该数据集通过精心设计的路线和指令,引导执行者在虚拟街景中寻找到指定的目标位置,并在此位置寻找隐藏的物体——Touchdown熊。构建过程中,数据集包含了导航任务和空间描述解析任务的相关数据,形成了包含城市名称、路线ID、耗时、失败统计、完成次数和完整指令等信息的JSON文件,以及用于构建图的节点和边信息。
特点
TOUCHDOWN数据集的特点在于其结合了自然语言导航和空间推理,为研究者提供了一个在视觉街景环境中的综合挑战。数据集不仅包含了导航指令,还包括了空间描述解析任务,这使其成为一个多维度的研究资源。此外,数据集的开放性和可访问性,使得研究者能够轻松地请求访问全景图像,并在各种实验设置中应用这些图像。
使用方法
使用TOUCHDOWN数据集,研究者可以通过提供的Python脚本和相应的JSON、txt文件来加载和初始化图形结构,进而进行导航和空间描述解析任务。数据集的结构化设计使得研究者能够方便地提取和利用其中的信息,例如路线ID、导航指令、全景ID等,以开展相应的实验和研究。此外,数据集的复现性得到了保障,因为相关的实验代码和技术报告已经公开发布,便于研究者进行验证和扩展。
背景与挑战
背景概述
TOUCHDOWN数据集是一项专注于执行导航指令和解决视觉现实世界环境中的空间描述的语料库。该数据集的创建旨在推动自然语言导航和空间推理的研究,其详细的语料库和任务描述发表于Howard Chen、Alane Suhr、Dipendra Misra、Noah Snavely和Yoav Artzi的论文《Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments》中。该数据集自2018年以来,便成为了自然语言处理和计算机视觉领域中的一个重要资源,对推动相关技术的进步产生了显著影响。
当前挑战
在研究领域中,TOUCHDOWN数据集所面临的挑战主要涉及两个方面:一是如何在复杂的视觉环境中准确地执行自然语言导航指令;二是如何在空间描述解析任务中,正确识别并定位隐藏目标。构建过程中遇到的挑战则包括如何高效地收集和标注大量的全景图像,以及如何设计有效的评估机制来衡量导航和空间推理的性能。
常用场景
经典使用场景
TOUCHDOWN数据集为执行导航指令和解决视觉现实世界环境中的空间描述提供了丰富的语料库。在此经典使用场景中,研究人员通过训练模型,使其能够遵循指令到达一个目标位置,并在那里找到隐藏的物体,即Touchdown熊。该数据集的核心任务是对导航指令的理解以及空间推理能力的培养。
实际应用
在实际应用中,TOUCHDOWN数据集可以被用于开发智能导航系统,如自动驾驶汽车中的辅助导航系统,或是智能机器人导游系统。通过利用该数据集,系统能够在现实世界中更好地理解和执行人类的导航指令,提升用户的交互体验。
衍生相关工作
基于TOUCHDOWN数据集,研究者们衍生出了许多相关工作,包括但不限于改进导航算法、空间描述的解析方法,以及结合增强现实技术进行交互式导航的研究。这些工作进一步拓展了TOUCHDOWN数据集的应用领域,推动了相关技术的进步。
以上内容由遇见数据集搜集并总结生成



