five

TOUCHDOWN|计算机视觉数据集|自然语言处理数据集

收藏
github2020-05-16 更新2025-02-19 收录
计算机视觉
自然语言处理
下载链接:
https://github.com/lil-lab/touchdown
下载链接
链接失效反馈
资源简介:
TOUCHDOWN 数据集由 Howard Chen 等人创建,旨在研究自然语言与视觉的联合推理问题。该数据集基于 Google Street View 构建,包含 9,326 个英语指令和空间描述样本,涵盖 29,641 个全景图和 61,319 条连接边。数据集通过众包方式收集,要求参与者根据指令隐藏虚拟目标“Touchdown”,并撰写导航指令和目标位置描述。数据集的创建过程设计为“寻宝游戏”,通过多轮任务确保指令的有效性和自然性。TOUCHDOWN 数据集旨在解决自然语言导航和空间描述解析问题,为视觉问答、导航指令理解等研究领域提供丰富资源。
提供机构:
ASAPP Inc.、Cornell University
创建时间:
2020-05-16
原始信息汇总

触地数据集(Touchdown Dataset)

数据集简介

  • 触地数据集是一个用于执行导航指令和解析视觉现实世界环境中的空间描述的语料库。
  • 任务是遵循指令到达一个目标位置,并在那里找到一个隐藏的物体,即触地熊(Touchdown the bear)。

相关论文

数据集内容

  • 数据集包含触地语料库。
  • 导航环境由大量全景图组成。
  • 全景图可通过 StreetLearn 环境下载。
  • 请求访问全景图像需填写 StreetLearn Dataset 表单。
  • 更多细节请见 此处

数据集目录结构

  • data/:包含 JSON 文件 train.jsondev.jsontest.json。这些是用于导航和空间描述解析(SDR)任务的数据文件。
  • graph/:包含构建图的 .txt 文件。nodes.txt 包含图中的所有节点。links.txt 包含图中的所有边。

图文件

  • nodes.txt:包含四列 panoidpano_yaw_anglelatitudelongitude
  • links.txt:包含三列 start_panoidheadingend_panoid

JSON 文件结构

  • 所有三个文件遵循相同结构,包含以下信息:

路线信息

  • city:城市名称
  • route_id:唯一路线 ID
  • elapsed:编写此路线指令所花费的时间
  • failure_stats:指令编写者尝试将触地熊放置在最终位置/全景图上的次数
  • num_finished:跟随者找到熊的运行次数
  • full_text:从导航到触地熊放置的完整指令

导航任务

  • navigation_text:导航指令文本
  • route_panoids:从起点到终点的全景图 ID 列表
  • start_heading:起始航向角度(度)
  • end_heading:终止航向角度(度)

空间描述解析(SDR)任务

  • td_location_text:SDR 指令文本
  • pre_panomain_panopost_pano:全景图 ID,main_pano 是放置触地的目标位置全景图 ID。pre_panopost_pano 是目标位置前后全景图
  • pre_static_centermain_static_centerpost_static_center:触地放置位置的点击位置 {x: width_ratio, y: height_ratio}{x: -1, y: -1} 表示触地熊在全景图中找不到

实验复现代码

许可

AI搜集汇总
数据集介绍
main_image_url
构建方式
TOUCHDOWN数据集的构建,依托大量全景图像,旨在模拟真实世界环境中的视觉导航和空间描述解析任务。该数据集通过精心设计的路线和指令,引导执行者在虚拟街景中寻找到指定的目标位置,并在此位置寻找隐藏的物体——Touchdown熊。构建过程中,数据集包含了导航任务和空间描述解析任务的相关数据,形成了包含城市名称、路线ID、耗时、失败统计、完成次数和完整指令等信息的JSON文件,以及用于构建图的节点和边信息。
特点
TOUCHDOWN数据集的特点在于其结合了自然语言导航和空间推理,为研究者提供了一个在视觉街景环境中的综合挑战。数据集不仅包含了导航指令,还包括了空间描述解析任务,这使其成为一个多维度的研究资源。此外,数据集的开放性和可访问性,使得研究者能够轻松地请求访问全景图像,并在各种实验设置中应用这些图像。
使用方法
使用TOUCHDOWN数据集,研究者可以通过提供的Python脚本和相应的JSON、txt文件来加载和初始化图形结构,进而进行导航和空间描述解析任务。数据集的结构化设计使得研究者能够方便地提取和利用其中的信息,例如路线ID、导航指令、全景ID等,以开展相应的实验和研究。此外,数据集的复现性得到了保障,因为相关的实验代码和技术报告已经公开发布,便于研究者进行验证和扩展。
背景与挑战
背景概述
TOUCHDOWN数据集是一项专注于执行导航指令和解决视觉现实世界环境中的空间描述的语料库。该数据集的创建旨在推动自然语言导航和空间推理的研究,其详细的语料库和任务描述发表于Howard Chen、Alane Suhr、Dipendra Misra、Noah Snavely和Yoav Artzi的论文《Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments》中。该数据集自2018年以来,便成为了自然语言处理和计算机视觉领域中的一个重要资源,对推动相关技术的进步产生了显著影响。
当前挑战
在研究领域中,TOUCHDOWN数据集所面临的挑战主要涉及两个方面:一是如何在复杂的视觉环境中准确地执行自然语言导航指令;二是如何在空间描述解析任务中,正确识别并定位隐藏目标。构建过程中遇到的挑战则包括如何高效地收集和标注大量的全景图像,以及如何设计有效的评估机制来衡量导航和空间推理的性能。
常用场景
经典使用场景
TOUCHDOWN数据集为执行导航指令和解决视觉现实世界环境中的空间描述提供了丰富的语料库。在此经典使用场景中,研究人员通过训练模型,使其能够遵循指令到达一个目标位置,并在那里找到隐藏的物体,即Touchdown熊。该数据集的核心任务是对导航指令的理解以及空间推理能力的培养。
实际应用
在实际应用中,TOUCHDOWN数据集可以被用于开发智能导航系统,如自动驾驶汽车中的辅助导航系统,或是智能机器人导游系统。通过利用该数据集,系统能够在现实世界中更好地理解和执行人类的导航指令,提升用户的交互体验。
衍生相关工作
基于TOUCHDOWN数据集,研究者们衍生出了许多相关工作,包括但不限于改进导航算法、空间描述的解析方法,以及结合增强现实技术进行交互式导航的研究。这些工作进一步拓展了TOUCHDOWN数据集的应用领域,推动了相关技术的进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

用于陆面模拟的中国土壤数据集(第二版)

本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。

国家青藏高原科学数据中心 收录