five

R2V dataset|空间导航数据集|自然语言处理数据集

收藏
arXiv2025-03-10 更新2025-03-13 收录
空间导航
自然语言处理
下载链接:
http://arxiv.org/abs/2503.07323v1
下载链接
链接失效反馈
资源简介:
R2V数据集是一个包含815个真实建筑平面图的集合,每个平面图都转换成文本格式并配有三对随机起点和终点。该数据集用于评估大型语言模型在空间导航任务中的性能,特别是其在零样本情况下的路径规划能力。数据集的构建基于真实世界的场景,保证了其在实际应用中的适用性,同时简化了处理过程,便于LLM理解和处理。
提供机构:
香港科技大学
创建时间:
2025-03-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
R2V数据集的构建采用了现实世界建筑中的815个真实平面图,这些平面图主要呈矩形结构,便于LLM进行处理和理解。为了评估LLM的空间导航能力,研究者们将这些平面图转换为文本格式,并随机抽取了三对起始和目标点。此外,他们还使用A*算法生成了无障碍的最优路径作为基准标签,从而构建了一个适合评估LLM空间导航能力的综合数据集。为了探索LLM导航和规划能力的上限,研究者们还手动创建了一些更复杂的场景。
特点
R2V数据集的主要特点是其真实性和多样性。数据集包含来自现实世界建筑的真实平面图,这些平面图具有不同的形状和布局,能够有效地模拟真实环境中的导航挑战。此外,数据集还包含了多个起始和目标点,以及使用A*算法生成的无障碍最优路径,这些特点使得R2V数据集成为一个评估LLM空间导航能力的理想平台。
使用方法
R2V数据集的使用方法相对简单。首先,用户需要将平面图转换为文本格式,并随机抽取起始和目标点。然后,用户可以使用A*算法生成无障碍的最优路径作为基准标签。最后,用户可以将数据集用于评估LLM的空间导航能力,并探索LLM在多智能体场景下的协调和碰撞解决能力。
背景与挑战
背景概述
R2V数据集是用于动态路径规划研究的,旨在探索大型语言模型(LLM)在空间路径规划和无障碍轨迹生成方面的能力。该数据集由香港科技大学和达特茅斯学院的研究人员创建,首次提出了一种基于LLM的导航系统,该系统能够在动态环境中处理障碍物避免和碰撞解决。R2V数据集包含了815个来自实际建筑的楼面平面图,每个平面图都经过文本化处理,并随机选取了三对起点和终点。这些平面图主要用于评估LLM的空间导航能力。R2V数据集的创建对相关领域产生了深远的影响,为LLM在导航和路径规划方面的研究提供了重要的数据支持。
当前挑战
R2V数据集当前面临的挑战主要包括:1) LLM在空间路径规划和无障碍轨迹生成方面的能力尚未得到充分探索;2) LLM在解决真实世界场景中的路径导航问题时,其性能仍有待提高。为了解决这些问题,研究人员提出了基于LLM的导航系统,该系统能够在动态环境中处理障碍物避免和碰撞解决。此外,研究人员还提出了一种基于锚点的路径表示方法,该方法比传统的路径表示方法具有更高的灵活性和实用性。通过实验,研究人员发现现代LLM在空间导航任务中表现出显著的能力,但在多智能体场景中,其性能仍有所下降。因此,未来的研究需要进一步探索LLM在真实世界场景中的路径导航能力,并提高其在多智能体场景中的性能。
常用场景
经典使用场景
R2V数据集主要用于评估大型语言模型(LLM)在动态环境中的路径规划和避障能力。该数据集包含815个真实建筑的平面图,为LLM提供了在现实世界场景中导航的基准。LLM需要根据起点和目标点生成无碰撞的路径,并在多智能体场景中协调移动,避免碰撞。此外,R2V数据集还用于评估LLM在生成环境感知的人形运动方面的能力。
解决学术问题
R2V数据集解决了LLM在空间路径规划和无碰撞轨迹生成方面的应用问题。传统的基于强化学习的方法在数据收集和训练方面存在局限性,而LLM能够处理未见过的场景,支持用户与智能体之间的交互,并提供对复杂系统的全局控制。R2V数据集为LLM提供了一个评估其空间推理和路径规划能力的平台,为LLM在现实世界应用中的导航任务提供了重要参考。
衍生相关工作
R2V数据集衍生了多项相关工作,包括DeepSeek-R1、o3-mini等模型在路径规划和避障任务上的应用。这些工作进一步探索了LLM在空间推理和路径规划方面的能力,并展示了LLM在生成环境感知的人形运动方面的潜力。此外,R2V数据集还启发了基于LLM的导航系统在多智能体协调和动态环境中的应用,为未来智能系统的发展提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录