five

ARIO (All Robots In One)|具身智能数据集|数据标准化数据集

收藏
arXiv2024-08-20 更新2024-08-22 收录
具身智能
数据标准化
下载链接:
https://imaei.github.io/project_pages/ario/
下载链接
链接失效反馈
资源简介:
ARIO数据集由南方科技大学、中山大学和鹏城实验室联合创建,旨在为多用途、通用型具身智能代理提供标准化的数据格式。该数据集包含约300万条记录,涵盖258个系列和321,064个任务,结合了真实世界和模拟数据。创建过程中,数据集通过多平台收集、模拟生成和开源数据转换等方式构建。ARIO数据集的应用领域广泛,主要用于提高具身智能代理的鲁棒性和适应性,解决数据格式不统一、多样性不足和数据量不足等问题。
提供机构:
南方科技大学、中山大学、鹏城实验室
创建时间:
2024-08-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
ARIO数据集的构建基于多源数据整合策略,涵盖了真实世界数据采集、模拟平台数据生成以及开源数据集的转换。具体而言,真实世界数据通过自定义平台收集,模拟数据则利用Habitat、MuJoCo和SeaWave等平台生成,同时将现有的开源数据集如Open X-Embodiment、RH20T和ManiWAV转换为ARIO标准格式。这种多管齐下的方法确保了数据集的多样性和广泛性,从而为通用型具身智能体提供了丰富的训练资源。
特点
ARIO数据集的显著特点在于其综合性和统一性。它不仅包含了五种感官模态(图像、3D数据、声音、文本和触觉信息),还通过时间戳机制实现了多模态数据的对齐。此外,ARIO采用了清晰的系列-任务-片段结构,并提供了详细的文本描述,便于理解和使用。数据集的统一格式支持多种机器人形态和控制对象,简化了数据处理流程,并整合了模拟和真实世界数据,增强了数据集的泛化能力。
使用方法
使用ARIO数据集时,研究者可以利用其统一的数据格式和丰富的感官模态进行具身智能体的训练和测试。数据集的结构化设计使得数据加载和处理变得高效,而时间戳机制确保了多模态数据的时间一致性。此外,ARIO数据集的多样性和广泛性为跨平台和跨任务的泛化研究提供了有力支持。研究者可以通过访问项目网站获取详细的使用指南和数据访问权限,从而充分利用这一资源进行具身智能领域的创新研究。
背景与挑战
背景概述
随着具身人工智能(Embodied AI)的迅猛发展,人工智能系统与物理世界的交互方式正在发生深刻变革。然而,现有数据集在标准化格式、数据多样性和数据量方面存在显著不足,难以支持开发多功能、通用型的具身智能体。为应对这些挑战,Zhiqiang Wang等研究人员于2024年推出了ARIO(All Robots In One)数据集,该数据集由南方科技大学、中山大学和鹏城实验室共同开发。ARIO数据集通过提供统一的数据格式、全面的感知模态以及真实世界和模拟数据的结合,旨在提升具身AI智能体的训练效果,增强其在各种任务和环境中的鲁棒性和适应性。该数据集包含约300万条从258个系列和321,064个任务中收集的片段,为具身AI领域提供了重要的数据资源,推动了该领域的进一步发展。
当前挑战
ARIO数据集在构建过程中面临多项挑战。首先,具身智能体所需的数据集必须具备丰富的感知模态,而现有数据集在这方面存在明显不足,缺乏图像、3D视觉、文本、触觉和听觉输入的全面整合。其次,多机器人数据集缺乏统一格式,导致数据处理和加载复杂化。此外,不同机器人平台之间的控制对象表示不兼容,限制了数据集的通用性。最后,现有数据集在数据量上不足以支持大规模预训练,且缺乏结合模拟和真实数据的集,这对研究模拟到真实的差距至关重要。ARIO数据集通过引入统一的数据格式和时间戳机制,以及整合模拟和真实数据,有效应对了这些挑战,为具身AI的发展提供了坚实的基础。
常用场景
经典使用场景
ARIO数据集的经典使用场景在于其为多模态感知和多任务学习提供了丰富的数据支持。通过整合图像、3D视觉、声音、文本和触觉信息,ARIO数据集使得研究者能够训练出能够在复杂环境中执行多样化任务的通用型具身智能体。例如,该数据集可用于开发能够进行物体抓取、导航、语音交互和触觉反馈处理的机器人系统。
解决学术问题
ARIO数据集解决了现有具身智能数据集在标准化格式、数据多样性和数据量方面的不足。通过提供统一的数据格式和多模态数据,ARIO促进了具身智能体在不同任务和环境中的鲁棒性和适应性。此外,ARIO通过整合模拟和真实世界数据,帮助研究者解决模拟到现实之间的差距问题,推动了具身智能领域的研究进展。
衍生相关工作
ARIO数据集的推出催生了多项相关研究工作,特别是在多模态学习和跨平台学习领域。例如,基于ARIO数据集的研究已经开发出能够跨不同机器人平台迁移知识的模型,显著提高了机器人的通用性和适应性。此外,ARIO还促进了语言引导机器人学习和多模态感知模型的研究,推动了具身智能领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

UAV-AWID (UAVs-Adv Weather and Image Distortions)

UAV-AWID数据集包含在恶劣天气和图像失真条件下拍摄的无人机图像,包括雨天测试数据集(RTSD)、运动模糊测试数据集(MBTD)和人工噪声测试数据集(ANTD)。这些数据集用于评估深度学习模型在不同天气和图像失真条件下的性能。

github 收录

WorldClim

WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。

www.worldclim.org 收录