Alpamayo-tiny
收藏Hugging Face2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/GreatGutsy/Alpamayo-tiny
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2500个样本(正在上传中),专为Alpamayo R1设计。数据集采用80%-20%的训练-验证划分,其中训练集2000个样本,验证集500个样本。每个样本以.npy格式存储,包含以下关键字段:tokenized_data(含attention_mask、image_grid_thw、input_ids和pixel_values等子字段)、ego_history_xyz(三维坐标历史数据)和ego_history_rot(旋转历史数据)。视频数据已压缩至320x576分辨率(Alpamayo的标准压缩尺寸,可能带来轻微精度偏差)。数据集适用于视频文本生成、机器人学和目标检测等任务,属于中等规模(1K<n<10K)的英文多模态数据集。
创建时间:
2026-01-25
原始信息汇总
Alpamayo-tiny 数据集概述
数据集基本信息
- 数据集名称:Alpamayo-tiny
- 发布者:GreatGutsy
- 任务类别:视频文本到文本、机器人学、目标检测
- 语言:英语
- 标签:智能体
- 规模分类:1K<n<10K
数据规模与结构
- 总样本量:2.5k(正在上传中)
- 训练集:80%(2000个样本)
- 验证集:20%(500个样本)
- 下载大小:191,532,609字节
- 数据集大小:2,409,638,544字节
数据文件组织
- 训练数据路径:
/train/shard_xxxxx.tar - 验证数据路径:
/val/shard_yyyyy.tar - 每个.tar文件包含:25个样本(.npy格式)
数据特征
- tokenized_data:结构化字段,包含:
attention_mask:int64类型列表的列表image_grid_thw:int64类型列表的列表input_ids:int64类型列表的列表pixel_values:float32类型列表的列表
- ego_history_xyz:float32类型列表的列表的列表
- ego_history_rot`:float32类型列表的列表的列表的列表
数据内容说明
- 视频质量:320x576(Alpamayo压缩原始视频的尺寸,可能导致轻微精度偏差)
- 数据键值:从.npy文件获取数据时使用的键包括:
uuidvideo_qualitytokenized_dataego_history_xyzego_history_rot
配置信息
- 默认配置:
default - 数据文件:训练集路径为
data/train-*
搜集汇总
数据集介绍

构建方式
在机器人视觉与自然语言处理交叉领域,Alpamayo-tiny数据集通过精心设计的流程构建而成。该数据集从原始视频流中提取关键帧,并将其压缩至320x576分辨率,以适配后续模型处理需求。每个样本均以.npy格式封装,包含tokenized_data、ego_history_xyz与ego_history_rot等多模态特征,通过分片存储于tar归档文件中,实现了数据的高效组织与访问。
特点
Alpamayo-tiny数据集展现出鲜明的多模态与时空连续性特征。其核心在于融合了视觉序列、姿态轨迹与语言标记,其中ego_history_xyz与ego_history_rot完整记录了智能体的三维位置与旋转历史,为运动理解提供了细粒度时空上下文。数据集规模适中,包含约2500个样本,划分为训练集与验证集,兼顾了模型训练的效率与评估的可靠性。
使用方法
针对机器人感知与视频文本生成任务,Alpamayo-tiny数据集的使用需依托其结构化特征加载。开发者可通过解析tar文件中的.npy数据,提取tokenized_data作为模型输入,同时利用ego_history系列字段进行轨迹分析或条件生成。该数据集适用于端到端训练,亦支持对视觉语言对齐、运动预测等子任务的专项研究,为多智能体系统与具身AI提供了实证基础。
背景与挑战
背景概述
Alpamayo-tiny数据集作为Alpamayo R1项目的重要组成部分,由相关研究团队于近期构建,旨在推动具身智能与机器人学领域的发展。该数据集聚焦于视频文本到文本转换、机器人控制及目标检测等多模态任务,通过整合视觉、语言与运动轨迹数据,为智能体在复杂环境中的感知与决策提供支持。其核心研究问题在于如何实现跨模态信息的有效对齐与理解,从而提升智能体在真实世界场景中的适应性与泛化能力,对自动驾驶、服务机器人等应用具有潜在影响力。
当前挑战
该数据集致力于解决具身智能领域中的多模态融合挑战,即如何将视觉序列、文本指令与机器人运动轨迹进行协同建模,以应对动态环境下的实时决策问题。在构建过程中,面临数据采集与标注的复杂性,例如高维视频数据的压缩处理可能导致信息损失,而运动轨迹数据的精确对齐需克服传感器噪声与时间同步难题。此外,数据集规模相对有限,样本多样性不足可能制约模型在未见场景中的泛化性能,需进一步扩展数据覆盖范围以增强鲁棒性。
常用场景
经典使用场景
在自动驾驶与机器人领域,Alpamayo-tiny数据集以其多模态特性,为视觉语言模型提供了经典的应用场景。该数据集整合了视频、文本及自我运动历史数据,常用于训练端到端的智能体系统,以理解复杂环境中的时空动态。研究者利用其tokenized_data和ego_history字段,模拟真实世界中的感知与决策过程,推动模型在动态场景下的推理能力发展。
实际应用
在实际应用中,Alpamayo-tiny数据集被广泛用于自动驾驶系统的仿真测试与机器人导航算法的开发。其压缩至320x576分辨率的视频数据,结合精确的自我运动历史,可模拟车辆或机器人在真实道路或室内环境中的运行状态。这有助于优化感知模块的鲁棒性,提升路径规划与避障决策的准确性,为智能移动平台的商业化部署提供可靠的数据支撑。
衍生相关工作
围绕Alpamayo-tiny数据集,衍生了一系列经典研究工作,主要集中在多模态预训练与强化学习框架的构建。例如,基于其tokenized_data结构,研究者开发了新型的视觉语言变换器模型,用于视频描述生成与动作预测。同时,结合ego_history数据,推动了以自我为中心的运动建模方法,这些工作不仅扩展了数据集的学术价值,也为后续大规模具身智能数据集的构建树立了范式。
以上内容由遇见数据集搜集并总结生成



