TVL:大规模触觉-视觉-语言多模态对齐数据集
收藏极市2026-04-16 更新2026-04-18 收录
下载链接:
https://www.cvmart.net/dataSets/detail/1550
下载链接
链接失效反馈官方服务:
资源简介:
TVL(Touch-Vision-Language)是 ICML 2024 推出的触觉 - 视觉 - 语言三位一体具身多模态数据集,也是早期面向触觉语义对齐的标杆级开源数据集,整体包含超 4.3 万组精准同步的跨模态样本,分为近 3.9 万组真实野外采集数据与四千余组机器人受控采集数据,依托 DIGIT 触觉传感器、高清视觉相机同步采集接触画面与物体表面交互信息,并结合人工核验与 GPT-4V 自动化标注,为每一组触觉图像、视觉图像匹配精细化自然语言描述,覆盖海量日常物体、不同材质纹理与按压、滑动等多样化物理交互场景;该数据集可广泛用于开放词汇材质识别、触觉感知理解、多模态描述生成、机器人物理交互学习等研究方向,适配具身智能、灵巧手操作、人形机器人多模态感知等下游任务
提供机构:
极市



