TVL：大规模触觉-视觉-语言多模态对齐数据集

极市2026-04-16 更新2026-04-18 收录

下载链接：

https://www.cvmart.net/dataSets/detail/1550

下载链接

链接失效反馈

官方服务：

资源简介：

TVL（Touch-Vision-Language）是 ICML 2024 推出的触觉 - 视觉 - 语言三位一体具身多模态数据集，也是早期面向触觉语义对齐的标杆级开源数据集，整体包含超 4.3 万组精准同步的跨模态样本，分为近 3.9 万组真实野外采集数据与四千余组机器人受控采集数据，依托 DIGIT 触觉传感器、高清视觉相机同步采集接触画面与物体表面交互信息，并结合人工核验与 GPT-4V 自动化标注，为每一组触觉图像、视觉图像匹配精细化自然语言描述，覆盖海量日常物体、不同材质纹理与按压、滑动等多样化物理交互场景；该数据集可广泛用于开放词汇材质识别、触觉感知理解、多模态描述生成、机器人物理交互学习等研究方向，适配具身智能、灵巧手操作、人形机器人多模态感知等下游任务

提供机构：

极市