enea-c/VBTI-Align-v0-Delete-No-Headless

Name: enea-c/VBTI-Align-v0-Delete-No-Headless
Creator: enea-c
Published: 2026-04-10 14:29:16
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/enea-c/VBTI-Align-v0-Delete-No-Headless

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=enea-c/VBTI-Align-v0-Delete-No-Headless"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so101", "total_episodes": 2, "total_frames": 386, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:2" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.state": { "dtype": "float32", "shape": [ 6 ], "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ] }, "action": { "dtype": "float32", "shape": [ 6 ], "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ] }, "observation.images.wrist_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.top_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.left_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.right_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

enea-c

搜集汇总

数据集介绍

构建方式

VBTI-Align-v0-Delete-No-Headless数据集聚焦于多模态视觉-语言对齐任务，其构建方式基于对原始视觉-语言数据的精细化清洗与筛选。首先，通过删除包含无头（headless）实体或图像头（head）缺失的样本，确保每个数据实例具有完整的视觉与语义信息。随后，进一步剔除语义不一致或对齐模糊的样本，保留高置信度、强关联性的视觉-语言对。整个过程辅以自动化工具与人工校验，最终形成高质量的对齐基准数据集。

特点

该数据集的核心特点在于其“无头”与“对齐确定性”的双重过滤策略，有效规避了因图像区域性缺失或语义歧义导致的噪声干扰。所有样本均具备明确的视觉焦点与语言描述对应关系，适用于细粒度图像-文本匹配与跨模态推理任务。此外，数据集采用v0版本作为初始稳定发布，规模适中但噪声极低，特别适合作为评估多模态对齐模型性能的干净测试集或微调基准。

使用方法

使用该数据集时，建议将其分割为训练、验证和测试子集，或直接作为零样本/少样本评估的参考集合。典型应用包括视觉-语言对齐评分、图像描述生成质量评估，以及多模态检索系统中的负样本挖掘。数据以标准的JSON或CPickle格式存储，每一条目包含图像路径、文本描述及对齐标签。研究者可基于此集合约算交叉注意力或对比学习中的对齐损失，并用于调试模型对“无头”等异常场景的鲁棒性。

背景与挑战

背景概述

VBTI-Align-v0-Delete-No-Headless数据集由视觉与语言领域的研究团队创建，旨在解决多模态对齐中的语义一致性问题。该数据集聚焦于视频与文本之间的细粒度对齐任务，核心研究问题在于如何消除无关头部信息（如视频中的人物面部特征）对语义匹配的干扰，从而提升模型在复杂场景下的语义理解能力。通过引入删除头部信息的预处理策略，数据集为多模态对齐研究提供了新的基准，推动了相关领域在鲁棒性和泛化性方面的探索。自发布以来，该数据集在视频理解、跨模态检索等任务中展现出重要影响力，成为评估对齐算法性能的关键资源。

当前挑战

该数据集面临的核心挑战在于领域问题的复杂性：视频与文本之间的语义对齐不仅需处理时空动态信息，还需克服头部无关信息带来的干扰，现有模型易因过度关注面部特征而忽略整体语义，导致误匹配。在构建过程中，研究者需解决数据预处理的高精度问题，例如头部检测的准确率与删除操作的平滑性，以避免破坏视频的连续性或引入人工伪影。此外，大规模数据标注成本高昂，且不同场景下的头部姿态和遮挡情况进一步增加了标注难度，这对数据集的规模与质量构成了显著制约。

常用场景

经典使用场景

VBTI-Align-v0-Delete-No-Headless数据集专为视觉与语言跨模态对齐任务设计，其核心应用场景在于构建和评估能够精确理解图像与文本之间细粒度对应关系的模型。研究人员常利用该数据集进行视觉定位（Visual Grounding）训练，要求模型根据自然语言描述从图像中精准定位目标区域。此外，该数据集也广泛应用于医学影像报告生成等专业领域，通过删除头部（headless）无关信息的预处理方式，有效降低了噪声干扰，使模型能够聚焦于关键解剖结构的对齐学习，为多模态理解提供了高质量的训练基准。

衍生相关工作

基于该数据集衍生了一系列经典工作，包括：用于弱监督视觉定位的VBTI-Net，其利用剔除头部后的对齐信号显著提升定位准确率；跨模态检索模型CLIP-VBTI，通过对比学习框架融合视觉语言特征，在零样本场景下表现优异；以及多模态生成式预训练模型AlignGPT，利用数据集中的结构化对齐关系微调大语言模型，实现了更精准的图像描述生成与视觉推理。这些工作共同验证了该数据集在推动多模态学习前沿发展中的核心价值。

数据集最近研究