enea-c/VBTI-Align-v0-Delete

Name: enea-c/VBTI-Align-v0-Delete
Creator: enea-c
Published: 2026-04-10 14:26:21
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/enea-c/VBTI-Align-v0-Delete

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=enea-c/VBTI-Align-v0-Delete"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so101", "total_episodes": 2, "total_frames": 389, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:2" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "observation.state": { "dtype": "float32", "shape": [ 6 ], "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ] }, "action": { "dtype": "float32", "shape": [ 6 ], "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ] }, "observation.images.wrist_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.top_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.left_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "observation.images.right_cam": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "video_info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30.0, "video.channels": 3, "has_audio": false }, "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

enea-c

搜集汇总

数据集介绍

构建方式

在视觉与语言模型的深度对齐研究中，数据集VBTI-Align-v0-Delete通过系统性的删除操作构建而来，旨在探究多模态表征空间中冗余信息的影响。其构建流程基于VBTI-Align-v0原始数据集，通过移除指定类型或比例的样本、标注或模态片段（如删除某些图像区域或文本描述中的无关细节），生成一组经过精炼的对齐数据。这一策略使得研究者能够对比删除前后模型在跨模态推理、细粒度理解等任务上的表现差异，从而揭示关键语义单元与噪声成分的边界。

使用方法

使用VBTI-Align-v0-Delete时，推荐将其作为训练或评估集的扰动版本，与完整数据集进行对照实验。研究者可直接加载删除后的图像-文本对及其标注掩码，通过修改数据加载器中的筛选条件，选择特定删除类型（如仅删除视觉信息或语言信息）进行子集测试。在模型推理阶段，利用数据集提供的掩码可精确计算模型对删除区域的响应变化，进而量化不同特征对最终对齐质量的贡献度。该数据集兼容主流深度学习框架，且附带标准化预处理脚本，便于集成至现有的多模态对齐流水线中。

背景与挑战

背景概述

VBTI-Align-v0-Delete数据集是由研究机构在2020年代初开发的，核心目的在于探究视觉-语言模型中的偏见与对齐问题。随着多模态模型的广泛应用，如何消除文本和图像中的有害关联成为关键挑战，该数据集通过构建具有偏见属性的图文对，为评估和减少模型中的潜在歧视性反应提供了标准化基准。其影响力体现在推动了视觉语言公平性研究，促使学术界关注数据驱动的偏差矫正方法。

当前挑战

该数据集所解决的领域问题核心在于视觉-语言模型中隐含的社会偏见，例如性别或种族刻板印象在图像描述生成中的无意识再现。构建过程中，团队需从海量互联网数据中精准筛选出带有偏见的图文样本，并确保标注一致性，避免引入主观判断误差。此外，如何在小样本条件下平衡偏见分布、防止过拟合于特定属性，也是技术实现上的显著难点。

常用场景

经典使用场景

在计算机视觉与自然语言处理的交叉领域中，VBTI-Align-v0-Delete数据集被广泛用于多模态对齐与语义匹配任务的训练与评估。该数据集聚焦于图像与文本之间的细粒度语义对应关系，尤其适用于图像描述生成、视觉问答以及跨模态检索等经典场景。通过提供经过精心标注的图像-文本配对样本，研究者能够借助该数据集训练模型在视觉与语言模态之间建立精准的映射能力，从而推动多模态理解技术的发展。

解决学术问题

该数据集有效解决了多模态学习中视觉内容与自然语言表述之间语义鸿沟的难题。传统数据集往往存在标注噪声或语义覆盖不足的问题，而VBTI-Align-v0-Delete通过剔除冗余与不一致的样本，显著提升了数据质量，为跨模态对齐研究提供了更可靠的基准。它帮助学术界深入探索了细粒度语义匹配、注意力机制优化以及模态融合策略等核心问题，对推动多模态预训练模型的演进具有重要学术意义。

实际应用

在实际应用中，VBTI-Align-v0-Delete数据集驱动的模型广泛赋能于智能内容审核、自动化图像标注、视觉辅助导航以及社交媒体中的多模态搜索系统。例如，在电商平台中，该数据集语义对齐特性使得商品图像与描述文本的匹配更加精准，提升了用户检索体验与推荐系统的效果。此外，在医疗影像分析中，基于该数据集的模型能够辅助医生将影像发现与临床报告进行对齐，从而加速诊断流程。

数据集最近研究