BARISTA

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/ramblr/BARISTA

下载链接

链接失效反馈

官方服务：

资源简介：

BARISTA是一个密集标注的以自我为中心（第一人称视角）的视频数据集，专注于咖啡制作场景。该数据集旨在为视觉语言模型（VLMs）在空间理解、时序理解、关系推理和过程理解等多任务上提供一个统一的基准测试平台。数据集包含185个以自我为中心的视频，总时长约4.4小时，帧率为30 FPS，分辨率介于1280×720至1920×1080之间。视频内容涵盖了三种常见的咖啡制作方法：胶囊咖啡机、手柄（portafilter）咖啡机以及全自动咖啡机。所有视频均在受控的室内环境中，使用包括iPhone、Apple Vision Pro、RayBan Meta 3和RayBan Wayfarer智能眼镜在内的多种设备录制。每个视频样本存储于独立目录，包含原始视频文件（video.mp4）和一个扩展的COCO格式标注文件（coco_annotation.json）。该标注文件提供了丰富且结构化的信息：逐帧的对象实例标注（包含边界框和分割掩码）、对象级别的属性（如颜色、状态）、对象之间的有向类型化关系（如位置关系、人机交互动作）、对象类别定义、细粒度的“动词+名词”活动片段、高级别的过程步骤片段、完整的视频元数据（如分辨率、帧数、录制设备）以及数据集划分（训练集/测试集）。BARISTA数据集适用于多种计算机视觉与多模态任务，包括但不限于视频分类、目标检测、视觉问答、活动识别、手物交互分析、实例分割和关系抽取，是评估视觉语言模型组合式理解能力的综合性资源。

BARISTA is a densely annotated egocentric (first-person perspective) video dataset focused on coffee-making scenarios. It aims to provide a unified benchmark for visual language models (VLMs) across multiple tasks such as spatial understanding, temporal understanding, relational reasoning, and procedural understanding. The dataset includes 185 egocentric videos with a total duration of approximately 4.4 hours, a frame rate of 30 FPS, and resolutions ranging from 1280×720 to 1920×1080. The videos cover three common coffee-making methods: capsule coffee machines, portafilter coffee machines, and fully automatic coffee machines. All videos were recorded in controlled indoor environments using various devices including iPhone, Apple Vision Pro, RayBan Meta 3, and RayBan Wayfarer smart glasses. Each video sample is stored in an independent directory, containing the original video file (video.mp4) and an extended COCO-format annotation file (coco_annotation.json). This annotation file provides rich and structured information: per-frame object instance annotations (including bounding boxes and segmentation masks), object-level attributes (e.g., color, state), directed typed relationships between objects (e.g., positional relations, human-machine interaction actions), object category definitions, fine-grained verb+noun activity segments, high-level procedural step segments, comprehensive video metadata (e.g., resolution, frame count, recording device), and dataset splits (train/test). The BARISTA dataset is suitable for various computer vision and multimodal tasks, including but not limited to video classification, object detection, visual question answering, activity recognition, hand-object interaction analysis, instance segmentation, and relation extraction, making it a comprehensive resource for evaluating the compositional understanding capabilities of visual language models.

创建时间：

2026-05-12

搜集汇总

数据集介绍

构建方式

BARISTA数据集以咖啡制备为核心场景，系统性地收集了185段第一人称视角的自我中心视频，总时长约4.4小时，分辨率涵盖1280×720至1920×1080，帧率为30 FPS。视频采集覆盖胶囊咖啡机、手柄式咖啡机和全自动咖啡机三种典型设备，录制设备包括iPhone、Apple Vision Pro、RayBan Meta 3及RayBan Wayfarer智能眼镜，确保数据在受控室内环境下的高质量与多样性。每段视频独立存储于专属文件夹中，包含原始视频文件及遵循COCO格式扩展的详细标注文件，标注涵盖实例级掩码、边界框、属性、关系及活动，并依时间维度划分为训练集与测试集，为多任务视觉理解提供结构化基准。

特点

该数据集以密集的时空标注与多维度语义关联为核心特色。标注体系不仅包含逐帧的实例分割与边界框，还引入了跨帧持续的属性标签（如颜色、状态）和有向关系（如空间位置、人机交互行为），并细粒度地标注了动词-名词组合的活动片段与高层次的过程步骤。这种分层结构使得BARISTA能够同时支持空间、时间、关系及程序性理解任务，成为评估视觉语言模型在统一框架下组合推理能力的独特基准。数据集中所有对象的唯一标识符及跨元素映射表，进一步保障了跨任务分析的连贯性。

使用方法

使用者可通过项目仓库提供的专用数据加载器高效接入BARISTA数据集，该加载器封装了COCO格式扩展的解析逻辑，简化了大规模标注数据的读取流程。数据集适用于视频分类、目标检测、视觉问答等多项任务，研究者可基于分帧实例标注构建时空定位模型，利用属性与关系数据开展对象状态追踪与交互推理，或借助活动与过程步骤标签训练过程感知的视觉语言系统。评测管线也已集成至仓库中，支持在统一基准下对比不同模型的组合视觉理解能力。

背景与挑战

背景概述

BARISTA数据集由Patrick Knab、Orgest Xhelili等研究者在2026年提出，基于鸡蛋咖啡制备这一日常活动，构建了一个密集标注的自我中心视频数据集。该数据集旨在统一评估视觉-语言模型在空间、时间、关系和程序理解等多维度的组合视觉推理能力，包含了采用胶囊机、手柄滤器和全自动咖啡机三种制备方式的185段高质量自我中心视频（约4.4小时），由iPhone、Apple Vision Pro及多款智能眼镜等多种设备录制。BARISTA在自我中心视觉和跨模态理解研究中填补了精细交互与长程程序建模的空白，为探索具身AI在日常场景中的认知与推理能力提供了标准化基准。

当前挑战

BARISTA数据集所应对的核心领域挑战在于：现有视觉-语言基准多局限于单模态或简单静态场景，难以评估模型对动态人-物交互、长程活动顺序和组合式语义关系的理解能力，BARISTA通过统一标注物体属性、关系、细粒度动作及程序步骤，迫使模型在真实连续视频中同步推理多层次语义。其构建过程亦面临挑战：需在自然操作场景中精准标注物体随时间演变的属性（如颜色、状态）、物体间的空间与动作关系，同时确保跨视角、跨设备录制的视频在分割和追踪上的连贯性，这对标注体系的完备性和一致性提出了极高要求。

常用场景

经典使用场景

BARISTA数据集专为第一人称视角下的细粒度视觉理解任务而构建，其经典使用场景涵盖视频分类、目标检测与视觉问答，特别适合需要同时建模空间、时序、关系和过程理解的复合型任务。例如，研究者可利用该数据集训练模型识别咖啡制作中的具体动作（如研磨咖啡豆、提取浓缩液），检测交互对象（如咖啡杯、手柄），并回答关于步骤顺序或物体状态的细粒度问题。数据集中185段高分辨率自我中心视频，配合COCO格式的逐帧实例标注、属性、关系及活动分段，为评估视觉-语言模型在操作类场景中的多任务能力提供了统一基准。通过设计需要综合解析物体识别、动作推理与事件因果关系的挑战，BARISTA成为探索第一人称视频中组合式视觉语义理解的理想试验场。

实际应用

BARISTA的实际应用聚焦于增强现实、智能助手与机器人操作指导等前沿领域。在增强现实场景中，例如使用Apple Vision Pro或智能眼镜录制的视频，该数据集可训练模型实时识别用户操作步骤（如咖啡机选择模式），并通过叠加视觉提示提供分步指导。在智能助手方面，它支持开发能够理解第一人称视频并回答过程性问题的系统，例如“当前是否已完成加水步骤？”或“下一步该做什么？”。对于机器人领域，BARISTA中丰富的手部交互标注可用于学习观察人类演示后的动作泛化能力，使机器人能模仿制作流程，或在不确定环境中通过语言指令进行适应调整。这些应用均依赖于数据集提供的细粒度时空关系与过程结构。

衍生相关工作

BARISTA衍生出了多项经典相关工作，包括多任务视觉-语言基准测试框架、自我中心视频中的关系解析方法以及操作步骤分割与识别模型。基于其提供的统一标注体系，研究者发展了专门评估组合式理解的指标，例如任务间的交叉一致性评分。该数据集还促进了将时空图神经网络与语言模型结合的工作，以动态建模人-物-物三元关系，并推动了面向第一人称视频的过程级因果推理研究。此外，BARISTA中被扩展的COCO标注格式启发了后续针对操作流程的细粒度属性预测工作，如物体状态演变检测（“杯满”到“杯空”）。在模型层面，相关工作利用其活动分段和属性标注，改进了视频到文本序列的生成质量，特别是在需要保持事件顺序逻辑的任务中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集