BenchSeg

Name: BenchSeg
Creator: 巴塞罗那大学·数学与信息学系; 庞培法布拉大学·工程系; 巴塞罗那大学·神经科学研究所; 慕尼黑工业大学·摄影测量与遥感系
Published: 2026-01-12 22:32:51
License: 暂无描述

arXiv2026-01-12 更新2026-01-14 收录

下载链接：

https://amughrabi.github.io/benchseg

下载链接

链接失效反馈

官方服务：

资源简介：

BenchSeg是由巴塞罗那大学等机构联合构建的大规模多视角食品视频分割基准数据集，包含来自Nutrition5k、FoodKit等公开数据集的55道菜肴场景，共计25,284帧人工标注图像。该数据集通过自由运动的半球形覆盖视频序列，捕捉360°相机轨迹下的食物形态，为评估模型在跨视角场景下的泛化能力提供严格标准。数据经过多轮双盲验证和迭代标注流程优化，主要应用于膳食评估领域，旨在解决现有方法在新视角下分割性能骤降的问题，推动视频记忆增强模型在饮食分析中的发展。

BenchSeg is a large-scale multi-view food video segmentation benchmark dataset jointly constructed by the University of Barcelona and other institutions. It encompasses 55 dish scenarios sourced from public datasets including Nutrition5k and FoodKit, with a total of 25,284 manually annotated image frames. The dataset captures food morphology across 360° camera trajectories using freely movable hemispherical coverage video sequences, serving as a rigorous benchmark for evaluating the generalization performance of models in cross-view scenarios. Optimized through multiple rounds of double-blind validation and iterative annotation procedures, it is mainly applied in the field of dietary assessment. Its core goals are to solve the problem that existing methods suffer from sharp degradation of segmentation performance under novel viewpoints, and to advance the development of video memory-augmented models in dietary analysis.

提供机构：

巴塞罗那大学·数学与信息学系; 庞培法布拉大学·工程系; 巴塞罗那大学·神经科学研究所; 慕尼黑工业大学·摄影测量与遥感系

创建时间：

2026-01-12

原始信息汇总

BenchSeg 数据集概述

数据集基本信息

数据集名称：BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation
主要贡献者：Ahmad AlMughrabi, Guillermo Rivo, Carlos Jiménez-Farfán, Umair Haroon, Farid Al-Areqi, Hyunjun Jung, Benjamin Busam, Ricardo Marques, Petia Radeva
机构：Universitat de Barcelona, Technical University of Munich

数据集内容与规模

数据来源：聚合了来自Nutrition5k, Vegetables & Fruits, MetaFood3D, 和 FoodKit的55个菜肴场景。
数据规模：包含25,284帧经过精细标注的帧。
数据采集方式：在自由360°相机运动下捕捉每个菜肴。

研究目的与任务

核心任务：多视角食物视频分割，用于饮食分析，以实现食物体积和营养的准确估计。
解决的问题：当前方法存在多视角数据有限以及对新视角泛化能力差的问题。

评估与基准

评估数据集：在现有FoodSeg103数据集上评估了20种最先进的分割模型（例如，基于SAM的、Transformer、CNN和大型多模态模型）。
评估场景：在BenchSeg数据集上评估了这些模型（单独及与视频记忆模块结合）。
主要发现：标准图像分割器在新视角下性能急剧下降，而记忆增强方法能在帧间保持时间一致性。
性能提升：最佳模型组合优于先前工作（例如，在BenchSeg上mAP提升约2.5%）。

引用信息

bibtex @article{almughrabi2026BenchSeg, title={BenchSeg: BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation}, author={Guillermo Rivo, Carlos Jiménez-Farfán, Umair Haroon, Farid Al-Areqi, Hyunjun Jung, Benjamin Busam, Ricardo Marques, Petia Radeva}, journal={arXiv preprint 2601.07581}, year={2026} }

搜集汇总

数据集介绍

构建方式

在食品视觉分析领域，多视角视频分割对于精确膳食评估至关重要。BenchSeg数据集通过整合四个公开数据集——Nutrition5k、FoodKit、MetaFood3D和Vegetables & Fruits——构建而成，涵盖了55道菜肴场景，总计25,284帧经过精细手工标注的图像。数据采集过程模拟了自由运动的半球覆盖相机轨迹，确保每个菜肴在360度相机运动下被完整捕捉，从而为模型提供了丰富的视角变化和真实的饮食记录场景。

特点

BenchSeg数据集以其大规模、多源性和严格的评估设计脱颖而出。它不仅提供了密集的每帧食物掩码标注，还特别强调了自由运动相机轨迹下的视角多样性，能够有效检验模型在未知相机位姿下的泛化能力。数据集的异质性体现在图像分辨率、物体尺寸分布和背景变化的显著差异上，这种结构性多样性为评估分割模型在真实场景中的鲁棒性提供了严谨的测试环境。

使用方法

该数据集主要用于评估食品视频分割模型的跨数据集泛化能力和时间一致性。研究人员通常在FoodSeg103数据集上训练模型，随后在BenchSeg的四个子集上进行测试，以衡量模型在陌生视角和运动模式下的表现。评估指标包括mAP、Recall、Precision、F1、IoU和Accuracy，全面反映分割质量。此外，数据集支持对纯图像分割器与结合了时间传播模块的混合系统进行系统比较，为膳食评估工作流的模型选择提供实证依据。

背景与挑战

背景概述

在自动化饮食评估系统中，食物图像分割是准确估算食物体积与营养成分的关键环节。然而，现有方法常受限于多视角数据的匮乏以及对新视角泛化能力的不足。为此，由巴塞罗那大学、庞培法布拉大学及慕尼黑工业大学等机构的研究人员于2026年联合推出了BenchSeg数据集。该数据集汇集了来自Nutrition5k、FoodKit、MetaFood3D及Vegetables & Fruits四个公开数据集的55道菜肴场景，共包含25,284帧精细标注的图像，并首次提供了自由运动、半球覆盖的视频序列标注。BenchSeg的核心研究问题在于评估食物分割模型在多样化相机轨迹下的泛化能力与时间一致性，旨在推动面向实际饮食监测场景的鲁棒视频分割技术的发展，为相关领域提供了首个大规模、多视角的食物视频分割基准。

当前挑战

BenchSeg数据集所应对的核心领域挑战在于解决食物视频分割中的多视角泛化与时间一致性问题。具体而言，模型需在自由运动相机捕获的连续帧中，克服因视角剧烈变化（如透视缩短、部分遮挡、镜面高光）导致的掩码碎片化、闪烁及不完整等失效模式。在数据集构建过程中，挑战主要体现于数据整合与标注的一致性：需从四个异构数据源中筛选并统一格式，确保跨数据集的标注质量与标准一致；同时，针对自由运动视频序列进行密集的逐帧掩码标注，工作量大且需处理因相机运动、光照波动及运动模糊带来的标注困难，这要求制定迭代优化的标注准则并通过双重标注与资深标注员仲裁来保证最终标注的可靠性。

常用场景

经典使用场景

在计算机视觉与膳食评估领域，BenchSeg数据集为多视角食物视频分割任务提供了标准化的评估基准。该数据集通过整合来自Nutrition5k、FoodKit、MetaFood3D及Vegetables & Fruits等多个公开数据源的55道菜肴场景，涵盖25,284帧精细标注的图像，并模拟自由运动相机轨迹下的半球覆盖视角。其经典使用场景在于系统评估各类分割模型在多变视角与运动模式下的泛化能力，尤其适用于分析模型在未见相机姿态下的鲁棒性，为食物分割算法的横向比较与性能优化奠定了坚实基础。

衍生相关工作

BenchSeg数据集的发布催生了一系列围绕多视角食物视频分割的经典研究工作。基于其评估框架，研究者深入探索了混合分割-跟踪模型的性能边界，例如将SegMan、SeTR-MLA等强分割器与XMem2、SAM2等记忆或提示增强模块结合，显著提升了时间一致性与跨视角鲁棒性。这些衍生工作不仅验证了记忆传播机制在食物分割中的有效性，还系统比较了Transformer、CNN及大型多模态模型等不同架构的优劣。相关成果进一步推动了FoodMem等专为食物视频设计的端到端系统的发展，并为未来面向非受限用餐场景的高效、可扩展模型设计指明了方向。

数据集最近研究