DiningBench

github2026-04-14 更新2026-04-15 收录

下载链接：

https://github.com/meituan/DiningBench

下载链接

链接失效反馈

官方服务：

资源简介：

DiningBench是一个分层次、多视角的基准测试数据集，旨在评估视觉语言模型在三个认知复杂度级别上的表现：细粒度分类、营养估计和视觉问答。该数据集包含3,021个不同的菜品，每个菜品平均有5.27张图像，并包含来自同一菜单的细粒度“硬”负面样本和经过严格验证的营养数据。

DiningBench is a hierarchical, multi-view benchmark dataset designed to evaluate the performance of vision-language models across three levels of cognitive complexity: fine-grained classification, nutrition estimation, and visual question answering. This dataset contains 3,021 distinct dishes, each with an average of 5.27 images, and includes fine-grained "hard" negative samples from the same menu as well as strictly validated nutritional data.

创建时间：

2026-04-10

原始信息汇总

DiningBench 数据集概述

数据集基本信息

数据集名称: DiningBench
核心定位: 一个用于评估饮食领域视觉语言模型感知与推理能力的层次化、多视图基准。
发布机构: Meituan
相关论文: ArXiv: DiningBench
数据集访问: Hugging Face Datasets

数据集设计目标

旨在解决现有食品领域基准测试的局限性，包括依赖粗粒度类别、单视图图像和不准确的元数据。

数据集核心特征

数据规模: 包含 3,021 个不同的菜品。
数据视图: 每个菜品平均包含 5.27 张图像，支持多视图输入。
数据构造:
- 包含来自相同菜单的细粒度“困难”负样本。
- 包含经过严格验证的营养数据。

评估任务层级

数据集设计包含三个认知复杂度递增的评估层级：

细粒度分类
营养估计
视觉问答

评估范围与发现

评估模型: 对 29 个最先进的开源和专有模型进行了广泛评估。
主要发现:
- 当前视觉语言模型在通用推理方面表现出色。
- 在细粒度视觉辨别和精确营养推理方面存在显著困难。
系统性研究: 调查了多视图输入和思维链推理的影响，并识别了五种主要失败模式。

数据集意义

作为一个具有挑战性的测试平台，旨在推动下一代以食品为中心的视觉语言模型研究。

搜集汇总

数据集介绍

构建方式

在饮食领域视觉语言模型评估需求日益增长的背景下，DiningBench的构建采用了系统化的数据采集与验证流程。该数据集精心收集了3,021道独特菜肴，每道菜肴平均配备5.27张多视角图像，确保了视觉信息的丰富性与多样性。构建过程中特别引入了来自相同菜单的细粒度“困难”负样本，以增强模型区分细微视觉差异的能力。营养数据部分则通过严格的验证机制获取，保障了信息的准确性与可靠性，从而为模型评估提供了坚实的多层级基础。

特点

DiningBench的核心特点体现在其层次化结构与多维度评估框架上。数据集设计了三个渐进式的认知复杂度层级：细粒度分类、营养估计和视觉问答，全面覆盖了从感知到推理的完整能力谱系。其多视图图像配置突破了传统单视角饮食数据集的局限，为模型提供了更全面的视觉上下文。数据集内嵌的细粒度负样本与验证过的营养标签，共同构成了一个具有挑战性的测试平台，能够精准揭示模型在复杂饮食场景下的能力边界与失败模式。

使用方法

为便于研究者高效利用该数据集，DiningBench提供了模块化的评估脚本与清晰的使用流程。用户可通过配置Python虚拟环境并安装指定依赖来搭建基础运行环境。评估过程针对三个核心任务分别进行：细粒度分类、营养估计和视觉问答，每个任务均有独立的脚本支持推理与评估阶段。用户需提供模型API端点、密钥及测试数据路径等参数，并可灵活指定使用的图像索引以控制输入视图数量，从而实现对不同模型配置与多视图策略的系统化性能测评。

背景与挑战

背景概述

随着视觉语言模型在通用视觉理解任务上取得革命性进展，其在特定垂直领域如饮食场景的应用仍受限于现有基准的不足。DiningBench由美团研究团队于2024年提出，旨在构建一个层次化、多视角的评测基准，以系统评估模型在细粒度分类、营养估计和视觉问答三个认知层级上的性能。该数据集包含3021道独特菜品，每道菜品平均配备5.27张多角度图像，并引入来自同一菜单的细粒度负样本及经过严格验证的营养数据。DiningBench的建立为食品领域的视觉语言模型研究提供了更严谨、更具挑战性的评估框架，推动了领域向精细化、多模态理解方向发展。

当前挑战

在饮食感知与推理领域，现有基准常受限于粗粒度类别划分、单视角图像及不准确的元数据，难以全面评估模型的实际能力。DiningBench针对此问题，提出了三重核心挑战：在细粒度分类任务中，模型需区分视觉特征高度相似的同类菜品；营养估计任务要求模型从多视角图像中精确推断热量、蛋白质等数值，这对模型的跨模态推理能力构成严峻考验；视觉问答任务则需模型结合视觉信息与领域知识进行复杂推理。数据构建过程中，团队面临多视角图像采集对齐、营养数据权威性验证，以及设计具有区分力的细粒度负样本等工程与学术挑战。

常用场景

经典使用场景

在饮食领域的视觉语言模型研究中，DiningBench作为一个层次化多视图基准，其经典使用场景聚焦于评估模型在细粒度分类、营养估计和视觉问答三个认知层次上的综合性能。该数据集通过提供每道菜肴平均5.27张多角度图像，并引入来自相同菜单的“困难”负样本，使得研究者能够系统测试模型在复杂饮食场景下的视觉辨别与推理能力。这种多视图设计模拟了真实用餐环境中的观察多样性，为模型在细粒度视觉理解和跨模态推理方面提供了严谨的评估框架。

实际应用

在实际应用层面，DiningBench为智能餐饮服务、个性化营养管理和健康监测系统提供了关键的数据支撑。基于该数据集训练的模型能够更准确地识别菜肴成分、估算热量与营养成分，并回答用户关于食物的各类疑问。例如，在移动健康应用中，它可辅助用户进行饮食记录与营养分析；在餐饮行业，则能支持智能点餐推荐与菜品质量管控。这些应用不仅提升了用户体验，也为公共卫生和健康管理带来了切实的技术赋能。

衍生相关工作

围绕DiningBench，已衍生出一系列重要的相关研究工作。该数据集的发布促使研究者深入探索多视图输入对模型性能的影响，以及思维链推理在饮食领域的适用性。基于其识别出的五大主要失败模式，后续研究开始设计针对性的架构改进与训练策略，例如增强细粒度特征提取模块或融入领域知识图谱。这些工作共同推动了饮食专用视觉语言模型的技术演进，并为跨模态理解在垂直领域的应用奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集