five

FoodNExTDB

收藏
github2025-04-30 更新2025-05-10 收录
下载链接:
https://github.com/AI4Food/FoodNExtDB
下载链接
链接失效反馈
官方服务:
资源简介:
FoodNExTDB是一个新的专家标记的食物图像数据库,旨在评估视觉语言模型在自动饮食评估任务中的能力。该数据集包含来自100名超重和肥胖参与者的9,263张食物图像,涵盖10个高级食物类别、62个细粒度子类别和9种烹饪风格,并有超过50,000个专家生成的注释。

FoodNExTDB is a novel expert-annotated food image database designed to evaluate the capabilities of vision-language models in automatic dietary assessment tasks. This dataset includes 9,263 food images from 100 overweight and obese participants, covering 10 high-level food categories, 62 fine-grained subcategories and 9 cooking styles, as well as over 50,000 expert-generated annotations.
创建时间:
2025-04-10
原始信息汇总

FoodNExTDB 数据集概述

数据集基本信息

数据集内容

  • 图像数量: 9,263张食物图像
  • 采集方式: 来自100名超重/肥胖参与者14天的数字干预记录
  • 食物分类:
    • 10个高级食物类别
    • 62个细粒度子类别
    • 9种烹饪方式
  • 标注信息: 超过50,000条专家生成的标注,经7位营养专家验证

数据结构

  • 图像命名格式: A4F_XXXXX_YYYY.jpg
    • A4F_XXXXX: 匿名参与者ID
    • YYYY: 图像编号
  • 配套文件:
    • A4F_XXXXX_timestamps.csv: 包含图像拍摄时间戳
    • A4F_XXXXX_labeled_data.csv: 包含食物语义标注

时间戳文件说明

  • id: 图像ID
  • timestamp: 照片时间戳(格式: YYYY-MM-DD HH:MM:SS+Z)
  • original_timestamp_validity: 布尔值,表示时间戳是否反映实际拍摄时间

标注文件说明

  • id: 图像ID
  • id_labeler: 标注者ID
  • category: 主要食物类别
  • subcategory: 特定食物子类别
  • cooking_style: 烹饪/准备方法

评估指标

  • 专家加权召回率(EWR): 评估视觉语言模型(VLMs)与专家标注的匹配程度,考虑标注者间差异

数据示例

引用格式

bibtex @inproceedings{romerotapiador2025foodnextdb, title = {Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition}, author = {Sergio Romero-Tapiador and Ruben Tolosana and Blanca Lacruz-Pleguezuelos and Laura Judith Marcos-Zambrano and Guadalupe X. Bazán and Isabel Espinosa-Salinas and Julian Fierrez and Javier Ortega-Garcia and Enrique Carrillo de Santa Pau and Aythami Morales}, booktitle = {In Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition workshops}, year = {2025} }

联系方式

  • 邮箱: sergio.romero@uam.es
搜集汇总
数据集介绍
main_image_url
构建方式
FoodNExTDB数据集的构建基于AI4FoodDB这一多模态数据库,后者源自一项为期一个月的随机对照试验,涉及100名超重或肥胖参与者。数据采集过程中,每位参与者在14天内通过专用网络平台上传饮食图片,最终形成包含9,263张食物图像的数据集。每张图像均经过七位营养学专家的标注,涵盖10个高级食物类别、62个细分子类别及9种烹饪方式,确保了数据的专业性和多样性。数据集采用匿名化处理,图像命名规则和配套的时间戳、标签文件为后续分析提供了结构化支持。
使用方法
使用FoodNExTDB时需遵循其层级化数据结构,参与者文件夹包含图像文件及配套的CSV标注文件。图像命名采用A4F_XXXXX_YYYY.jpg格式,对应的时间戳文件记录拍摄时间信息,标签文件则详细标注食物类别、子类别和烹饪方式。研究人员可通过解析这些结构化文件构建饮食识别模型,利用EWR指标评估模型性能。示例文件夹提供了标准数据格式参考,原始数据需结合AI4FoodDB的试验设计背景进行跨模态分析。数据集特别适合验证视觉语言模型在细粒度食物识别任务中的表现。
背景与挑战
背景概述
FoodNExTDB是由AI4Food研究团队开发的新型专家标注食品图像数据库,旨在评估视觉语言模型在自动饮食评估任务中的性能。该数据集源自AI4FoodDB,后者是一项为期一个月的随机对照试验的成果,涉及100名超重和肥胖参与者。FoodNExTDB包含9,263张食品图像,涵盖10个高级食品类别、62个细粒度子类别和9种烹饪方式,并附有50,000余条由营养专家验证的标注。该数据集于2025年由Sergio Romero-Tapiador等人在CVPR研讨会上首次提出,为饮食健康监测和个性化营养干预提供了重要的研究基础。
当前挑战
FoodNExTDB面临的挑战主要体现在两个方面:在领域问题方面,食品图像识别需解决多粒度语义分类的难题,包括食品类别、子类别和烹饪方式的准确区分;在构建过程中,数据采集面临参与者饮食记录的真实性验证问题,且专家标注过程需处理大量主观性较强的食品描述,导致标注一致性难以保证。此外,跨文化食品差异和光照条件变化等因素也为数据集的构建增加了复杂性。
常用场景
经典使用场景
FoodNExTDB数据集在计算机视觉与营养学交叉领域具有重要价值,其经典使用场景聚焦于评估视觉语言模型(VLMs)在食物图像识别任务中的性能。该数据集通过提供多层次语义标注(包括食物类别、子类别及烹饪方式),为研究者构建了一个标准化测试平台,特别适合用于验证模型在复杂饮食场景下的细粒度识别能力。西班牙及地中海饮食文化的代表性样本,进一步增强了其在跨文化饮食研究中的适用性。
解决学术问题
该数据集有效解决了营养学研究中自动化饮食评估的核心挑战。通过9263张专家标注图像及5万余条注释,为学术界提供了研究食物识别模型可解释性的基准数据。其引入的专家加权召回率(EWR)指标创新性地量化了模型预测与营养专家标注的一致性,弥补了传统评估方法忽视标注者间差异的缺陷,为建立可靠的AI辅助营养评估体系提供了方法论支撑。
实际应用
在实际应用层面,FoodNExTDB可直接支持个性化健康管理系统的开发。基于时间戳的饮食模式分析功能,使该数据集能用于构建实时膳食监测平台,特别适合肥胖症等慢性病患者的营养干预。医疗机构可利用其标注体系训练智能诊断工具,而食品科技公司则可基于烹饪风格识别数据优化健康食谱推荐算法。
数据集最近研究
最新研究方向
随着人工智能在健康管理领域的深入应用,FoodNExTDB数据集为食品图像识别和膳食评估研究开辟了新的前沿。该数据集聚焦于评估视觉语言模型(VLMs)在多层次语义识别上的表现,包括食品类别、子类别及烹饪方式,为个性化营养干预提供了数据支持。其引入的专家加权召回率(EWR)指标,通过量化模型预测与专家标注的一致性,为模型性能评估提供了更精细的度量标准。这一研究方向的兴起与全球肥胖问题日益严峻及健康饮食需求增长密切相关,其成果有望推动AI在精准营养学和慢性病预防领域的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作