MyFoodRepo-273
收藏arXiv2021-06-30 更新2024-06-21 收录
下载链接:
https://www.aicrowd.com/challenges/food-recognition-challenge/dataset_files
下载链接
链接失效反馈官方服务:
资源简介:
MyFoodRepo-273数据集是由AIcrowd Research创建,旨在通过深度学习技术识别图像中的食物。该数据集包含24,119张图像,总计39,325个分割多边形,分为273个不同的食物类别。数据集的创建过程涉及使用MyFoodRepo移动应用收集公开的食物图像,并通过专业标注人员进行手动评估和修正。该数据集主要应用于个性化营养研究,特别是在医疗群体中进行营养跟踪,以解决与饮食相关的健康问题。
The MyFoodRepo-273 dataset was developed by AIcrowd Research, with the goal of identifying food items in images using deep learning technologies. This dataset comprises 24,119 images and a total of 39,325 segmentation polygons, which are classified into 273 distinct food categories. The creation process of the dataset involved collecting publicly available food images via the MyFoodRepo mobile application, followed by manual evaluation and correction performed by professional annotators. This dataset is primarily utilized in personalized nutrition research, especially for nutrition tracking among medical populations to address diet-related health problems.
提供机构:
AIcrowd Research, AIcrowd
创建时间:
2021-06-29
搜集汇总
数据集介绍

构建方式
在食品图像识别领域,MyFoodRepo-273数据集的构建体现了众包与算法辅助的协同机制。该数据集源自MyFoodRepo移动应用用户于2018年7月至2020年6月期间上传的日常饮食图像,共包含24,119张图像及39,325个多边形分割标注,涵盖273个食品类别。构建过程采用算法初步执行实例分割与类别预测,随后由经过专业训练的人工标注员通过Web界面进行质量校验与修正,确保标注的精确性。这种算法与人工交互的迭代流程不仅提升了标注效率,也为模型训练提供了高质量的真实世界图像数据。
特点
MyFoodRepo-273数据集的核心特点在于其真实性与多样性。图像来源于医疗队列参与者的日常饮食记录,避免了人为视觉筛选偏差,从而更贴近实际应用场景。数据集中每类食品至少包含35个标注,确保了类别覆盖的均衡性;图像分辨率跨度广泛,从183x183至超过4000x4000,反映了移动设备拍摄的自然变异。此外,数据标注采用实例分割形式,提供精确的多边形掩码,支持细粒度的食品识别与定位研究,为个性化营养与健康监测提供了可靠的数据基础。
使用方法
该数据集主要应用于食品图像识别与实例分割任务,支持深度学习模型的训练与评估。研究人员可通过公开数据链接获取训练集,包含图像及对应标注文件,用于构建分类、检测与分割模型。数据使用需遵循CC-BY-4.0许可协议,鼓励开放算法开发。在模型评估方面,基准测试采用私有测试集,以平均精度与平均召回率为指标,确保模型在真实场景中的泛化能力。数据集还可用于探索食品共现分析、类别间相似性研究,以及个性化营养推荐系统的开发。
背景与挑战
背景概述
随着全球饮食相关健康问题的日益凸显,精准营养监测成为公共卫生与个性化医疗领域的关键议题。传统膳食摄入评估方法如问卷调查存在主观偏差与操作繁琐的局限,而基于图像识别的自动食物分析技术因其便捷性展现出巨大潜力。在此背景下,由AIcrowd、EPFL数字流行病学实验室及雀巢研究中心等机构联合创建的MyFoodRepo-273数据集应运而生,于2021年正式发布。该数据集通过MyFoodRepo移动应用收集了24,119张真实场景食物图像,包含39,325个精细分割实例,涵盖273个食物类别,旨在推动开放、可复现的食物实例分割算法研发,为营养追踪、慢性病防控及个性化膳食推荐提供可靠的数据基础。
当前挑战
MyFoodRepo-273数据集所应对的核心领域挑战在于复杂场景下的多类别食物实例分割与识别。真实环境中的食物图像常呈现多样背景、光照不均、食物重叠及形态各异等复杂性,要求模型具备鲁棒的特征提取与精确边界划分能力。数据构建过程中亦面临多重困难:一是高质量标注依赖专业注释者与算法协同工作,需平衡效率与准确性;二是类别体系需动态扩展以适应实际饮食多样性,初始基于瑞士国民营养调查的分类框架在实践中不断补充;三是数据隐私与开放性需协调,部分图像因用户隐私设置未公开,可能影响训练数据的全面性。此外,类别间视觉相似性高(如不同茶饮)导致分类混淆,进一步加剧模型优化难度。
常用场景
经典使用场景
在营养流行病学与个性化健康管理领域,MyFoodRepo-273数据集为食物图像识别研究提供了关键支持。该数据集通过众包方式收集了来自真实生活场景的24,119张图像,涵盖273类食物,并附有39,325个精细的实例分割标注。其经典应用场景在于训练和评估深度学习模型,特别是实例分割算法如Mask R-CNN与Hybrid Task Cascade,以实现在复杂餐饮环境中对多类别、多形态食物的精准识别与分割。这一过程不仅推动了计算机视觉技术在食物分析中的前沿探索,也为后续的营养成分自动估算奠定了算法基础。
解决学术问题
MyFoodRepo-273数据集有效应对了食物图像识别领域长期存在的若干学术挑战。传统食物数据集往往在受控环境下采集,难以反映真实餐饮场景的多样性;而该数据集源自用户日常拍摄,涵盖了光照、角度、背景及食物组合的高度异质性,从而提升了模型的泛化能力。它显著解决了大规模细粒度食物分类与实例分割的难题,通过提供高质量标注,支持研究者开发能够同时处理食物定位、分割与分类的端到端系统。此外,数据集还促进了公开基准测试的建立,为算法性能提供了标准化评估框架,推动了该领域研究的可重复性与可比性。
衍生相关工作
围绕MyFoodRepo-273数据集,已衍生出一系列具有影响力的研究工作与算法改进。在基准测试的多次迭代中,参赛团队探索了多种先进的实例分割架构,如Cascade R-CNN、DetectoRS等,并针对食物图像特点进行了数据增强、模型集成等优化。相关研究进一步探讨了多尺度训练、损失函数加权以及测试时增强等策略对提升模型性能的作用。这些工作不仅显著提高了食物识别的平均精度与召回率,也为更广泛的细粒度视觉识别任务提供了技术借鉴。同时,数据集的开放性与持续扩展机制激励了全球研究社区的协作,催生了更多关于食物体积估计、跨文化食物适应性识别等延伸课题的探索。
以上内容由遇见数据集搜集并总结生成



