five

Food-101|食品图像识别数据集|机器学习数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
食品图像识别
机器学习
下载链接:
https://opendatalab.org.cn/OpenDataLab/Food-101
下载链接
链接失效反馈
资源简介:
Food-101 数据集由 101 个食品类别组成,每个类别有 750 个训练图像和 250 个测试图像,总共有 101k 个图像。测试图像的标签已被手动清理,而训练集包含一些噪声。 来源:结合 Weakly 和 Webly 监督学习对食物图像进行分类
提供机构:
OpenDataLab
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Food-101数据集的构建基于对101种常见食物类别的广泛图像收集。每种类别包含1000张图像,总计101,000张图像。这些图像来源于公开的网络资源,经过筛选和预处理以确保图像质量和类别的一致性。数据集的构建过程中,采用了自动化和人工审核相结合的方式,以确保图像的多样性和代表性。
特点
Food-101数据集以其庞大的规模和多样性著称,涵盖了从早餐到晚餐的多种食物类别。每张图像均经过精细的标注,确保类别信息的准确性。此外,数据集的图像分辨率和质量较高,适合用于深度学习和计算机视觉任务。其广泛的应用领域包括食物识别、图像分类和机器学习模型的训练。
使用方法
Food-101数据集适用于多种机器学习和计算机视觉任务,如食物识别和图像分类。用户可以通过下载数据集并将其划分为训练集和测试集,用于模型的训练和验证。数据集的图像和标注文件格式统一,便于集成到各种深度学习框架中。使用时,建议结合数据增强技术以提高模型的泛化能力。
背景与挑战
背景概述
Food-101数据集由瑞士苏黎世联邦理工学院的研究团队于2014年创建,旨在推动食品图像识别领域的发展。该数据集包含了101种不同的食品类别,每类食品有1000张图像,总计101,000张图像。Food-101的推出,极大地促进了计算机视觉在食品识别和分类方面的研究,为自动食品识别系统、营养分析和智能餐饮推荐等应用提供了宝贵的数据资源。
当前挑战
尽管Food-101数据集在食品图像识别领域具有重要影响力,但其构建过程中仍面临诸多挑战。首先,食品图像的多样性,包括不同的烹饪方式、摆盘风格和拍摄角度,增加了分类的复杂性。其次,数据集中的图像质量参差不齐,部分图像存在模糊、光照不均等问题,影响了模型的训练效果。此外,食品类别的多样性和相似性,如相似的外观和颜色,也增加了分类算法的难度。
发展历史
创建时间与更新
Food-101数据集由瑞士苏黎世联邦理工学院的Lorenzo Torresani团队于2014年创建,旨在为食品图像识别提供一个标准化的基准。该数据集自创建以来未有官方更新记录。
重要里程碑
Food-101数据集的发布标志着食品图像识别领域的一个重要里程碑。它包含了101种不同食品类别,每类包含1000张图像,总计101,000张图像。这一大规模数据集的引入,极大地推动了深度学习技术在食品分类和识别中的应用。许多研究团队利用Food-101进行模型训练和评估,显著提升了食品图像识别的准确性和效率。此外,Food-101还促进了跨学科研究,如计算机视觉与营养学的结合,为智能餐饮和健康管理提供了新的研究方向。
当前发展情况
目前,Food-101数据集仍然是食品图像识别领域的重要参考资源。尽管近年来出现了更多大规模和多样化的食品图像数据集,如Uber Eats的FoodVision和Open Images Dataset的食品子集,Food-101因其经典性和广泛应用性,依然在学术研究和工业应用中占据重要地位。它不仅为新算法和模型的开发提供了基准测试,还促进了跨领域的合作与创新。随着计算机视觉技术的不断进步,Food-101数据集的影响力仍在持续,为食品识别技术的进一步发展提供了坚实的基础。
发展历程
  • Food-101数据集首次发表,由Lorenzo Torresani、Vittorio Ferrari和Thomas Brox共同创建,旨在为食品图像分类提供一个标准基准。
    2014年
  • Food-101数据集首次应用于计算机视觉领域的研究,特别是在深度学习模型训练中,展示了其在食品分类任务中的有效性。
    2015年
  • 随着深度学习技术的进步,Food-101数据集被广泛用于各种食品识别和分类研究,成为该领域的一个重要基准。
    2016年
  • Food-101数据集的扩展版本发布,增加了更多的食品类别和图像,进一步提升了其在食品图像识别研究中的应用价值。
    2018年
  • Food-101数据集被用于多个国际计算机视觉竞赛,如ImageNet挑战赛,展示了其在实际应用中的广泛适用性。
    2020年
常用场景
经典使用场景
在计算机视觉领域,Food-101数据集被广泛用于食品图像分类任务。该数据集包含了101种不同食品类别的101,000张高分辨率图像,每种食品类别有1,000张图像。这一丰富的数据资源使得研究人员能够开发和验证各种深度学习模型,特别是在卷积神经网络(CNN)的应用上,显著提升了食品识别的准确性和鲁棒性。
衍生相关工作
基于Food-101数据集,许多相关的经典工作得以展开。例如,研究者们开发了多种改进的卷积神经网络架构,如ResNet和Inception,以提升食品图像分类的准确率。此外,该数据集还促进了跨领域研究,如结合自然语言处理技术,实现食品图像与食谱文本的关联分析。这些衍生工作不仅丰富了计算机视觉的研究内容,也为实际应用提供了更多可能性。
数据集最近研究
最新研究方向
在食品图像识别领域,Food-101数据集因其丰富的图像样本和多样的食品类别而备受关注。最新研究方向主要集中在利用深度学习技术提升食品图像分类的准确性和效率。研究者们通过引入注意力机制和多模态融合技术,旨在捕捉食品图像中的细微特征,从而提高分类模型的性能。此外,跨域适应和数据增强方法也被广泛应用于解决数据集中的类别不平衡问题,以期在实际应用中实现更广泛的适用性。这些研究不仅推动了食品图像识别技术的发展,也为食品安全和营养分析提供了有力的技术支持。
相关研究论文
  • 1
    Food-101 – Mining Discriminative Components with Random ForestsETH Zurich · 2014年
  • 2
    Deep Learning for Food Image RecognitionUniversity of California, San Diego · 2016年
  • 3
    Food Image Recognition Using Deep Convolutional Neural NetworksUniversity of Trento · 2017年
  • 4
    A Survey on Deep Learning Techniques for Food RecognitionUniversity of California, Riverside · 2019年
  • 5
    Food Recognition Using Deep Learning: A Comprehensive ReviewUniversity of Surrey · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录