raw-food-recognition

Hugging Face2025-12-12 更新2025-12-13 收录

食物识别

图像识别

数据链接：

https://huggingface.co/datasets/ibrahimdaud/raw-food-recognition 数据链接链接失效反馈

官方服务：

资源简介：

该数据集是三个公开可用的食物识别数据集的综合汇编，经过合并和整理，用于生鲜食品识别任务。数据集包含各种生鲜食品的图像，包括水果、蔬菜、乳制品和饮料，旨在用于教育目的和图像识别模型的开发。数据集包含90多个食品类别，约15,000张图像，按照80/20的比例分为训练集和验证集。图像格式为JPEG/PNG，分辨率可变（通常为224x224或更高）。数据集通过合并三个来源的数据集（Food and Vegetables Dataset、Fruit and Vegetable Image Recognition Dataset和Grocery Store Dataset）创建，并经过数据收集、标签标准化、去重、类别整合和分层分割等处理步骤。

This dataset is a comprehensive compilation of three publicly available food recognition datasets, merged and curated for fresh produce recognition tasks. It contains images of various fresh foods including fruits, vegetables, dairy products and beverages, and is intended for educational purposes and the development of image recognition models. The dataset includes more than 90 food categories, approximately 15,000 images, and is split into training and validation sets with an 80/20 ratio. The images are in JPEG/PNG formats, with variable resolutions (typically 224x224 or higher). The dataset is created by merging three source datasets: Food and Vegetables Dataset, Fruit and Vegetable Image Recognition Dataset and Grocery Store Dataset, and has undergone processing steps including data collection, label standardization, deduplication, category consolidation and stratified splitting.

创建时间：

2025-12-05

原始信息汇总

Merged Raw Food Recognition Dataset 概述

数据集描述

本数据集是三个公开可用的食物识别数据集的综合汇编，经过合并和整理，用于生鲜食物识别任务。数据集包含各种生鲜食物项目的图像，包括水果、蔬菜、乳制品和饮料，旨在用于教育目的和图像识别模型的开发。

数据集统计

总类别数：90+ 种食物类别
总图像数：约 15,000+ 张图像
训练/验证集划分：80/20 比例
图像格式：JPEG/PNG
图像分辨率：可变（通常为 224x224 或更高）

数据集结构

数据集按训练和验证划分进行组织：

训练集：80% 的数据（约 12,000 张图像）
验证集：20% 的数据（约 3,000 张图像）

每个样本包含：

image：食物项目的 PIL 图像对象
label：表示食物类别的字符串标签（例如 "apple"、"banana"、"carrot"）
label_id：与标签对应的整数 ID（0 到 num_classes-1）

源数据集

此合并数据集结合了以下三个来源的图像：

Food and Vegetables Dataset
- 来源：https://huggingface.co/datasets/SunnyAgarwal4274/Food_and_Vegetables
- 描述：用于分类任务的食物和蔬菜图像集合
Fruit and Vegetable Image Recognition Dataset
- 来源：https://huggingface.co/datasets/Nattakarn/fruit-and-vegetable-image-recognition
- 描述：专注于水果和蔬菜识别的数据集
Grocery Store Dataset
- 来源：https://www.kaggle.com/datasets/validmodel/grocery-store-dataset/data
- 描述：包含各种食品项目的综合杂货店产品数据集

合并过程

数据集采用以下方法合并：

数据收集
标签标准化
去重
类别整合
分层划分
格式转换

食物类别

数据集包含以下类别（示例）：

水果：苹果、香蕉、橙子、草莓、葡萄、芒果、猕猴桃、西瓜等
蔬菜：胡萝卜、番茄、土豆、洋葱、西兰花、花椰菜、菠菜等
乳制品：牛奶、酸奶（各种口味）、酸奶油等
饮料：苹果汁、橙汁、葡萄柚汁、豆奶、燕麦奶等
特色物品：各种葫芦（葫芦、苦瓜、棱角丝瓜）、异国水果（火龙果、百香果）等

使用方式

数据集可通过 Hugging Face datasets 库加载，并提供了与 PyTorch 和 TensorFlow/Keras 框架结合使用的示例代码。

数据集特征

多样性：来自多个来源的图像确保了光照、背景和图像质量的多样性
类别平衡：分层划分保持了训练/验证集中的类别分布
真实世界可变性：包含食物外观、成熟度和呈现方式的自然变化
教育重点：专门为学习和研究目的而策划
Parquet 格式：数据以 Parquet 格式存储，以实现高效存储和快速加载

限制与注意事项

类别不平衡：某些食物类别的样本可能多于其他类别
图像质量：图像来自不同来源，质量和分辨率各异
标签变体：某些食品项目保留了多个标签变体（例如 "yogurt" 与 "yoghurt"）以维持数据集多样性
教育目的：本数据集仅用于教育用途

许可

本数据集仅用于教育目的。请参考原始源数据集以了解其各自的许可和使用条款。

更新

2024年：初始版本，包含 90+ 种食物类别，并以 Parquet 格式提供 80/20 的训练/验证集划分

搜集汇总

数据集介绍

构建方式

在食品图像识别领域，构建高质量的数据集是推动计算机视觉应用发展的关键。本数据集通过整合三个公开可用的食品识别数据集，采用系统化的合并流程构建而成。首先从不同来源收集图像数据，随后进行标签标准化处理，确保类别名称的一致性。通过去重操作消除重复样本，并对相似食品类别进行合并归类。最终采用分层抽样方法，按照80:20的比例划分训练集与验证集，同时保持各类别的分布均衡。所有图像均转换为统一的Parquet格式，便于高效存储与访问。

使用方法

该数据集适用于图像分类任务的模型开发与教育研究。用户可通过HuggingFace的datasets库直接加载，便捷获取训练集与验证集。每个样本包含图像对象、文本标签及对应的整数标识符。为适配深度学习框架，数据集支持灵活的数据转换操作，例如在PyTorch中可定义包含尺寸调整、张量转换及标准化的处理流程，并通过with_transform方法应用。同时，数据集也提供TensorFlow格式的转换接口，能够直接生成适用于Keras模型的批量数据加载器，满足不同技术栈的开发需求。

背景与挑战

背景概述

在计算机视觉与食品科学交叉领域，生鲜食品识别作为一项基础任务，对于智能零售、营养分析和教育应用具有重要意义。raw-food-recognition数据集于2024年发布，由多个公开数据集整合而成，涵盖水果、蔬菜、乳制品及饮料等90余个类别，包含约1.5万张图像。该数据集由匿名研究者或机构构建，旨在为教育目的提供标准化的图像识别资源，推动食品分类模型在真实场景中的泛化能力研究，并为相关算法开发提供多样化的视觉数据支撑。

当前挑战

该数据集致力于解决生鲜食品图像分类中的关键挑战，包括类内外观差异大、光照与背景干扰多以及细粒度类别区分困难等问题。在构建过程中，面临多重挑战：首先，整合来自不同来源的数据需进行标签标准化与去重处理，以保持类别一致性；其次，原始图像质量参差不齐，分辨率各异，影响模型训练效果；此外，部分类别样本数量不均衡，可能导致模型偏见。这些因素共同构成了数据集在实用性与鲁棒性方面的核心挑战。

常用场景

经典使用场景

在计算机视觉与食品识别领域，raw-food-recognition数据集为图像分类任务提供了丰富的原始食材视觉资料。该数据集整合了多个公开来源，涵盖水果、蔬菜、乳制品及饮料等90余类食材，约15000张图像，并以80/20比例划分训练与验证集。其经典应用场景在于支持卷积神经网络等模型的训练与评估，特别是在食材识别、分类精度提升以及模型泛化能力测试方面，为研究者提供了一个标准化且多样化的基准测试平台。

解决学术问题

该数据集有效应对了食品识别研究中常见的挑战，如类别多样性不足、图像质量参差不齐以及真实场景变异性的模拟问题。通过合并并标准化多个来源的数据，它促进了跨数据集泛化能力的研究，助力解决细粒度分类、少样本学习以及数据增强策略的验证等学术问题。其意义在于推动了食品计算视觉领域的标准化进程，为教育及科研提供了可靠的数据基础，加速了智能识别技术在食品科学中的融合与应用。

实际应用

在实际应用层面，raw-food-recognition数据集为智能零售、健康管理及教育工具开发提供了关键支持。例如，在自动化超市结算系统中，可实现食材的快速视觉识别；在营养追踪应用中，辅助用户记录饮食摄入；在教育场景中，则用于构建互动式学习平台，帮助消费者或学生辨识各类生鲜食品。这些应用不仅提升了生活效率，也促进了健康饮食意识的普及。

数据集最近研究