usda-nutrition-eda

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/amitbenavraham/usda-nutrition-eda

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是对美国农业部食品数据中心（USDA FoodData Central）营养数据的探索性分析（EDA）。数据集来源于清理后的USDA食品数据，原始数据包含501,887行和22列，经过清理后得到345,226行和11个数值特征。主要目标变量为`data_type`，区分品牌食品（branded_food）和SR传统食品（sr_legacy_food）。数据集包含11个营养特征，如能量（卡路里）、蛋白质、总脂肪、饱和脂肪、反式脂肪、碳水化合物、膳食纤维、胆固醇、钠、钙和铁。数据清理过程包括删除非数值列、处理缺失值和去除重复数据。研究发现，SR传统食品的平均卡路里含量显著高于品牌食品，脂肪含量与卡路里呈现强相关性。该数据集适用于营养分析、食品分类预测等任务。

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

该数据集构建于美国农业部食品数据中心（USDA FoodData Central）的原始营养数据库之上，通过系统性的数据清洗流程提炼而成。初始数据包含超过50万条记录和22个特征维度，经过剔除无关的非数值型列、处理缺失值以及移除单一类别样本后，最终形成包含34.5万条样本和11个核心营养指标的洁净数据集。在异常值处理上，研究团队基于营养学领域的专业知识，保留了所有通过IQR方法检测到的极端数值，因为这些数值在真实食品数据中具有合理的生理意义，例如高脂肪的纯油脂或高钠的食盐。

特点

本数据集聚焦于食品营养学领域，其核心特征在于涵盖了能量、蛋白质、脂肪、碳水化合物、膳食纤维、胆固醇及多种矿物质等11个关键营养指标，所有数据均以每100克食品的含量为标准进行量化，确保了跨食品类别的可比性。数据集的一个显著特点是明确区分了两种食品类型：商业品牌食品与USDA标准参考食品，这为探究加工食品与天然食品的营养差异提供了结构基础。此外，数据中呈现的营养特征相关性，如脂肪与能量的强关联、钠与其他指标的独立性，揭示了营养素之间的内在联系，为深度营养分析提供了丰富的维度。

使用方法

该数据集主要用于营养数据的探索性分析与预测建模。研究者可首先利用其进行描述性统计与可视化，以揭示不同食品类别的营养分布规律，例如比较品牌食品与标准参考食品在热量和蛋白质含量上的差异。进一步地，数据集适用于构建分类模型，尝试基于营养特征预测食品类别，或进行回归分析以探索营养素之间的定量关系。在使用时，建议结合营养学背景知识解读分析结果，并注意数据已完成的清洗步骤，可直接用于模型训练，但需考虑保留的异常值对特定分析可能产生的影响。

背景与挑战

背景概述

美国农业部食品数据中心营养探索性分析数据集（usda-nutrition-eda）源于对公共营养数据深度挖掘的学术需求，由研究人员Amit Ben-Avraham基于美国农业部食品数据中心（USDA FoodData Central）的公开数据构建而成。该数据集聚焦于食品营养学领域，旨在通过探索性数据分析揭示不同食品类别间的营养模式差异，核心研究问题在于探究能否依据营养成分特征有效区分品牌食品与标准参考食品。其创建体现了数据科学在营养流行病学与公共健康研究中的应用趋势，为食品分类、膳食评估及营养政策制定提供了实证数据基础，推动了营养信息学的跨学科发展。

当前挑战

该数据集致力于解决食品营养学中基于营养成分进行精确食品分类的挑战，具体涉及如何从高维、异构的原始数据中提取关键营养特征，并建模区分加工品牌食品与天然参考食品的细微差异。在构建过程中，面临数据清洗的复杂性，包括处理大量缺失值、筛选与营养分析相关的核心变量，以及合理保留在食品科学语境下具有实际意义的统计异常值。此外，原始数据中类别不平衡、度量单位统一及特征间高度相关性等问题，亦对构建稳健的分析框架构成了技术挑战。

常用场景

经典使用场景

在营养学与食品科学领域，USDA FoodData Central营养数据集为探索性数据分析提供了经典范例。研究者通过该数据集深入剖析食品营养成分的分布规律，例如比较品牌食品与标准参考食品在能量、蛋白质、脂肪等关键指标上的差异，揭示不同食品类别的营养特征。这种分析不仅帮助理解食品数据的内部结构，还为后续建模任务奠定了坚实基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于营养特征的食品分类预测模型，探索品牌与标准参考食品的判别方法；还有研究深入分析营养成分与慢性疾病风险的关联，拓展至流行病学领域。这些工作不仅丰富了营养信息学的理论体系，也为跨学科应用提供了可靠的数据支持。

数据集最近研究