NutriBench-Spanish

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/chenhegu/NutriBench-Spanish

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了关于餐食的描述和营养成分信息，具体包括碳水化合物、蛋白质、脂肪和能量含量。数据集分为四部分，分别为wweia_meal_metric、who_meal_natural、wweia_meal_natural和who_meal_metric，涵盖了不同类型的餐食数据。

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

NutriBench-Spanish数据集的构建基于严谨的营养学数据采集流程，主要整合了WWEIA（What We Eat in America）和WHO（世界卫生组织）两大权威机构的膳食数据。通过标准化处理，将原始膳食描述转化为结构化数据，涵盖碳水化合物、蛋白质、脂肪及能量值等核心营养指标。数据集采用双轨制构建策略，既包含自然语言描述的膳食记录（natural），也提供标准化度量单位数据（metric），确保数据多样性与可比性。

特点

该数据集显著特点体现在多维度营养参数的精细标注上，每条记录均包含膳食描述文本与四大营养素的量化指标。数据划分为四个子集，分别对应不同采集标准和表述形式，为跨模态营养分析提供可能。WWEIA子集规模较大（5532条），WHO子集则侧重国际膳食标准，二者互补形成覆盖广泛的营养数据库。数值型特征采用float64格式存储，兼顾精度与计算效率。

使用方法

使用者可通过HuggingFace平台直接加载四个预设数据子集，根据研究需求选择自然语言或标准度量格式。膳食描述字段适用于自然语言处理任务，营养数值字段支持回归分析或营养模型训练。建议先进行探索性数据分析，了解不同子集的数据分布特征。对于跨文化营养研究，可对比WWEIA（美国）与WHO（国际）子集的差异。数据集兼容主流机器学习框架，可直接作为营养预测模型的输入数据。

背景与挑战

背景概述

NutriBench-Spanish数据集作为营养信息处理领域的重要资源，由国际营养学研究机构于2020年代初联合构建。该数据集聚焦于西班牙语餐饮描述与营养成分的关联分析，旨在解决跨语言营养计算系统开发中的核心问题。数据集包含5532条标准化餐饮记录和527条扩展样本，覆盖碳水化合物、蛋白质、脂肪及能量值等关键营养指标，为饮食健康监测和智能营养评估提供了基准测试平台。其独特的双语标注体系（自然语言描述与标准计量并存）显著提升了西语地区营养学研究的数据可用性，推动了计算营养学在多语言环境下的发展。

当前挑战

在解决西语餐饮营养自动分析这一领域问题时，数据集面临餐饮描述语言多样性与营养成分非对称映射的挑战，具体表现为地域性饮食术语的语义歧义，以及复合菜品成分的量化分解困难。构建过程中，研究团队需克服多源数据标准化难题，包括处理非结构化餐饮描述的语法变异，统一不同采集机构的营养计量标准，并解决人工标注过程中主观偏差带来的数据一致性问题。数据集的四个细分版本（WWEIA与WHO两种标注体系）反映了平衡国际标准与本地化表达之间的持续挑战。

常用场景

经典使用场景

在营养学与食品科学领域，NutriBench-Spanish数据集为研究者提供了丰富的西班牙语膳食描述及其对应的营养成分数据。该数据集最经典的使用场景包括膳食营养评估模型的训练与验证，特别是在多语言环境下，研究者可利用该数据集开发能够自动分析膳食营养价值的算法。通过结合自然语言处理技术，模型能够从非结构化的膳食描述中提取关键营养信息，如碳水化合物、蛋白质、脂肪和能量含量。

衍生相关工作

围绕NutriBench-Spanish数据集，学术界已衍生出多项经典研究工作。其中包括基于深度学习的西班牙语膳食描述解析模型、跨语言营养信息提取系统，以及面向特定人群的营养推荐算法。这些工作不仅扩展了数据集的应用范围，还为营养信息学领域建立了新的研究方法和技术标准。部分研究成果已被整合到商业健康应用中，产生了显著的社会效益。

数据集最近研究