user-profile-to-food-ratings

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/lpzerba/user-profile-to-food-ratings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用户的一些个人信息和饮食习惯，以及血液中的一些生化指标。具体字段包括年龄、性别、饮食偏好（杂食、素食、纯素食）、血液低密度脂蛋白胆固醇、空腹血糖、甘油三酯、铁含量、食物的热量、蛋白质、碳水化合物、脂肪、纤维素、铁、钙、钾、钠、糖、维生素C和B12的含量，以及食物的成本等级和评分。数据集分为训练集，共有2380个示例。

创建时间：

2025-08-11

原始信息汇总

数据集概述

基本信息

名称: user-profile-to-food-ratings
许可证: MIT
语言: 葡萄牙语 (pt)
标签: me
数据规模: 小于1K (n<1K)

数据集结构

配置名称: default
数据文件:
- 训练集: data/train-*
特征数量: 24
样本数量: 2380
训练集大小: 437920字节
下载大小: 146583字节
数据集总大小: 437920字节

特征列表

age (float64)
gender (float64)
pref_OMNIVOROUS (float64)
pref_VEGETARIAN (float64)
pref_VEGAN (float64)
blood_ldl_cholesterol (float64)
blood_fasting_glucose (float64)
blood_triglycerides (float64)
blood_iron (float64)
food_calories_kcal (float64)
food_protein_g (float64)
food_carbs_g (float64)
food_fat_g (float64)
food_fiber_g (float64)
food_iron_mg (float64)
food_calcium_mg (float64)
food_potassium_mg (float64)
food_sodium_mg (float64)
food_sugar_g (float64)
food_vitamin_c_mg (float64)
food_vitamin_b12_mcg (float64)
food_cost_level (float64)
rating (float64)

数据分割

训练集: 2380个样本

搜集汇总

数据集介绍

构建方式

在营养学与个性化饮食推荐系统的交叉领域，user-profile-to-food-ratings数据集通过结构化数据采集构建而成。研究团队收集了2380名葡萄牙语使用者的多维度健康指标，包括年龄、性别、饮食偏好（如杂食、素食、纯素食）以及血液生化参数（低密度脂蛋白胆固醇、空腹血糖等）。每份食物条目均标注了21项营养成分指标与成本等级，用户评分数据通过标准化问卷获取，确保了数据的临床相关性与可量化特征。

特点

该数据集以细粒度的营养代谢关联为特色，覆盖宏观营养素与微量元素的完整谱系。性别与年龄字段采用数值编码，便于机器学习模型处理；三大饮食偏好以独热向量形式呈现，支持多分类任务。血液指标与食物成分的严格对应关系，为研究营养摄入与生理指标相关性提供了独特视角。评分字段采用连续数值，能够捕捉用户对食物复合维度的主观评价。

使用方法

研究者可利用该数据集开发个性化饮食推荐算法，通过回归模型预测用户评分。血液指标与食物成分的交叉分析适用于营养干预研究，特征工程中应注意标准化量纲差异。数据集支持端到端训练，但需注意葡萄牙语用户群体的文化饮食偏置。推荐将食物成本与营养成分作为联合特征，构建经济效益优化的推荐系统。

背景与挑战

背景概述

user-profile-to-food-ratings数据集聚焦于营养学与个性化饮食推荐领域的交叉研究，由葡萄牙语研究团队构建，旨在探索用户人口统计学特征、饮食习惯与食物营养评分之间的复杂关联。该数据集收录了2380条样本，涵盖年龄、性别、饮食偏好（如素食主义倾向）、血液生化指标（如胆固醇、血糖）以及20余种食物营养成分指标，为量化分析个体健康指标与食物选择的相关性提供了多维度数据支撑。其创新性在于整合了传统营养学参数与现代个性化推荐需求，对推动精准营养干预研究具有显著价值。

当前挑战

该数据集面临的核心挑战体现在两方面：在领域问题层面，如何从高维度异质性特征（如生化指标与营养素的非线性关系）中建模用户饮食偏好仍存在解释性难题；在构建过程中，血液指标与食物营养成分的标准化采集涉及多源数据校准，且小样本规模（n<1K）限制了深度学习模型的泛化能力。此外，葡萄牙语语境下的饮食文化特异性可能导致跨地域应用的偏差，而成本等级与营养评分的耦合关系尚未建立可靠的理论框架。

常用场景

经典使用场景

在营养学和个性化推荐系统研究中，user-profile-to-food-ratings数据集被广泛用于探索用户人口统计学特征与饮食偏好之间的关联。该数据集通过整合年龄、性别、饮食偏好以及多项血液生化指标，为研究者提供了一个多维度的分析框架，用以揭示不同用户群体对食物营养成分的评分模式。尤其在跨文化饮食行为比较研究中，该数据集因其葡萄牙语使用者的独特样本构成而具有特殊价值。

衍生相关工作

该数据集催生了多个创新研究方向，包括基于深度学习的跨模态饮食推荐算法开发。部分研究团队将其与地理饮食文化数据库结合，探索生物特征与社会因素的交互影响。在可解释AI领域，衍生出若干特征重要性分析框架，用于解码血液指标与食物评分间的非线性关系。这些工作显著丰富了精准营养学的研究范式。

数据集最近研究