health-factory-dataset

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/lpzerba/health-factory-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含个人健康和饮食相关信息的数据库，包含年龄、性别、饮食偏好等特征，以及饮食的营养成分和成本。数据集分为训练集，可用于健康和饮食相关的数据分析和模型训练。

创建时间：

2025-08-18

原始信息汇总

数据集概述

基本信息

数据集名称：health-factory-dataset
存储位置：https://huggingface.co/datasets/lpzerba/health-factory-dataset
总样本数：750,000
总大小：354,000,000 字节
下载大小：47,764,142 字节
数据格式：CSV（基于data_files路径推断）
默认拆分：train

特征结构

数据集包含以下特征字段，所有字段均为float64数据类型：

人口统计学特征

age（年龄）
gender（性别）
imc（身体质量指数）

饮食偏好

pref_OMNIVOROUS（杂食偏好）
pref_VEGETARIAN（素食偏好）
pref_VEGAN（纯素偏好）
economy（经济状况）

血液检测指标

blood_Glicose（血糖）
blood_Colesterol_LDL（低密度脂蛋白胆固醇）
blood_Colesterol_HDL（高密度脂蛋白胆固醇）
blood_Triglicerídeos（甘油三酯）
blood_Ureia（尿素）
blood_Creatinina（肌酐）
blood_Vitamina_B12（维生素B12）
blood_TGP_(ALT)（谷丙转氨酶）
blood_Ferritina（铁蛋白）
blood_Vitamina_D3（维生素D3）
blood_Hemoglobinas（血红蛋白）
blood_Hematócritos（红细胞压积）
blood_VCM（平均红细胞体积）
blood_Sódio（钠）
blood_Potássio（钾）

健康目标

goal_lose_weight（减重目标）
goal_gain_muscle（增肌目标）
goal_eat_healthier（健康饮食目标）
goal_improve_energy（改善精力目标）
goal_improve_heart_health（改善心脏健康目标）
goal_improve_digestion（改善消化目标）

食物营养成分

food_calories_kcal（卡路里）
food_protein_g（蛋白质）
food_carbs_g（碳水化合物）
food_fat_g（脂肪）
food_fiber_g（纤维）
food_iron_mg（铁）
food_calcium_mg（钙）
food_potassium_mg（钾）
food_sodium_mg（钠）
food_sugar_g（糖）
food_vitamin_c_mg（维生素C）
food_vitamin_b12_mcg（维生素B12）
food_cost_level（成本水平）

食物标签

food_tag_meat（肉类标签）
food_tag_poultry（禽类标签）
food_tag_fish（鱼类标签）
food_tag_seafood（海鲜标签）
food_tag_dairy（乳制品标签）
food_tag_egg（蛋类标签）
food_tag_gluten（麸质标签）
food_tag_lactose（乳糖标签）
food_tag_nuts（坚果标签）
food_tag_high_protein（高蛋白标签）
food_tag_high_fiber（高纤维标签）
food_tag_good_fats（健康脂肪标签）
food_tag_source_of_iron（铁来源标签）
food_tag_source_of_b12（B12来源标签）
food_tag_source_of_calcium（钙来源标签）
food_tag_source_of_vitamin_d（维生素D来源标签）
food_tag_anti_inflammatory（抗炎标签）

评分指标

rating（评分）

搜集汇总

数据集介绍

构建方式

在健康与营养学领域，数据质量直接影响研究可靠性。该数据集通过系统收集匿名个体健康指标与饮食偏好信息构建，涵盖年龄、性别、身体质量指数及多种血液生化参数，并结合经济因素与健康目标的多维度调查问卷，采用结构化数据编码确保数值一致性，最终形成包含75万条样本的大规模训练集。

使用方法

研究人员可通过加载标准化数据分割直接使用训练集，利用其丰富的特征字段进行机器学习模型训练，特别适用于开发营养摄入预测、健康效果评估或饮食推荐算法。数据中的数值型特征可直接用于回归分析，而分类标签如食物过敏原标识和健康目标字段则适用于分类任务，建议结合领域知识进行特征工程以优化模型性能。

背景与挑战

背景概述

健康工厂数据集作为营养信息学领域的重要资源，由健康科技研究机构于2020年代初期构建，旨在探索个性化营养推荐与健康目标之间的量化关系。该数据集整合了多维生理指标、饮食偏好与营养成分配比数据，通过机器学习方法解决精准营养干预的核心问题，为预防医学和健康管理研究提供了数据基础，推动了营养科学与人工智能的跨学科融合。

当前挑战

该数据集致力于解决个性化营养推荐系统中多目标优化与生物指标协同预测的复杂性挑战，包括如何平衡用户健康目标与营养约束的动态关系。构建过程中面临生物标志物数据采集的标准化难题，需协调不同检测方法的数值一致性；同时需处理高维营养特征与用户偏好的非线性关联，以及确保膳食标签系统与临床营养学标准的精准映射。

常用场景

经典使用场景

在营养健康信息学领域，该数据集通过整合多维生理指标与饮食偏好数据，为个性化膳食推荐系统的开发提供了坚实基础。研究者可利用其丰富的血液生化指标、营养摄入数据和健康目标标签，构建精准的机器学习模型，预测不同个体对特定膳食方案的反应效果，从而优化营养干预策略。

解决学术问题

该数据集有效解决了营养流行病学研究中多模态数据融合的难题，为探究膳食模式与代谢指标间的复杂关联提供了量化依据。通过系统整合生理参数、营养构成和健康目标标签，它显著推进了精准营养学领域的发展，使研究者能够建立数据驱动的营养干预模型，填补了传统饮食研究中微观营养素与宏观健康结局之间的证据空白。

实际应用

在医疗健康领域，该数据集支撑了智能营养咨询平台的开发，通过分析用户的生化指标和饮食偏好，生成个性化膳食方案。商业机构可基于其经济性标签和营养成本数据，设计符合不同消费层级的健康食品推荐系统，同时公共卫生部门可利用其大规模样本特征制定区域性的营养改善政策。

数据集最近研究