five

Nutrition Prediction Dataset

收藏
github2023-01-03 更新2024-05-31 收录
下载链接:
https://github.com/rokickim/nutrition-prediction-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于2015年7月20日至24日对在线平台Allrecipes.com的网络爬虫数据。专注于主菜类别的食谱,包含有效的同行评审营养信息。数据集包含两部分:回归数据集和众包数据集,用于模型化食谱的图像、标题、成分、方向和用户反馈等547个特征,以及人类对在线食谱健康和营养估计的研究。

This dataset is based on web scraping data from the online platform Allrecipes.com, collected from July 20 to 24, 2015. It focuses on recipes in the main dish category, including valid peer-reviewed nutritional information. The dataset consists of two parts: a regression dataset and a crowdsourced dataset, used for modeling 547 features of recipes such as images, titles, ingredients, directions, and user feedback, as well as for research on human estimation of health and nutrition in online recipes.
创建时间:
2018-04-09
原始信息汇总

Nutrition Prediction Dataset 概述

数据集来源与采集

  • 来源平台:Allrecipes.com
  • 采集时间:2015年7月20日至24日
  • 数据筛选:仅包含主菜类别中具有有效、同行评审的营养信息的食谱,同时要求包含食谱图片、准备时长及用户反馈。
  • 食谱数量:9,766个食谱

数据集组成

  1. 回归数据集 (regression_data.csv)

    • 特征数量:547个特征
    • 特征来源:食谱的图像、标题、成分、制作步骤和用户反馈
    • 用途:用于模型化五个信息线索
  2. 众包数据集 (study_data.csv)

    • 研究目的:观察人类如何估计在线食谱的健康程度和营养成分
    • 任务内容:要求众包工作者估计卡路里及英国食品标准局前包装标签系统涵盖的宏量营养素(脂肪、饱和脂肪、糖和盐)

引用信息

若在研究中使用此数据集,请引用以下文献: Markus Rokicki, Christoph Trattner, and Eelco Herder. "The Impact of Recipe Features, Social Cues and Demographics on Estimating the Healthiness of Online Recipes." ICWSM. 2018.

搜集汇总
数据集介绍
main_image_url
构建方式
Nutrition Prediction Dataset的构建基于对Allrecipes.com平台的网络爬取,数据采集时间集中在2015年7月20日至24日。数据集专注于主菜类别中的食谱,这些食谱包含经过同行评审的有效营养信息。此外,数据集要求每份食谱必须包含图像、准备时间信息以及用户反馈,最终筛选出9,766份符合条件的食谱。数据集分为两部分:回归数据集和众包数据集,前者包含547个特征用于建模,后者通过众包研究收集了人类对食谱健康性和营养的估计数据。
使用方法
该数据集的使用方法主要分为两部分:回归数据集可用于训练和测试营养预测模型,通过分析食谱的多种特征来预测其营养含量;众包数据集则可用于研究人类对食谱健康性和营养的感知差异。研究人员可以通过对比模型预测结果与人类评估结果,深入探讨影响健康性判断的因素。使用该数据集时,需遵循CC-BY-4.0许可协议,并在研究中引用相关文献以尊重数据来源。
背景与挑战
背景概述
Nutrition Prediction Dataset 是由Markus Rokicki、Christoph Trattner和Eelco Herder等研究人员于2015年7月20日至24日期间,基于Allrecipes.com平台的网络爬虫数据构建而成。该数据集专注于主菜类别的食谱,包含经过同行评审的有效营养信息、食谱图片、准备时间以及用户反馈,共收录了9,766份食谱。数据集分为两部分:回归数据集和众包研究数据集。回归数据集包含547个特征,用于建模食谱的五个信息线索(图像、标题、配料、步骤、用户反馈);众包研究数据集则通过众包实验,观察人类如何估计在线食谱的健康性和营养成分。该数据集的研究成果发表于2018年的ICWSM会议,为在线食谱健康性评估提供了重要的数据支持。
当前挑战
Nutrition Prediction Dataset 的核心挑战在于如何准确预测在线食谱的营养成分及其健康性。首先,食谱的营养信息通常依赖于用户输入或自动计算,可能存在误差或不一致性,这对模型的训练和预测精度提出了较高要求。其次,数据集构建过程中,研究人员需要从海量食谱中筛选出符合条件的数据,并提取多维度特征,这一过程涉及复杂的特征工程和数据清洗工作。此外,众包实验中的人类评估结果可能存在主观偏差,如何有效利用这些数据提升模型的泛化能力也是一个重要挑战。这些挑战不仅反映了数据集的复杂性,也为后续研究提供了改进方向。
常用场景
经典使用场景
Nutrition Prediction Dataset 在营养预测和健康评估领域具有广泛的应用。该数据集通过整合食谱的图像、标题、成分、制作步骤及用户反馈等多维度信息,为研究者提供了一个全面的平台,用于分析和预测食谱的营养成分。特别是在机器学习模型的训练中,该数据集常用于回归分析,以预测食谱中的卡路里、脂肪、糖分等关键营养指标。
解决学术问题
该数据集有效解决了营养学研究中数据稀缺的问题,尤其是在线食谱的营养成分预测。通过提供丰富的特征数据和用户反馈,研究者能够更准确地建模和预测食谱的健康程度。此外,该数据集还通过众包研究揭示了人类对食谱健康性的主观评估方式,为理解用户行为与营养认知之间的关系提供了宝贵的数据支持。
实际应用
在实际应用中,Nutrition Prediction Dataset 被广泛用于开发智能食谱推荐系统和健康管理工具。例如,基于该数据集训练的模型可以集成到移动应用中,帮助用户根据个人健康需求选择适合的食谱。此外,食品行业和健康管理机构也可以利用该数据集进行市场分析和产品开发,以更好地满足消费者对健康食品的需求。
数据集最近研究
最新研究方向
在营养预测领域,Nutrition Prediction Dataset为研究者提供了一个丰富的资源,用于探索在线食谱的健康性评估。近年来,随着健康饮食意识的提升,如何准确预测食谱的营养成分成为研究热点。该数据集不仅包含了详细的营养成分信息,还涵盖了图像、标题、配料、制作步骤及用户反馈等多维度特征,为机器学习模型提供了全面的训练基础。特别是在结合众包数据进行人类健康性评估的研究中,该数据集揭示了用户对食谱健康性的主观判断与客观营养数据之间的差异,为个性化营养推荐系统的开发提供了重要参考。此外,该数据集的应用还推动了社交媒体和在线平台在健康饮食推广中的作用研究,具有广泛的社会影响和学术价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作