PAID-recipes-normalized

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/GPTasty/PAID-recipes-normalized

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含食谱信息的数据库，其中包括食谱的名称、作者、烹饪时间、营养成分等信息，并提供了食谱的文本描述和嵌入表示。数据集适用于训练机器学习模型以处理食谱相关的任务。

创建时间：

2025-05-05

原始信息汇总

数据集概述：GPTasty/PAID-recipes-normalized

数据集基本信息

数据集名称：PAID-recipes-normalized
存储位置：https://huggingface.co/datasets/GPTasty/PAID-recipes-normalized
下载大小：537,027,445 字节
数据集大小：477,691,283 字节
训练集样本数：27,201 条

数据集特征

核心信息

RecipeId：食谱ID（float64）
Name：食谱名称（string）
AuthorId：作者ID（int64）
AuthorName：作者名称（string）
CookTime：烹饪时间（int64）
PrepTime：准备时间（int64）
TotalTime：总时间（int64）
DatePublished：发布日期（timestamp[us, tz=UTC]）

食谱内容

Description：食谱描述（string）
Images：食谱图片（sequence[string]）
RecipeCategory：食谱类别（string）
Keywords：关键词（sequence[string]）
RecipeIngredientQuantities：食材用量（sequence[string]）
RecipeIngredientParts：食材部分（sequence[string]）
RecipeInstructions：制作步骤（sequence[string]）
Tools：所需工具（sequence[string]）

营养信息

Calories：卡路里（float64）
FatContent：脂肪含量（float64）
SaturatedFatContent：饱和脂肪含量（float64）
CholesterolContent：胆固醇含量（float64）
SodiumContent：钠含量（float64）
CarbohydrateContent：碳水化合物含量（float64）
FiberContent：纤维含量（float64）
SugarContent：糖含量（float64）
ProteinContent：蛋白质含量（float64）

评价与分类

AggregatedRating：综合评分（float64）
ReviewCount：评价数量（float64）
RecipeServings：食谱份量（float64）
ServingsSource：份量来源（string）
MealType：餐点类型（string）
DishType：菜品类型（string）
Skill：烹饪技能（string）

过敏原与饮食限制

gluten：是否含麸质（bool）
crustaceans：是否含甲壳类（bool）
eggs：是否含蛋类（bool）
fish：是否含鱼类（bool）
peanuts：是否含花生（bool）
soybeans：是否含大豆（bool）
milk：是否含牛奶（bool）
nuts：是否含坚果（bool）
celery：是否含芹菜（bool）
mustard：是否含芥末（bool）
sesame-seeds：是否含芝麻（bool）
sulphur-dioxide-and-sulphites：是否含二氧化硫和亚硫酸盐（bool）
lupin：是否含羽扇豆（bool）
molluscs：是否含软体动物（bool）
vegan：是否纯素（bool）
vegetarian：是否素食（bool）
halal：是否清真（bool）
fructose：是否含果糖（bool）

计算字段

ServingsComputed：计算份量（float64）
recipe_text：食谱文本（string）

嵌入向量

recipe_embedding：食谱嵌入向量（sequence[float32], length=768）
ingredients_embedding：食材嵌入向量（sequence[float32], length=768）
recipe_embedding_no_key：无关键字的食谱嵌入向量（sequence[float32], length=768）
base_recipe_embeddings_ingr_instr：基于食材和步骤的食谱嵌入向量（sequence[float32], length=768）
base_name_embedding：基于名称的嵌入向量（sequence[float32], length=768）

数据集结构

唯一拆分：train
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

PAID-recipes-normalized数据集通过系统化采集与标准化处理构建而成，涵盖27,201条烹饪食谱数据。每条记录包含从RecipeId到基础名称嵌入等43个结构化字段，数据源自多元渠道的食谱平台，经过去重、时间戳统一转换和营养指标标准化处理。特别采用768维嵌入向量对食谱文本、原料和名称进行深度表征，通过自动化流程完成数据清洗与特征工程，确保字段间逻辑一致性。

使用方法

使用者可通过HuggingFace接口直接加载train分割数据集，利用预生成的768维嵌入向量进行食谱推荐或营养分析。对于烹饪研究，可结合RecipeInstructions与Tools字段分析烹饪技法，过敏原布尔值字段支持特殊饮食需求建模。机器学习应用中，建议将recipe_text与各类嵌入向量联合使用，基于AggregatedRating和ReviewCount构建质量预测模型时需注意处理浮点型缺失值。

背景与挑战

背景概述

PAID-recipes-normalized数据集是烹饪与营养学领域的重要资源，由专业研究团队构建，旨在为食谱分析与推荐系统提供标准化数据支持。该数据集收录了超过27,000条食谱，涵盖了从基础食材到复杂烹饪流程的全面信息，包括营养成分、过敏原标识及烹饪工具等细节。其核心研究问题聚焦于如何通过结构化数据提升食谱检索的精确度与个性化推荐效果，对食品科学、健康饮食及人工智能在烹饪领域的应用具有显著推动作用。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性要求精确处理食谱文本的多模态特征，包括非结构化指令与营养数据的关联映射；数据构建过程中需克服原始食谱的异构性，如时间格式标准化、过敏原标记的语义一致性，以及跨文化食材名称的归一化处理。此外，高维嵌入向量的生成与验证对计算资源与算法设计提出了较高要求。

常用场景

经典使用场景

在烹饪学和营养学研究中，PAID-recipes-normalized数据集以其标准化的食谱信息和丰富的营养标签成为关键资源。研究者通过分析食谱的烹饪时间、食材配比和营养构成，探索不同菜系之间的营养差异和烹饪效率。该数据集特别适合用于开发智能推荐系统，根据用户的饮食偏好和营养需求生成个性化食谱。

解决学术问题

该数据集有效解决了食品科学领域长期存在的食谱标准化难题。通过提供精确的食材量化数据和过敏原标注，研究人员能够系统分析膳食营养结构与健康效应的关联性。其嵌入向量特征更为计算烹饪学研究提供了新范式，使得基于语义相似度的食谱创新成为可能。

实际应用

在商业餐饮领域，该数据集支撑着智能菜单设计和营养分析系统的开发。餐饮企业利用其过敏原标注功能为特殊饮食需求顾客提供安全保障，健身应用则借助营养数据构建精准的膳食计划。教育机构将其作为烹饪课程的数字教材，实现理论教学与实际操作的深度融合。

数据集最近研究