AWeirdDev/all-recipes-xs
收藏Hugging Face2024-04-06 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AWeirdDev/all-recipes-xs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为all-recipes-xs,包含500个来自All Recipes网站的食谱。数据集适用于文本分类、文本生成和文本到文本生成任务。每个食谱包含名称、评论、评分、元数据(如准备时间、烹饪时间等)、成分、步骤、厨师笔记、编辑笔记、营养信息和URL。数据集大小为752412字节,下载大小为324455字节,可以通过Hugging Face的datasets库或pickle加载。
该数据集名为all-recipes-xs,包含500个来自All Recipes网站的食谱。数据集适用于文本分类、文本生成和文本到文本生成任务。每个食谱包含名称、评论、评分、元数据(如准备时间、烹饪时间等)、成分、步骤、厨师笔记、编辑笔记、营养信息和URL。数据集大小为752412字节,下载大小为324455字节,可以通过Hugging Face的datasets库或pickle加载。
提供机构:
AWeirdDev
原始信息汇总
数据集概述
基本信息
- 名称: All Recipes (xs)
- 语言: 英语
- 许可证: MIT
- 大小分类: 小于1K
- 任务分类: 文本分类, 文本生成, 文本到文本生成
数据集特征
- name: 字符串类型
- review: 字符串类型
- rating: 浮点数类型
- meta: 结构化数据,包含多个时间相关的字段和
servings、yield等 - ingredients: 列表类型,包含名称、数量和单位
- steps: 序列类型,字符串
- cooks_note: 字符串类型
- editors_note: 字符串类型
- nutrition_facts: 结构化数据,包含卡路里、碳水化合物、脂肪和蛋白质
- url: 字符串类型
数据集划分
- 训练集: 500个样本,数据大小为752412字节
数据集大小
- 下载大小: 324455字节
- 数据集大小: 752412字节
配置
- 默认配置: 训练数据路径为
data/train-*
标签
- food
- recipe
搜集汇总
数据集介绍

构建方式
在烹饪与营养信息学领域,数据集的构建往往依赖于对现有结构化信息的系统化采集与整理。本数据集源自知名烹饪网站All Recipes,通过自动化爬虫技术提取了500个英文食谱条目,涵盖了从开胃菜到甜点的多样化菜谱。构建过程中,每个食谱被解析为多个结构化字段,包括名称、评分、元数据(如准备与烹饪时间)、成分列表、烹饪步骤、厨师与编辑备注以及营养信息。为确保数据一致性,缺失值统一标记为“unknown”,而非空值,从而维持了数据结构的完整性。数据以标准化的JSON格式存储,便于后续的机器学习任务处理与分析。
特点
本数据集在烹饪文本数据领域展现出鲜明的特色,其核心在于高度结构化的多模态信息整合。每个食谱条目不仅包含基础的文本描述,如名称与评论,还融入了丰富的元数据,例如分步骤的烹饪时间(准备、烘焙、冷却等)与份量信息。成分列表以量化的形式呈现,包括数量、单位与具体名称,而烹饪步骤则按顺序排列,支持序列生成任务。此外,数据集提供了详细的营养事实(如卡路里、脂肪、碳水化合物与蛋白质含量),以及可选的厨师与编辑备注,增强了数据的实用性与深度。这种多维度的信息组织方式,使得数据集适用于文本分类、生成及多任务学习等多种自然语言处理场景。
使用方法
在自然语言处理与机器学习应用中,本数据集的使用方法灵活多样,主要依托于Hugging Face的datasets库进行便捷加载。用户可通过Python代码直接调用load_dataset函数,指定数据集名称即可获取完整的训练分割,其中包含500个食谱实例。数据集以标准化的特征结构呈现,每个字段如名称、评分、元数据、成分、步骤等均可直接访问,便于进行数据探索与预处理。对于高级用户,还支持通过pickle格式从远程URL加载冻结的数据对象,以适应定制化工作流程。该数据集适用于食谱生成、营养分析、时间预测等任务,研究者可基于其结构化特征构建模型,例如利用成分列表进行菜谱推荐,或依据步骤序列训练文本生成系统。
背景与挑战
背景概述
在自然语言处理与烹饪信息学交叉领域,食谱数据集为智能烹饪助手、营养分析及多模态生成模型提供了关键支持。AWeirdDev/all-recipes-xs数据集由独立研究者AWeirdDev于2023年构建,基于知名烹饪网站All Recipes的公开内容,旨在解决食谱结构化解析与语义理解的核心研究问题。该数据集以英文为主,涵盖500条精炼样本,通过标准化字段如食材量化、烹饪步骤与营养信息,推动了烹饪文本的自动化处理与知识图谱构建,对食品计算与个性化推荐系统产生了积极影响。
当前挑战
该数据集致力于应对食谱文本的复杂结构化转换挑战,包括从自由格式描述中精准提取时间、份量等元数据,以及统一食材单位的标准化表述。在构建过程中,主要挑战源于原始网页数据的异构性,例如缺失值处理、非结构化步骤的分割,以及营养信息的格式一致性维护。此外,小规模样本量限制了模型在多样化烹饪场景下的泛化能力,而多层级嵌套结构对序列化与存储效率提出了更高要求。
常用场景
经典使用场景
在烹饪与营养信息学领域,该数据集作为结构化食谱资源的典范,常被用于自然语言处理任务中的文本生成与分类研究。学者们借助其详尽的成分列表、烹饪步骤及营养数据,训练模型以生成新颖的食谱或对菜肴风格进行自动分类,从而探索烹饪文本的语义表示与生成机制。
衍生相关工作
围绕该数据集,衍生出多项经典研究工作,包括基于注意力机制的食谱生成模型、融合营养约束的菜肴推荐算法,以及跨语言食谱翻译系统。这些工作不仅深化了烹饪文本的语义理解,还拓展了其在健康监测与文化遗产数字化保存等领域的应用边界。
数据集最近研究
最新研究方向
在烹饪与营养信息学领域,AWeirdDev/all-recipes-xs数据集凭借其结构化食谱信息,正成为多模态自然语言处理研究的热点。前沿探索聚焦于利用其丰富的元数据与营养标签,驱动食谱生成与健康饮食推荐系统的智能化发展。结合大语言模型,研究者致力于实现从食材到烹饪步骤的端到端生成,同时整合营养事实数据以促进个性化膳食规划。该数据集在推动食品计算与健康人工智能交叉领域方面展现出深远影响,为可持续饮食与精准营养干预提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



