five

RecipeGen

收藏
arXiv2025-03-07 更新2025-03-11 收录
下载链接:
https://github.com/zhangdaxia22/RecipeGen
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
RecipeGen是一个真实世界的目标-步骤-图像基准数据集,旨在为食谱生成提供支持。该数据集由多个研究机构合作创建,包含21,944个食谱和139,872个与文本描述相匹配的图像。数据集覆盖了多样化的食材、烹饪步骤和烹饪风格,适用于各种食品类别的建模。数据采集自用户上传的真实世界食谱,经过质量控制和步骤精简,确保了步骤的可靠性和简洁性,反映了实际的烹饪过程。

RecipeGen is a real-world goal-step-image benchmark dataset developed to support recipe generation. This dataset was collaboratively created by multiple research institutions, containing 21,944 recipes and 139,872 images matched with their corresponding textual descriptions. It covers diverse ingredients, cooking steps and culinary styles, and is suitable for modeling across various food categories. The data was collected from real-world recipes uploaded by users, and underwent quality control and step streamlining to ensure the reliability and conciseness of the cooking procedures, which accurately reflect actual cooking processes.
提供机构:
未知
创建时间:
2025-03-07
搜集汇总
数据集介绍
main_image_url
构建方式
RecipeGen数据集的构建始于对菜品特性,如主要食材、烹饪技术和制备方法的深入分析。以158个针对性关键词为指导,该数据集广泛收集了涵盖不同菜系、烹饪方法和食品类别的29,026个食谱。在质量控制的环节中,通过剔除低质量食谱、使用GPT-4o进行步骤合并与caption生成,以及计算数据真实性和人工审核,最终形成了包含21,944个食谱和139,872个步骤图像的数据集。
特点
RecipeGen数据集的特点在于其广泛的步骤分布,平均每个食谱6.4个步骤,其中55.84%的食谱步骤超过6个,这有利于建模长距离的语义关系。数据集还提供了平均每种食谱9种食材的信息,捕捉了丰富的食材互动和多样性。此外,RecipeGen包含了多种烹饪风格,并配备了大量独特的关键词,使其在跨不同烹饪过程中具有广泛的适用性。数据集来源于现实世界的用户上传,具有高质量的控制和实际烹饪实践的真实性。
使用方法
使用RecipeGen数据集时,研究者可以依据数据集提供的食谱目标、步骤和对应图像进行文本到图像的生成模型训练。数据集的模态为图像,因此适合用于训练图像识别和生成相关的算法。同时,数据集的丰富性和多样性也为长文本生成和食材互动分析提供了可能。
背景与挑战
背景概述
RecipeGen数据集是一项针对现实世界食谱图像生成任务的重要研究,由Ruoxuan Zhang等研究人员于2020年提出。该数据集旨在解决食品计算领域中缺乏全面连接食谱目标、步骤及相应图像的问题。RecipeGen收集了包含多样化食材、多种烹饪风格和广泛食品类别的食谱,为生成更准确、更具指导性的食谱生成模型提供了坚实基础。
当前挑战
RecipeGen数据集在构建过程中面临了多个挑战。首先,它需要克服的是如何全面地连接食谱的目标、步骤和相应图像,确保每个步骤都有清晰的视觉表示。其次,数据集的构建过程中,如何处理和优化质量控制是一个挑战,包括去除低质量食谱、合并相邻简单步骤、生成 captions以及确保步骤与图像的一致性。此外,数据集的多样性和真实性也是构建过程中的关键挑战,需要确保涵盖不同地区、烹饪方法和食材,同时反映出实际烹饪场景中的指令类型。
常用场景
经典使用场景
RecipeGen数据集的经典使用场景在于生成食谱步骤的图像,辅助用户更直观地理解烹饪过程。通过将文本步骤转化为视觉图像,该数据集能够帮助用户在组装家具、修理设备或遵循烹饪程序时,减少混淆和错误。
解决学术问题
RecipeGen解决了现有数据集缺乏综合连接食谱目标、顺序步骤和相应图像的问题。它的出现为更准确、更具指导性的食谱生成模型提供了基础,解决了学术研究中对于食谱步骤视觉表示的需求。
衍生相关工作
基于RecipeGen数据集,衍生出了多项相关工作,包括但不限于食谱生成模型、食谱步骤图像合成技术以及交叉模态食谱理解研究。这些工作推动了食品计算领域的发展,为烹饪相关的应用提供了新的研究方向和技术支持。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作