RecipeNLG
收藏github2023-12-06 更新2024-05-31 收录
下载链接:
https://github.com/Hazot/Recipe-Generation-Project
下载链接
链接失效反馈官方服务:
资源简介:
一个用于半结构化文本生成的烹饪食谱数据集
A dataset for semi-structured text generation of cooking recipes
创建时间:
2023-02-22
原始信息汇总
数据集概述
数据集目标
- 生成高质量、上下文感知的烹饪食谱。
- 针对对烹饪感兴趣的用户,帮助他们根据输入的食材列表生成食谱。
环境安装
- 使用Python 3.9。
- 推荐使用Miniconda。
- 需要安装PyTorch 2.0.1,推荐使用CUDA 11.7。
- 安装其他库通过
pip install -r requirements.txt。 - 额外安装QLoRa相关库。
数据集使用
- 需要下载完整数据集进行预处理和微调。
模型微调
- 使用
/config/config_finetuning.yaml配置文件进行模型微调。 - 支持GPT2、OPT、LLaMA模型。
食谱生成
- 使用
/config/config_generation.yaml配置文件生成食谱。 - 可设置提示和生成重复次数。
模型评估
- 使用
/config/config_generation.yaml中的evaluate标志评估模型。 - 评估结果保存在
results文件夹中。
引用信息
- 使用RecipeNLG数据集和相关代码时,应引用相关论文。
作者信息
- 主要作者包括Kevin Lessard、Joel Sageau和Mathieu Peloquin。
搜集汇总
数据集介绍

构建方式
RecipeNLG数据集的构建依托于自然语言处理技术的最新进展,旨在生成高质量且具有上下文感知的烹饪食谱。该数据集通过从原始仓库中提取并重组代码结构,进一步优化了数据处理流程。在构建过程中,数据集首先通过预处理阶段对原始数据进行清洗和格式化,随后利用GPT2等模型进行微调,以生成符合特定需求的食谱文本。整个构建过程注重数据的高效处理与模型的精准训练,确保了数据集的实用性和可靠性。
使用方法
使用RecipeNLG数据集时,用户需首先配置Python环境并安装相关依赖库。通过运行`main_finetuning.py`脚本,用户可以对指定模型进行微调,生成符合需求的食谱数据集。随后,利用`run_generation.py`脚本,用户可以根据提示生成特定数量的食谱文本。数据集还提供了评估功能,用户可通过`config_generation.yaml`配置文件中的`evaluate`标志对模型进行测试,并将结果保存至指定文件夹。整个使用流程简洁高效,适合烹饪爱好者和自然语言处理研究人员。
背景与挑战
背景概述
RecipeNLG数据集由Michał Bień等研究人员于2020年发布,旨在为半结构化文本生成任务提供高质量的烹饪食谱数据。该数据集的核心研究问题是通过自然语言处理技术生成上下文感知的烹饪食谱,帮助用户根据输入的食材列表自动生成食谱。该数据集在自然语言生成领域具有重要影响力,尤其是在烹饪领域的文本生成任务中,为研究人员提供了丰富的实验数据。其发布不仅推动了食谱生成技术的发展,还为相关领域的模型训练和评估提供了重要参考。
当前挑战
RecipeNLG数据集在解决食谱生成问题时面临多重挑战。首先,食谱文本的半结构化特性要求模型能够准确理解并生成包含食材、步骤和烹饪技巧的复杂文本。其次,数据集的构建过程中,研究人员需要处理大量非结构化文本数据,并将其转化为适合模型训练的格式,这一过程涉及数据清洗、标注和预处理等复杂步骤。此外,模型的微调和评估也面临挑战,如何在生成食谱时保持语义连贯性和实用性,同时避免生成重复或无意义的文本,是当前研究的重点。这些挑战不仅影响了模型的性能,也对数据集的进一步优化提出了更高要求。
常用场景
经典使用场景
RecipeNLG数据集在自然语言处理领域中被广泛应用于烹饪食谱的生成任务。通过输入一系列食材,模型能够生成结构化的食谱文本,包括食材列表、烹饪步骤和注意事项。这种应用场景不仅展示了自然语言生成技术的潜力,还为烹饪爱好者提供了个性化的食谱建议。
解决学术问题
RecipeNLG数据集解决了半结构化文本生成中的关键问题,特别是在烹饪食谱领域。通过提供高质量的食谱数据,该数据集支持了模型在生成连贯、上下文相关的文本方面的研究。此外,它还为评估生成模型的性能提供了标准化的基准,推动了自然语言生成技术的进步。
实际应用
在实际应用中,RecipeNLG数据集被用于开发智能食谱生成系统,帮助用户根据手头的食材快速生成食谱。这种系统可以集成到智能厨房设备或移动应用中,为用户提供个性化的烹饪建议,提升烹饪体验。此外,该数据集还被用于教育领域,帮助学生和研究人员理解自然语言生成技术的实际应用。
数据集最近研究
最新研究方向
在自然语言处理领域,RecipeNLG数据集的最新研究方向聚焦于利用先进的生成模型,如GPT2、OPT和LLaMA,进行高质量、上下文感知的食谱生成。当前的研究热点包括模型的微调技术,特别是通过LoRA(Low-Rank Adaptation)方法对LLaMA模型进行优化,以提升生成食谱的多样性和准确性。此外,研究者们还在探索如何将检索增强生成(RAG)技术应用于食谱生成任务中,以进一步增强模型对食材和烹饪步骤的理解能力。这些研究不仅推动了食谱生成技术的发展,也为其他半结构化文本生成任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



