five

Recipe Dataset|食谱数据数据集|自然语言处理数据集

收藏
github2024-03-11 更新2024-05-31 收录
食谱数据
自然语言处理
下载链接:
https://github.com/kganeshv12/RECIPES-DATASET
下载链接
链接失效反馈
资源简介:
该数据集提供了多种菜肴的食谱,包括原始数据和适合ChatGPT使用的分解版本。每个条目包括食谱名称、包含原料和步骤的原始数据,以及为ChatGPT分解的JSON格式数据。分解数据包括名称、URL(如果有)、原料、步骤和附加说明。

This dataset offers a collection of recipes for various dishes, encompassing both raw data and a decomposed version tailored for ChatGPT. Each entry includes the recipe name, the original data containing ingredients and steps, as well as the decomposed data in JSON format for ChatGPT. The decomposed data comprises the name, URL (if available), ingredients, steps, and additional notes.
创建时间:
2024-03-11
原始信息汇总

数据集概述

数据集介绍

本数据集提供了多种菜肴的食谱,包括原始数据和适合ChatGPT使用的分解版本。每个条目包含食谱名称、包含食材和步骤的原始数据,以及为ChatGPT分解的JSON格式数据。分解数据包括名称、URL(如有)、食材、步骤和附加说明。

使用场景

该数据集适用于训练和测试自然语言处理模型,特别是涉及食谱分析、总结或理解的模型。此外,还可用于通过各种微调方法(如LoRA、QLoRA、RAG等)对大型语言模型进行微调。

数据集可用于以下任务:

  1. 食谱总结:根据原始数据或分解的JSON生成食谱的简洁摘要。
  2. 聊天机器人训练:训练聊天机器人理解和响应与烹饪或特定食谱相关的用户查询。
  3. 结构化数据处理:利用分解的JSON数据训练模型,从非结构化文本中提取结构化信息。
  4. 食谱推荐系统:开发基于用户偏好或饮食限制推荐食谱的系统。
  5. 提供新食谱:基于历史数据微调大型语言模型以生成新食谱。

数据字段

  1. 食谱标题
  2. 原始数据
  3. ChatGPT分解数据

数据集大小

共有164个条目。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Recipe Dataset的构建过程始于从Reddit的r/recipes子论坛中抓取数据,随后通过CHATGPT分解技术将原始数据转化为JSON格式。这一分解过程旨在模拟CHATGPT在处理问题时如何将复杂问题拆解为子问题,从而提升检索增强生成(RAG)系统的响应质量。最终,数据集包含了164条食谱条目,每条条目均包含食谱名称、原始数据以及分解后的JSON结构。
使用方法
Recipe Dataset的使用方法多样,主要应用于自然语言处理模型的训练与测试。用户可以利用原始数据进行食谱摘要生成或聊天机器人训练,而JSON格式的数据则更适合用于结构化数据处理和检索增强生成系统的开发。此外,该数据集还可用于食谱推荐系统的构建,通过分析用户偏好或饮食限制,生成个性化的食谱推荐。对于生成新食谱的任务,用户可以通过微调大型语言模型(LLMs)来基于历史数据生成创新食谱。
背景与挑战
背景概述
Recipe Dataset是一个专注于烹饪食谱的数据集,旨在为自然语言处理(NLP)模型提供丰富的训练和测试资源。该数据集由多个菜谱组成,每个菜谱包含原始数据以及经过分解的JSON格式数据,特别适用于与ChatGPT等大型语言模型的交互。数据集的核心研究问题在于如何通过结构化的数据提升NLP模型在食谱分析、总结和理解任务中的表现。其应用场景广泛,涵盖食谱摘要生成、聊天机器人训练、结构化数据处理以及食谱推荐系统等。该数据集的创建为烹饪领域的NLP研究提供了重要的数据支持,推动了相关技术的发展。
当前挑战
Recipe Dataset在构建和应用过程中面临多重挑战。首先,食谱数据的多样性和复杂性使得模型在处理不同烹饪风格和食材组合时难以保持一致性。其次,原始数据的非结构化特性增加了数据清洗和转换的难度,尤其是在将自然语言描述转换为结构化JSON格式时。此外,数据集的规模相对较小,可能限制了模型在更广泛场景下的泛化能力。最后,如何确保数据集的准确性和完整性,特别是在处理用户生成内容时,也是一个不容忽视的挑战。这些问题的解决将直接影响数据集在NLP任务中的实际应用效果。
常用场景
经典使用场景
Recipe Dataset在自然语言处理领域中被广泛应用于食谱分析和理解。该数据集通过提供详细的食谱信息,包括原材料和烹饪步骤,为模型训练提供了丰富的素材。特别是在食谱摘要生成和结构化数据处理任务中,该数据集展现了其独特的价值。通过分解后的JSON格式数据,研究人员可以更高效地提取和处理食谱中的关键信息,从而提升模型在相关任务中的表现。
解决学术问题
Recipe Dataset解决了自然语言处理领域中食谱相关任务的多个学术问题。首先,它通过提供结构化的食谱数据,帮助研究人员开发更高效的食谱摘要生成模型。其次,该数据集为训练聊天机器人提供了丰富的语料,使其能够更好地理解和回应用户关于烹饪的查询。此外,该数据集还支持食谱推荐系统的开发,通过分析用户偏好和饮食限制,提供个性化的食谱建议。
实际应用
在实际应用中,Recipe Dataset被广泛用于开发智能烹饪助手和食谱推荐系统。通过该数据集,开发者可以训练出能够理解复杂食谱指令的聊天机器人,帮助用户解决烹饪中的问题。此外,该数据集还被用于开发个性化食谱推荐系统,根据用户的饮食偏好和健康需求,提供定制化的食谱建议,提升用户的烹饪体验。
数据集最近研究
最新研究方向
在自然语言处理领域,Recipe Dataset的应用正逐渐拓展至多个前沿研究方向。该数据集不仅为菜谱分析和摘要生成提供了丰富的素材,还在大语言模型(LLMs)的微调中展现出重要价值。通过LoRA、QLoRA和RAG等微调方法,研究人员能够进一步提升模型在菜谱推荐、结构化数据处理以及新菜谱生成等任务中的表现。特别是在检索增强生成(RAG)系统中,数据集的CHATGPT分解格式为模型提供了精准的子问题生成能力,显著提升了问答系统的响应质量。此外,该数据集在智能烹饪助手和个性化饮食推荐系统的开发中也具有广泛的应用前景,推动了烹饪与人工智能的深度融合。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

btc

该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。

huggingface 收录