five

13k-recipes

收藏
github2023-12-09 更新2024-05-31 收录
下载链接:
https://github.com/josephrmartinez/recipe-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
包含13,000个食谱的简单数据集,每个食谱包括菜名、食材和制作步骤。数据集来源于从Epicurious网站抓取的数据,并上传至Kaggle。

A straightforward dataset comprising 13,000 recipes, each detailing the dish name, ingredients, and preparation steps. The dataset was sourced from data scraped from the Epicurious website and subsequently uploaded to Kaggle.
创建时间:
2023-12-02
原始信息汇总

数据集概述

数据集名称

  • 13k-recipes.csv
  • 13k-recipes.db
  • 5k-recipes.db

数据集大小

  • 13k-recipes.csv: 26.6 mb
  • 13k-recipes.db: 26 mb
  • 5k-recipes.db: 9.9 mb

数据集内容

  • 包含13,000个食谱的CSV和数据库文件。
  • 包含前5,000个食谱的数据库文件。
  • 每个数据库中的"recipes"表包含以下三列:
    • Title: 菜肴名称。
    • Ingredients: 食材列表。
    • Instructions: 制作步骤。

数据集结构

sql CREATE TABLE "recipes" ( [id] INTEGER PRIMARY KEY, [Title] TEXT, [Ingredients] TEXT, [Instructions] TEXT );

示例数据

id Title Ingredients Instructions
29 Baigan Chokha [2 large Italian eggplants, 1 tablespoon canola oil, ½ medium onion, chopped, 2 cloves garlic, finely chopped, 1 small tomato, chopped, ¼ teaspoon coarse salt, or to taste, Freshly ground black pepper to taste, 1 tablespoon coarsely chopped cilantro, Roti, for serving] Prepare a hot grill or preheat the broiler.<br>With a fork, pierce the eggplants all over, and place on the grill or under the broiler. Grill or broil until completely charred and soft, about 20 minutes, turning frequently (the eggplants will brown and blister quickly). Remove and allow to cool. <br>Once cool, cut open the eggplants and scrape out the flesh. The flesh should be soft to the touch and pulpy, and should easily come away from the skin. Set aside. <br>Heat the canola oil in a frying pan. Add the onion and sauté until translucent. Add the garlic and fry until the garlic turns a dark golden brown, then add the tomato and fry for 1 to 2 minutes.<br>Stir in the mashed eggplant and cook for about 2 minutes. Season with salt and black pepper to taste.<br>Garnish with the cilantro and serve with roti.

许可证

CC BY-SA 3.0

搜集汇总
数据集介绍
main_image_url
构建方式
13k-recipes数据集源自Epicurious网站的数据爬取,原始数据集包含超过13,500个食谱及相应图片,总大小超过200MB。为了简化数据并提高使用效率,该数据集在保留文本内容的基础上,移除了图片数据,最终生成了包含13,000个食谱的CSV文件和数据库文件。每个食谱均包含菜名、食材和烹饪步骤三个核心字段,数据以结构化的方式存储,便于后续分析与应用。
特点
13k-recipes数据集以其简洁性和实用性著称,专注于食谱的文本信息,包括菜名、食材和烹饪步骤。数据集提供了两种格式:CSV文件和SQLite数据库文件,分别适用于不同的数据处理需求。数据内容未经过修改,保留了原始网站的真实信息,确保了数据的可靠性和真实性。此外,数据集还提供了5,000个食谱的简化版本,便于用户快速上手和测试。
使用方法
用户可通过CSV文件或SQLite数据库文件直接访问13k-recipes数据集。对于数据分析任务,CSV文件可直接导入到数据分析工具中进行处理;对于需要复杂查询的场景,SQLite数据库文件提供了更高效的数据检索能力。此外,数据集附带的教程详细介绍了如何利用Datasette工具实现语义搜索功能,帮助用户快速构建基于食谱的搜索应用。数据集的开放性和结构化设计使其适用于机器学习、自然语言处理以及食谱推荐系统等多种应用场景。
背景与挑战
背景概述
13k-recipes数据集是一个专注于烹饪食谱的开放数据集,由Epicurious网站的数据爬取而来,最初发布于Kaggle平台。该数据集包含了13,000条食谱,每条记录包括菜名、食材和烹饪步骤。数据集的主要研究人员或机构并未明确提及,但其创建时间可追溯至数据集在Kaggle上的首次发布。该数据集的核心研究问题在于如何通过结构化的食谱数据支持烹饪领域的语义搜索和食谱推荐系统。13k-recipes数据集为烹饪领域的研究者和开发者提供了丰富的文本数据资源,推动了食谱分析、自然语言处理以及个性化推荐系统的发展。
当前挑战
13k-recipes数据集在解决烹饪领域的语义搜索和食谱推荐问题时面临多重挑战。首先,食谱文本的多样性使得语义理解和信息提取变得复杂,尤其是食材和烹饪步骤的非标准化表达增加了数据处理的难度。其次,数据集的构建过程中,原始数据包含大量图像信息,但为了简化数据集,图像被移除,这可能限制了多模态研究的可能性。此外,数据来源的单一性(仅来自Epicurious网站)可能导致数据偏差,限制了模型的泛化能力。最后,尽管数据集提供了丰富的文本信息,但缺乏对食谱的营养成分、烹饪时间等元数据的标注,这可能限制了其在健康饮食和个性化推荐领域的应用潜力。
常用场景
经典使用场景
13k-recipes数据集广泛应用于烹饪领域的自然语言处理研究,尤其是在食谱文本的语义分析和信息提取方面。研究者利用该数据集中的食谱标题、成分和制作步骤,开发出能够自动解析和理解食谱内容的算法。这些算法不仅能够帮助用户快速检索特定食谱,还能为智能厨房设备提供操作指导。
实际应用
在实际应用中,13k-recipes数据集为智能烹饪助手、个性化食谱推荐系统以及健康饮食管理工具的开发提供了重要支持。例如,基于该数据集的智能助手能够根据用户提供的食材推荐合适的食谱,并生成详细的烹饪步骤,极大地提升了用户的烹饪体验。
衍生相关工作
13k-recipes数据集衍生了许多经典的研究工作,如基于深度学习的食谱生成模型、食谱成分的语义搜索系统以及跨文化食谱的适配算法。这些研究不仅推动了烹饪领域的技术进步,还为其他领域的文本处理研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作