five

13k-recipes|食谱数据数据集|数据分析数据集

收藏
github2023-12-09 更新2024-05-31 收录
食谱数据
数据分析
下载链接:
https://github.com/josephrmartinez/recipe-dataset
下载链接
链接失效反馈
资源简介:
包含13,000个食谱的简单数据集,每个食谱包括菜名、食材和制作步骤。数据集来源于从Epicurious网站抓取的数据,并上传至Kaggle。

A straightforward dataset comprising 13,000 recipes, each detailing the dish name, ingredients, and preparation steps. The dataset was sourced from data scraped from the Epicurious website and subsequently uploaded to Kaggle.
创建时间:
2023-12-02
原始信息汇总

数据集概述

数据集名称

  • 13k-recipes.csv
  • 13k-recipes.db
  • 5k-recipes.db

数据集大小

  • 13k-recipes.csv: 26.6 mb
  • 13k-recipes.db: 26 mb
  • 5k-recipes.db: 9.9 mb

数据集内容

  • 包含13,000个食谱的CSV和数据库文件。
  • 包含前5,000个食谱的数据库文件。
  • 每个数据库中的"recipes"表包含以下三列:
    • Title: 菜肴名称。
    • Ingredients: 食材列表。
    • Instructions: 制作步骤。

数据集结构

sql CREATE TABLE "recipes" ( [id] INTEGER PRIMARY KEY, [Title] TEXT, [Ingredients] TEXT, [Instructions] TEXT );

示例数据

id Title Ingredients Instructions
29 Baigan Chokha [2 large Italian eggplants, 1 tablespoon canola oil, ½ medium onion, chopped, 2 cloves garlic, finely chopped, 1 small tomato, chopped, ¼ teaspoon coarse salt, or to taste, Freshly ground black pepper to taste, 1 tablespoon coarsely chopped cilantro, Roti, for serving] Prepare a hot grill or preheat the broiler.<br>With a fork, pierce the eggplants all over, and place on the grill or under the broiler. Grill or broil until completely charred and soft, about 20 minutes, turning frequently (the eggplants will brown and blister quickly). Remove and allow to cool. <br>Once cool, cut open the eggplants and scrape out the flesh. The flesh should be soft to the touch and pulpy, and should easily come away from the skin. Set aside. <br>Heat the canola oil in a frying pan. Add the onion and sauté until translucent. Add the garlic and fry until the garlic turns a dark golden brown, then add the tomato and fry for 1 to 2 minutes.<br>Stir in the mashed eggplant and cook for about 2 minutes. Season with salt and black pepper to taste.<br>Garnish with the cilantro and serve with roti.

许可证

CC BY-SA 3.0

AI搜集汇总
数据集介绍
main_image_url
构建方式
13k-recipes数据集源自Epicurious网站的数据爬取,原始数据集包含超过13,500个食谱及相应图片,总大小超过200MB。为了简化数据并提高使用效率,该数据集在保留文本内容的基础上,移除了图片数据,最终生成了包含13,000个食谱的CSV文件和数据库文件。每个食谱均包含菜名、食材和烹饪步骤三个核心字段,数据以结构化的方式存储,便于后续分析与应用。
特点
13k-recipes数据集以其简洁性和实用性著称,专注于食谱的文本信息,包括菜名、食材和烹饪步骤。数据集提供了两种格式:CSV文件和SQLite数据库文件,分别适用于不同的数据处理需求。数据内容未经过修改,保留了原始网站的真实信息,确保了数据的可靠性和真实性。此外,数据集还提供了5,000个食谱的简化版本,便于用户快速上手和测试。
使用方法
用户可通过CSV文件或SQLite数据库文件直接访问13k-recipes数据集。对于数据分析任务,CSV文件可直接导入到数据分析工具中进行处理;对于需要复杂查询的场景,SQLite数据库文件提供了更高效的数据检索能力。此外,数据集附带的教程详细介绍了如何利用Datasette工具实现语义搜索功能,帮助用户快速构建基于食谱的搜索应用。数据集的开放性和结构化设计使其适用于机器学习、自然语言处理以及食谱推荐系统等多种应用场景。
背景与挑战
背景概述
13k-recipes数据集是一个专注于烹饪食谱的开放数据集,由Epicurious网站的数据爬取而来,最初发布于Kaggle平台。该数据集包含了13,000条食谱,每条记录包括菜名、食材和烹饪步骤。数据集的主要研究人员或机构并未明确提及,但其创建时间可追溯至数据集在Kaggle上的首次发布。该数据集的核心研究问题在于如何通过结构化的食谱数据支持烹饪领域的语义搜索和食谱推荐系统。13k-recipes数据集为烹饪领域的研究者和开发者提供了丰富的文本数据资源,推动了食谱分析、自然语言处理以及个性化推荐系统的发展。
当前挑战
13k-recipes数据集在解决烹饪领域的语义搜索和食谱推荐问题时面临多重挑战。首先,食谱文本的多样性使得语义理解和信息提取变得复杂,尤其是食材和烹饪步骤的非标准化表达增加了数据处理的难度。其次,数据集的构建过程中,原始数据包含大量图像信息,但为了简化数据集,图像被移除,这可能限制了多模态研究的可能性。此外,数据来源的单一性(仅来自Epicurious网站)可能导致数据偏差,限制了模型的泛化能力。最后,尽管数据集提供了丰富的文本信息,但缺乏对食谱的营养成分、烹饪时间等元数据的标注,这可能限制了其在健康饮食和个性化推荐领域的应用潜力。
常用场景
经典使用场景
13k-recipes数据集广泛应用于烹饪领域的自然语言处理研究,尤其是在食谱文本的语义分析和信息提取方面。研究者利用该数据集中的食谱标题、成分和制作步骤,开发出能够自动解析和理解食谱内容的算法。这些算法不仅能够帮助用户快速检索特定食谱,还能为智能厨房设备提供操作指导。
实际应用
在实际应用中,13k-recipes数据集为智能烹饪助手、个性化食谱推荐系统以及健康饮食管理工具的开发提供了重要支持。例如,基于该数据集的智能助手能够根据用户提供的食材推荐合适的食谱,并生成详细的烹饪步骤,极大地提升了用户的烹饪体验。
衍生相关工作
13k-recipes数据集衍生了许多经典的研究工作,如基于深度学习的食谱生成模型、食谱成分的语义搜索系统以及跨文化食谱的适配算法。这些研究不仅推动了烹饪领域的技术进步,还为其他领域的文本处理研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例,涵盖多种类型的演绎推理。结果表明,最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录