five

somosnlp/RecetasDeLaAbuela

收藏
Hugging Face2024-06-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/RecetasDeLaAbuela
下载链接
链接失效反馈
官方服务:
资源简介:
数据集RecetasDeLaAbuel@是一个包含西班牙语烹饪食谱的开放源代码数据集,涵盖了西班牙语国家的典型食谱。数据集包含超过280k个元素,包括食谱的标题、描述、成分、准备步骤等14个属性。数据集通过网页抓取技术收集,并经过Python脚本处理。数据集旨在创建一个智能烹饪助手,能够回答与烹饪相关的问题。

The dataset RecetasDeLaAbuel@ is an open-source collection of Spanish-language cooking recipes, covering typical recipes from Spanish-speaking countries. The dataset contains over 280k elements, including recipe titles, descriptions, ingredients, preparation steps, and 14 other attributes. The data was collected through web scraping techniques and processed using Python scripts. The dataset aims to create an intelligent cooking assistant capable of answering cooking-related questions.
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 名称: RecetasDeLaAbuel@
  • 许可证: openrail
  • 语言: 西班牙语 (es)
  • 类别:
    • 任务: 问答, 摘要
    • 大小: 10K<n<100K
    • 标签: 食谱, 烹饪, recetas, cocina

数据集结构

  • 格式: 表格形式 (20k x 14)
  • 字段:
    1. Id: 数字标识符
    2. Nombre: 食谱名称
    3. URL: 来源网页
    4. Ingredientes: 使用的食材
    5. Pasos: 准备步骤
    6. País: 食谱原产国的ISO_A3代码
    7. Duracion (HH:MM): 预计准备时间
    8. Categoria: 食谱类型
    9. Contexto: 使用/消费环境或食谱背景
    10. Valoracion y Votos: 评分1-5及投票数
    11. Comensales: 份数
    12. Tiempo: 菜肴时间
    13. Dificultad: 难度等级
    14. Valor nutricional: 基本营养特征

数据来源

  • 信息基本通过web scrapping技术收集和处理。
  • 原始信息来自不同网站:
    • 免费烹饪食谱
    • 秘鲁烹饪
    • 墨西哥烹饪
    • 哥伦比亚烹饪

数据处理

  • 使用Python脚本进行数据处理,包括清理和数据集整理。

统计信息

  • 包含20447条食谱记录。

使用政策

  • 旨在创建最佳西班牙语智能烹饪助手,集合拉丁美洲国家食谱,改善与食物准备和烹饪的关系。
  • 不适用于未包含在欧盟AI政策中的用途。

模型训练

  • 使用HuggingFace在AWS sa-east-1区域进行,估计总排放量为0.7 kg eq. CO2。

链接

  • 仓库: https://huggingface.co/datasets/somosnlp/RecetasDeLaAbuela
  • GitHub: https://github.com/recetasdelaabuela/somosnlp
  • 论文: https://github.com/recetasdelaabuela/somosnlp/blob/main/Paper/LatinX_NAACL_2024-3-1.pdf
  • 表格格式数据集: https://huggingface.co/datasets/somosnlp/RecetasDeLaAbuela

模型链接

  • LLM Gemma 7b 20k RecetasDeLaAbuel@: https://huggingface.co/somosnlp/recetasdelaabuela-0.03
  • LLM Gemma 2b 20k RecetasDeLaAbuel@: https://huggingface.co/somosnlp/RecetasDeLaAbuela_gemma-2b-it-bnb-4bit
  • LLM Tiny Llama 1.1B RecetasDeLaAbuel@: https://huggingface.co/somosnlp/recetasdelaabuela-0.03
  • LLM 5k RecetasDeLaAbuel@: https://huggingface.co/somosnlp/RecetasDeLaAbuela5k_gemma-2b-bnb-4bit

环境影响

  • 实验在AWS sa-east-1区域进行,碳效率为0.2 kg CO2 eq/kWh,总估计排放量为0.7 kg eq. CO2。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作