five

somosnlp/recetasdelaabuela_it

收藏
Hugging Face2024-04-09 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/recetasdelaabuela_it
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: openrail dataset_info: features: - name: question dtype: string - name: answer dtype: string splits: - name: train num_bytes: 18728921.868359473 num_examples: 18514 download_size: 10026323 dataset_size: 18728921.868359473 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - question-answering language: - es tags: - food size_categories: - 10K<n<100K --- # Nombre del dataset Este dataset se llama 'RecetasDeLaAbuel@' y es un homenaje a todas nuestr@s abuel@s que nos han enseñado a cocinar. Se trata de la mayor y más completa colección de recetas open-source en español de países hispanoamericanos. # Descripción Dataset creado on el objetivo de entrenar un modelo que pueda recomendar recetas de paises hispanohablantes. Nuestra IA responderá a cuestiones de los sigientes tipos: 'Qué puedo cocinar con 3 ingredientes?', 'Dime una comida de temporada para este mes de Marzo?' , 'Sugiere un menú semanal vegetariano', 'Propón un menú mensual para una familia' Este dataset es una version limpia del dataset [somosnlp/recetasdelaabuela_genstruct_it](https://huggingface.co/datasets/somosnlp/recetasdelaabuela_genstruct_it) que fue elaborado a partir de un contexto usando Genstruct-7B y distilabel. El dataset original es [somosnlp/RecetasDeLaAbuela](https://huggingface.co/datasets/somosnlp/RecetasDeLaAbuela) elaborado por el equipo recetasdelaabuela mediante web scraping. ## Notebook utilizada Elaborado con el [colab](https://colab.research.google.com/drive/1-7OY5ORmOw0Uy_uazXDDqjWWkwCKvWbL?usp=sharing). ## Dataset Structure Consiste en dos columnas: question , answer - question: pregunta del usuario - anwer: respuesta brindada por el modelo ## Dataset Creation Este trabajo se ha basado y es continuación del trabajo desarrollado en el siguiente corpus durante el Hackhaton somosnlp 2023: [recetas-cocina](https://huggingface.co/datasets/somosnlp/recetas-cocina) ### Curation Rationale Se filtaron aquellas respuestas que estaban vacias de momento, a futuro se planea reemplazarlas usando la herramienta argilla ### Source Data - https://www.elmueble.com/ - https://www.yanuq.com/ - https://www.directoalpaladar.com/ - https://www.recetasgratis.net/ - https://cookpad.com/pe/ #### Data Collection and Processing Se realizo web scraping de las paginas
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 名称: RecetasDeLaAbuel@
  • 许可证: openrail
  • 语言: 西班牙语 (es)
  • 任务类别: 问答 (question-answering)
  • 标签: 食物 (food)
  • 大小类别: 10K<n<100K

数据集结构

  • 特征:
    • question: 用户的问题,数据类型为字符串
    • answer: 模型的回答,数据类型为字符串

数据集大小

  • 下载大小: 10026323 字节
  • 数据集大小: 18728921.868359473 字节
  • 训练集:
    • 示例数量: 18514
    • 字节数: 18728921.868359473

数据集配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: data/train-*

数据集创建

  • 来源数据:
    • https://www.elmueble.com/
    • https://www.yanuq.com/
    • https://www.directoalpaladar.com/
    • https://www.recetasgratis.net/
    • https://cookpad.com/pe/
  • 数据收集和处理: 通过网页抓取 (web scraping) 收集数据
  • 筛选理由: 目前筛选掉了空白的回答,未来计划使用工具 argilla 替换这些空白回答
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作