somosnlp/recetasdelaabuela_it
收藏Hugging Face2024-04-09 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/recetasdelaabuela_it
下载链接
链接失效反馈官方服务:
资源简介:
---
license: openrail
dataset_info:
features:
- name: question
dtype: string
- name: answer
dtype: string
splits:
- name: train
num_bytes: 18728921.868359473
num_examples: 18514
download_size: 10026323
dataset_size: 18728921.868359473
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
task_categories:
- question-answering
language:
- es
tags:
- food
size_categories:
- 10K<n<100K
---
# Nombre del dataset
Este dataset se llama 'RecetasDeLaAbuel@' y es un homenaje a todas nuestr@s abuel@s que nos han enseñado a cocinar. Se trata de la mayor y más completa colección de recetas open-source en español de países hispanoamericanos.
# Descripción
Dataset creado on el objetivo de entrenar un modelo que pueda recomendar recetas de paises hispanohablantes. Nuestra IA responderá a cuestiones de los sigientes tipos: 'Qué puedo cocinar con 3 ingredientes?', 'Dime una comida de temporada para este mes de Marzo?' , 'Sugiere un menú semanal vegetariano', 'Propón un menú mensual para una familia'
Este dataset es una version limpia del dataset [somosnlp/recetasdelaabuela_genstruct_it](https://huggingface.co/datasets/somosnlp/recetasdelaabuela_genstruct_it) que fue elaborado a partir de un contexto usando Genstruct-7B y distilabel. El dataset original es [somosnlp/RecetasDeLaAbuela](https://huggingface.co/datasets/somosnlp/RecetasDeLaAbuela) elaborado por el equipo recetasdelaabuela mediante web scraping.
## Notebook utilizada
Elaborado con el [colab](https://colab.research.google.com/drive/1-7OY5ORmOw0Uy_uazXDDqjWWkwCKvWbL?usp=sharing).
## Dataset Structure
Consiste en dos columnas: question , answer
- question: pregunta del usuario
- anwer: respuesta brindada por el modelo
## Dataset Creation
Este trabajo se ha basado y es continuación del trabajo desarrollado en el siguiente corpus durante el Hackhaton somosnlp 2023: [recetas-cocina](https://huggingface.co/datasets/somosnlp/recetas-cocina)
### Curation Rationale
Se filtaron aquellas respuestas que estaban vacias de momento, a futuro se planea reemplazarlas usando la herramienta argilla
### Source Data
- https://www.elmueble.com/
- https://www.yanuq.com/
- https://www.directoalpaladar.com/
- https://www.recetasgratis.net/
- https://cookpad.com/pe/
#### Data Collection and Processing
Se realizo web scraping de las paginas
提供机构:
somosnlp
原始信息汇总
数据集概述
基本信息
- 名称: RecetasDeLaAbuel@
- 许可证: openrail
- 语言: 西班牙语 (es)
- 任务类别: 问答 (question-answering)
- 标签: 食物 (food)
- 大小类别: 10K<n<100K
数据集结构
- 特征:
- question: 用户的问题,数据类型为字符串
- answer: 模型的回答,数据类型为字符串
数据集大小
- 下载大小: 10026323 字节
- 数据集大小: 18728921.868359473 字节
- 训练集:
- 示例数量: 18514
- 字节数: 18728921.868359473
数据集配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集创建
- 来源数据:
- https://www.elmueble.com/
- https://www.yanuq.com/
- https://www.directoalpaladar.com/
- https://www.recetasgratis.net/
- https://cookpad.com/pe/
- 数据收集和处理: 通过网页抓取 (web scraping) 收集数据
- 筛选理由: 目前筛选掉了空白的回答,未来计划使用工具 argilla 替换这些空白回答



