gastronomia-hispana-dpo

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/somosnlp-hackathon-2025/gastronomia-hispana-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了使用DPO（直接偏好优化）技术训练的语言模型在西班牙语美食领域的偏好对。数据包括关于国际烹饪的对话，特别关注食谱、食材、烹饪技术和世界西班牙语美食的传统。数据集包含选定的对话消息列表、被拒绝的对话消息列表、唯一食谱标识符、食谱名称和内容类别。

创建时间：

2025-05-30

原始信息汇总

Gastronomía Hispana DPO 数据集概述

数据集基本信息

许可证: MIT
语言: 西班牙语 (es)
标签: dpo, food, recipes
数据集名称: Recetas en Español DPO
数据规模: 1K<n<10K

数据集描述

包含用于直接偏好优化(DPO)训练的偏好对数据，专注于西班牙语世界的食谱、食材、烹饪技术和美食传统。

数据结构

chosen: 优选对话消息列表(ChatML格式)
rejected: 拒绝对话消息列表(ChatML格式)
recipe_id: 唯一食谱标识符(1-471)
recipe_name: 食谱名称
category: 内容类别

内容类别

ingredients: 食材相关问题
cooking_techniques: 烹饪技术问题
basic_recipe: 基础食谱
cultural_context: 菜品文化背景

数据集统计

总样本量: ~470个偏好对
唯一食谱数: 471
语言: 西班牙语
格式: 多轮对话

使用方式

加载方式

python from datasets import load_dataset dataset = load_dataset("somosnlp-hackathon-2025/gastronomia-hispana-dpo")

DPO训练示例

python from trl import DPOTrainer from transformers import AutoTokenizer, AutoModelForCausalLM

包含数据格式化示例和DPOTrainer使用代码

数据集特征

系统角色

食材专家
烹饪大师
厨师导师
美食历史学家

回答质量

优选回答: 详细、文化背景丰富、技术准确
拒绝回答: 基础、文化背景较少、信息有限

应用场景

西班牙美食聊天机器人
食谱推荐系统
烹饪教学系统
美食领域NLP研究
传统烹饪知识保存

局限性

主要关注西班牙和国际美食
仅西班牙语回答
知识截止至2025年1月
部分食谱需要特定地区食材

伦理考虑

需尊重代表的文化传统
商业应用前应验证烹饪信息
尊重国际美食文化多样性

引用格式

bibtex @dataset{gastronomia_hispana_dpo_2025, title={Gastronomía Hispana DPO: Dataset for Culinary Instruction Following}, author={SomosNLP Hackathon 2025}, year={2025}, url={https://huggingface.co/datasets/somosnlp-hackathon-2025/gastronomia-hispana-dpo} }

贡献与联系

由SomosNLP Hackathon 2025创建
欢迎通过仓库issue或联系SomosNLP团队提问

搜集汇总

数据集介绍

构建方式

Gastronomía Hispana DPO数据集专注于西班牙语烹饪知识的收集与整理，采用直接偏好优化（DPO）技术构建。数据来源于471种独特食谱的多轮对话，涵盖食材、烹饪技巧、基础食谱及文化背景四大类别。每对偏好数据包含优选和劣选的对话列表，通过ChatML格式结构化呈现，确保了数据的规范性和可扩展性。数据集的构建过程注重文化多样性和技术精确性，为烹饪领域的自然语言处理提供了高质量资源。

特点

该数据集以西班牙语烹饪知识为核心，突出多角色对话系统和丰富的文化背景信息。优选回答具有详细的技术解释和文化洞察，而劣选回答则相对简略。数据集特别设计了专家角色系统，包括食材专家、烹饪大师、厨师导师和美食历史学家，以多维度覆盖烹饪知识的各个层面。其独特的DPO结构为模型训练提供了明确的偏好信号，适用于开发专业级烹饪助手和文化教育工具。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，并利用TRL框架进行DPO训练。数据预处理阶段需将对话内容格式化为提示-响应对，其中首条消息作为提示，后续消息作为优选或劣选响应。训练过程中，DPOTrainer可有效利用这些偏好对优化模型行为。该数据集特别适合开发具有文化敏感性的烹饪问答系统、食谱推荐引擎以及烹饪教学工具，使用时需注意其地域性知识特点和西班牙语的语言限制。

背景与挑战

背景概述

Gastronomía Hispana DPO数据集由SomosNLP Hackathon 2025团队创建，专注于西班牙语世界的烹饪文化和传统。该数据集旨在通过直接偏好优化（DPO）技术，训练专门用于处理西班牙美食相关任务的模型。其核心研究问题围绕如何有效捕捉和传递烹饪知识，包括食谱、食材、烹饪技巧以及文化背景。该数据集不仅为烹饪教育和技术传承提供了重要资源，也为自然语言处理在特定领域的应用开辟了新途径。

当前挑战

该数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，如何准确捕捉和表达复杂的烹饪技巧和文化背景是一个关键挑战，因为烹饪知识通常涉及多层次的细节和文化特异性。在构建过程中，确保数据的高质量和多样性同样具有挑战性，特别是考虑到西班牙美食的广泛地域差异和文化多样性。此外，保持信息的时效性和准确性也是一个持续的挑战，因为烹饪技术和食材可用性可能会随时间变化。

常用场景

经典使用场景

在自然语言处理领域，Gastronomía Hispana DPO数据集为研究西班牙语烹饪对话系统提供了重要资源。该数据集通过直接偏好优化（DPO）技术，专门用于训练能够理解并生成西班牙语烹饪相关内容的语言模型。其多轮对话结构和专业角色划分，使得模型能够学习到从食材替代到传统烹饪技巧的全面知识，特别适合开发具有文化敏感性的烹饪助手。

实际应用

在实际应用层面，该数据集支撑了多个智能烹饪系统的开发。基于其训练的模型可部署于在线烹饪教学平台，提供西班牙传统菜谱的逐步指导；集成至智能厨房设备时，能根据用户现有食材推荐地道的替代方案；博物馆等文化机构亦可利用其构建交互式展陈，向访客生动解说伊比利亚半岛饮食文化的演变历程。

衍生相关工作

该数据集已催生多项创新研究，包括基于DPO的跨文化食谱生成系统、西班牙语烹饪问答模型微调框架等。其中最具代表性的是结合知识图谱的烹饪助手CocinaGPT，其核心技术便是在该数据集上进行的偏好学习。后续工作还拓展至饮食文化保护方向，如马德里理工大学开发的传统食谱数字化存档系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集