grumpy_chef_dataset
收藏github2026-02-26 更新2026-03-06 收录
下载链接:
https://github.com/benitomartin/grumpy-chef-finetuning-dpo
下载链接
链接失效反馈官方服务:
资源简介:
包含299个示例,有prompt、chosen(暴躁厨师语气)和rejected(中性/通用语气)列。数据集已发布到HuggingFace Hub。
This dataset consists of 299 examples, with three columns: prompt, chosen (with an irritable chef tone) and rejected (with a neutral/general tone). The dataset has been published on the HuggingFace Hub.
创建时间:
2026-02-11
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Grumpy Chef Fine-tuning with SFT + DPO
- 数据集源文件:
grumpy_chef_dataset.json - 数据集发布地址: https://huggingface.co/datasets/benitomartin/grumpy-chef-dpo
- 数据规模: 299个示例
- 数据划分: 训练集254条 / 评估集30条 / 推理集15条
数据结构
数据集包含以下列:
prompt: 烹饪相关的问题或提示。chosen: 以暴躁意大利厨师口吻给出的回答。rejected: 中性/通用口吻的回答。
数据示例
json { "prompt": "Can I rinse pasta after cooking?", "chosen": "Rinse it? RINSE IT?! No. You wash away the starch, the flavor, the soul. Pasta is not laundry.", "rejected": "Rinsing pasta is usually not recommended unless making cold pasta dishes." }
数据集用途
该数据集用于对基础模型 LiquidAI/LFM2.5-1.2B-Base 进行微调,使其模仿一位暴躁的意大利厨师进行回答。微调流程分为两个阶段:
- 监督微调 (SFT): 使用
prompt和chosen对进行训练,使模型学习暴躁厨师的语言风格。 - 直接偏好优化 (DPO): 使用包含
prompt、chosen和rejected的完整三元组进行训练,进一步优化模型输出,使其偏好chosen风格的回答。
相关模型
使用此数据集微调后导出的模型已发布至HuggingFace Hub:
- GGUF格式模型: https://huggingface.co/benitomartin/grumpy-chef-lfm2.5-1.2B-GGUF
- bf16合并模型 (vLLM就绪): https://huggingface.co/benitomartin/grumpy-chef-lfm2.5-1.2B-bf16
搜集汇总
数据集介绍

构建方式
在烹饪领域,为赋予语言模型特定的人格特质,Grumpy Chef数据集通过精心设计的流程构建而成。该数据集包含299个示例,每个示例由提示、被选回复(暴躁厨师语气)和拒绝回复(中性通用语气)三列组成。数据集的构建依托于监督微调与直接偏好优化的两阶段训练策略,首先利用SFT阶段使模型学习暴躁厨师的表达风格,随后通过DPO阶段进一步强化模型对偏好回复的区分能力。数据划分遵循254个训练样本、30个评估样本和15个推理样本的结构,确保了模型训练与验证的平衡性。
特点
Grumpy Chef数据集的核心特点在于其专注于模拟意大利暴躁厨师的语言风格,为烹饪问答场景注入了鲜明的人格化色彩。数据集中的被选回复充满情感张力与戏剧性表达,例如以夸张的修辞和强烈的否定语气回应烹饪疑问,与中性回复形成鲜明对比。这种设计不仅丰富了对话的趣味性,也为研究语言模型的人格化微调提供了高质量的偏好数据。数据集规模适中但标注精细,每个示例均经过严格筛选,确保风格一致性与内容相关性,为后续模型优化奠定了坚实基础。
使用方法
该数据集的使用方法紧密围绕模型微调与部署展开。用户可首先通过提供的Jupyter笔记本运行完整的训练流程,包括基础模型推理、SFT微调及DPO优化三个阶段。微调过程采用QLoRA技术以4位精度高效训练LoRA适配器,显著降低计算资源需求。完成训练后,模型可导出为GGUF或bf16格式,便于通过vLLM或Ollama等工具进行高效推理服务部署。用户只需简单命令行操作即可启动本地服务器,并通过API接口与模型交互,获取具有暴躁厨师风格的回答,实现个性化烹饪助手的功能。
背景与挑战
背景概述
在人工智能领域,赋予大型语言模型特定的人格与风格已成为一项前沿研究方向。Grumpy Chef数据集由研究人员benitomartin于近期创建,旨在探索如何通过监督微调与直接偏好优化技术,将基础语言模型LiquidAI/LFM2.5-1.2B-Base转化为一位脾气暴躁的意大利厨师角色。该数据集聚焦于烹饪问答场景,核心研究问题在于如何有效引导模型生成既符合专业知识又具备鲜明个性色彩的回应,从而推动对话系统在风格化与情感表达方面的能力边界。
当前挑战
该数据集致力于解决风格化对话生成的挑战,即如何使模型在提供准确烹饪建议的同时,稳定维持一种特定、夸张的人格特质,避免回复落入中性或通用语调。在构建过程中,挑战主要体现于高质量偏好数据的稀缺性:需人工精心设计并标注299组包含提示、优选(暴躁风格)与拒选(中性风格)的三元组,确保风格对比鲜明且内容准确。此外,微调过程需平衡人格注入与知识保留,防止模型过度拟人化而损害事实性,这对算法设计与超参数调整提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,Grumpy Chef数据集为研究语言模型个性化和风格迁移提供了典型范例。该数据集通过包含299个烹饪相关提示及其对应的“暴躁厨师”风格与中性风格的回应,常用于微调基础语言模型,使其能够生成具有特定情感色彩和角色特征的文本。研究者利用监督微调和直接偏好优化技术,将通用模型转化为能够模拟意大利厨师暴躁语气的专业助手,从而探索模型在保持事实准确性的同时如何注入鲜明人格特质。
实际应用
在实际应用层面,Grumpy Chef数据集催生了具有娱乐性和教育价值的智能烹饪助手。这类模型可集成于聊天机器人或智能家居设备中,为用户提供不仅准确且充满个性的烹饪建议,增强交互体验的趣味性。例如,在烹饪教学应用程序中,暴躁厨师的设定能吸引用户注意力,使学习过程更加生动,同时展示了小型专业数据集在垂直领域快速定制AI服务的潜力。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于监督微调与直接偏好优化的高效微调流程。相关研究借鉴了Unsloth加速框架与QLoRA量化技术,实现了在有限计算资源下对十亿参数模型的个性化改造。这些方法已被推广至其他角色扮演或风格化文本生成任务,为社区提供了可复现的模板,促进了轻量级适配器在个性化大语言模型中的应用探索。
以上内容由遇见数据集搜集并总结生成



