Babaru_SFT_Dataset

Hugging Face2025-08-16 更新2025-08-17 收录

下载链接：

https://huggingface.co/datasets/stevenArtificial/Babaru_SFT_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Babaru SFT数据集是一个对话数据集，包含了一个名为Babaru的虚拟角色的对话，该角色是一个戏谑、戏剧化、关心他人的 plush-clown 医疗角色（适合13岁以上的成人）。助手的回复简短、符合医疗和心理安全，并以'*adjusts purple bowtie.*'开头。数据集经过精心清洗、重写和验证，确保了对话的自然流畅性和角色的一致性。

创建时间：

2025-08-11

原始信息汇总

Babaru SFT Dataset 概述

数据集基本信息

角色设定：Babaru，一个刻薄、戏剧化且关怀备至的毛绒小丑医生（面向13岁以上成年人）。
回复特点：简短、医学/心理安全，并以*adjusts purple bowtie.*开头。

文件结构

babaru_SFT_train.jsonl：监督微调训练数据（v1版本）。
babaru_SFT_val.jsonl：保留验证集。
babaru_SFT_train_GPT5_v4.jsonl：最新高质量GPT-5重写训练数据。
qc/：质量控制报告（HTML、CSV格式）。
data/：训练文件的日期快照。

数据格式

每行一个JSON对象，格式为{"messages": [{"role": "user"|"assistant", "content": "..."}, ...]}。

数据处理流程

原始流程（v1–v3）

FASTCLEAN：去除表情符号、标签和列表。
强制限制对话长度、开场白、标点和安全过滤器。
去重；使用Gemini 2.5对额外内容进行释义。
角色保留处理；修复截断；去除过长回答。
自动和人工QA检查连贯性和风格。
去重、打乱、分割为训练/验证集。

GPT-5重写更新（v4）

重写所有助手和用户对话（首次交流后）。
确保用户具有多样化的角色/态度。
强制Babaru更新后的语音聊天系统提示：更多玩笑、反应、调侃、赞美和戏剧化刻薄。
保证对话连贯性。
添加用户反应、欣赏或赞美的变化。
保留真实多轮对话的自然流程。

数据规范

助手对话（Babaru）

以*adjusts purple bowtie.*开头。
1–3句话；≤80词。
一段话；无列表/表情符号。
医学/心理安全；实用且机智。
无固定呼吸脚本（除非被问及）。
以简短刻薄的结尾结束。

用户对话

1–2句话；6–28词。
自然、对话式、角色驱动。
无角色标签；无角色名称提及。
多样化角色：刻薄、好奇、好玩、支持、怀疑等。
可提问、反应、赞美或玩笑。

加载方式

python from datasets import load_dataset

ds_train = load_dataset("json", data_files="babaru_SFT_train_GPT5_v4.jsonl", split="train") ds_val = load_dataset("json", data_files="babaru_SFT_val.jsonl", split="train")

训练笔记（Llama 3.2 1B / 3B）

LoRA：rank 8–16；alpha 16–32；dropout 0.05–0.1。
序列长度：中等；对话较短。
学习率：1e‑4到2e‑4，余弦衰减，2–5%预热。
批处理：按词元打包；微批处理以节省内存。
周期：2–3；观察验证损失和风格KPI。

风格KPI（验证集）

开场白合规率。
≤3句话，≤80词率。
无列表率。
刻薄结尾率。
用户长度对齐率。

提前停止

当验证损失平稳或风格KPI下降而损失仍在下降时。

质量控制快照（2025‑08‑16，v4）

指标	值
总对话数	8,126
助手开场白违规	0
助手>3句话	0
助手>80词	0
禁止宏提及	0
国家提及	0
无结束标点	0
截断助手对话	0
用户<6词	0
用户>28词	0

安全与限制

仅用于教育；非医疗设备。
无诊断；鼓励对危险信号寻求专业护理。
避免国家特定指导。

许可证

数据集许可证：待定（例如CC BY 4.0）。最终确定后更新。

联系方式

维护者：stevenArtificial。
目的：Babaru角色的SFT（简洁、机智、实用的健康/心理指导）。

搜集汇总

数据集介绍

构建方式

在医疗健康对话系统研究领域，Babaru_SFT_Dataset通过多阶段精细构建流程实现了高质量数据采集。原始数据经过FASTCLEAN预处理后，严格遵循角色设定规范，采用Gemini 2.5进行语义改写并配合人工质检，最终通过GPT-5重写优化对话连贯性。构建过程中特别注重医疗安全性过滤、角色一致性校验以及多轮对话自然度保持，形成包含8,126组对话的标准化语料库。

特点

该数据集最显著的特征在于其鲜明的角色设定与严谨的医学对话规范。Babaru作为戏剧化的医疗小丑角色，所有回复均以特定动作描述开头，并严格限定在1-3句、80词以内的精炼表达。对话内容既包含实用的医疗建议，又融合了幽默诙谐的收尾风格。用户侧则模拟了从好奇到怀疑等多元人格特征，构建出真实自然的医患互动场景，同时确保所有内容符合心理安全标准。

使用方法

研究人员可通过HuggingFace datasets库直接加载JSONL格式的对话数据，每条记录包含交替排列的用户与助手消息。使用时应保持Babaru标志性的紫色领结动作开场白，并注意对话轮次的自然衔接。该数据集特别适合用于1B-3B参数规模模型的监督微调，建议采用LoRA方法配合1e-4至2e-4学习率进行2-3个epoch的训练，过程中需同步监控风格指标与验证损失。

背景与挑战

背景概述

Babaru_SFT_Dataset是由stevenArtificial团队构建的监督微调数据集，专为塑造Babaru这一具有戏剧性、讽刺风格且富有同情心的虚拟角色而设计。该数据集聚焦于医疗与心理健康领域的对话生成，旨在通过精细化的文本处理和多轮对话优化，提升语言模型在特定角色设定下的表现力与安全性。数据集构建过程中采用了多轮迭代策略，包括原始数据处理、Gemini 2.5辅助改写以及GPT-5深度优化，确保了对话的连贯性与角色一致性。其核心研究问题在于如何通过高质量的数据标注与严格的风格控制，实现语言模型在特定角色设定下的自然交互与专业内容输出，对个性化对话系统的开发具有重要参考价值。

当前挑战

该数据集面临的主要挑战包括两方面：在领域问题层面，如何平衡医疗信息的专业性与对话的娱乐性，确保输出内容既符合医学安全标准，又保持角色设定的戏剧化风格；在构建过程中，需解决多轮对话的连贯性维护、角色风格的一致性控制以及用户多样性的模拟等问题。此外，数据清洗与改写过程中需严格避免信息失真，同时确保每一轮对话的响应均符合预设的格式与内容规范，这对自动化处理与人工校验提出了较高要求。

常用场景

经典使用场景

在对话系统与个性化AI助手的开发领域，Babaru_SFT_Dataset以其独特的角色设定和严谨的数据结构，成为训练具有鲜明人格特征的医疗咨询AI的黄金标准。该数据集通过模拟用户与Babaru——一位戏剧化且带讽刺关怀的玩偶医生——的多轮对话，为研究者提供了丰富的语境化交互样本。其经典应用体现在监督微调阶段，开发者可利用8,126组经过GPT-5重构的对话数据，训练模型掌握从开场白规范（如标志性的紫色领结调整动作）到医学安全回复的全套交互范式。

衍生相关工作

该数据集已催生多个对话系统领域的创新研究，包括基于LoRA的高效人格微调方法（秩8-16配置）、对话连贯性量化指标（转轮间连接强度分析）以及医疗AI的风格-内容解耦训练技术。其质量验证框架（开场白合规率、讽刺结尾百分比等KPI）更被后续工作如ClinicBot、MediJester等项目采纳为通用评估标准。最新进展显示，该数据集的多人格用户模拟范式正在被扩展到法律咨询、教育辅导等垂直领域。

数据集最近研究