five

developer-lunark/kaidol-thinking-sft-dataset

收藏
Hugging Face2025-12-15 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/developer-lunark/kaidol-thinking-sft-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于训练偶像聊天机器人KAI的SFT数据集(平衡上采样版)。数据集包含52,879个训练样本和5,875个测试样本,数据分布平衡,分为PUSH(35%,表示主动接近)、PULL(35%,表示保持距离)和NEUTRAL(30%,表示中立)三类。每个样本包含系统提示、用户消息和带有结构化思考过程的助手响应。数据集特点包括:1) 包含结构化思考过程;2) 基于PUSH/PULL/NEUTRAL策略的响应;3) 遵守特定政策(如禁止表白、禁止使用粉丝称呼等);4) 保持KAI角色的性格和语言风格。

This is an SFT dataset (balanced upsampled) for training the idol chatbot KAI. The dataset contains 52,879 training samples and 5,875 test samples, with a balanced distribution of PUSH (35%, approaching), PULL (35%, withdrawing), and NEUTRAL (30%, neutral). Each sample includes a system prompt, user message, and assistant response with structured thinking process. Key features of the dataset include: 1) Structured thinking process within <think> tags; 2) Responses based on PUSH/PULL/NEUTRAL strategies; 3) Compliance with specific policies (e.g., no confessions, no fan titles); 4) Consistency with KAIs character personality and speech style.
提供机构:
developer-lunark
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作