kassyy-chatter-v2

Hugging Face2026-04-18 更新2026-04-19 收录

下载链接：

https://huggingface.co/datasets/raylek/kassyy-chatter-v2

下载链接

链接失效反馈

官方服务：

资源简介：

Kassyy Chatter v2 — SFT 数据集是一个专为 OnlyFans 聊天代理设计的多轮链式思考（CoT）训练数据集，源自约 1,300 条真实粉丝对话。数据集包含多个文件，如训练和验证窗口文件（`train_cot.jsonl` 和 `val_cot.jsonl`）、数据集元数据（`dataset_meta.json`）、聊天摘要（`chat_summaries.json`）以及安全训练记录（`safety_training_records.jsonl`）等。此外，数据集还定义了一系列特殊标记，用于链式思考、聊天动作、观察和状态跟踪。数据集采用了一种与创作者无关的插槽命名方案（`free_pic_1`, `free_pic_2` 等），适用于文本生成和对话任务。注意事项包括系统提示中不包含层级/收入标签、跨角色名称清洗、过滤中段性内容记录以及特定的冷却规则。

创建时间：

2026-04-18

原始信息汇总

Kassyy Chatter v2 数据集概述

数据集基本信息

名称：Kassyy Chatter v2 — SFT Dataset
许可证：other
任务类别：文本生成、对话
语言：英语

数据集描述

这是一个用于OnlyFans聊天代理的多轮思维链训练数据集，数据蒸馏自约1,300个真实的粉丝对话。

文件构成

train_cot.jsonl — 8,641个训练窗口（200轮滚动窗口，步长为50）
val_cot.jsonl — 614个验证窗口
dataset_meta.json — 数据划分统计信息及层级/角色分布
chat_summaries.json — 每个对话的摘要简报（包含WHO/SPEND/VIBE/WORKS/AVOID/...等信息），已注入系统提示中
safety_training_records.jsonl — 1,351个合成的安全/重定向示例（其中518个以6%的比例混入训练集）
safety_synthesized.jsonl / safety_labeled_opus.jsonl — 合成与分类器相关文件
axolotl_config.yaml — 训练配置（基于Hermes-3-70B LoRA，8xB200，序列长度24576，包含20多个特殊标记）

特殊标记

思维链标记：<think>, </think>
聊天代理动作标记：<send_ppv, <send_pic>, <send_vid>, <send_voice>, <send_gif>, <send_free
观察标记：<ppv_opened, <ppv_unopened, <tip_received, <fan_sent_pic>, <fan_sent_vid>, <fan_sent_voice>, <fan_sent_gif>
状态标记：<script_active=, <scripts_available=, <cooling=, <exhausted=

规范槽位词汇表

创作者无关的槽位名称，映射到每位创作者自己的资源库： free_pic_1, free_pic_2, free_vid, paid_vid_1..7, extra_pic, extra_vid, custom

数据处理说明

系统提示中不包含层级/收入标签，模型必须从对话中推断。
应用了跨角色名称擦除（训练期间包含13种角色变体）。
过滤了以性内容开始的记录（约1,500条被丢弃）。
遵循6小时脚本冷却规则，销售顺序中的最后一个槽位标记为耗尽状态。

搜集汇总

数据集介绍

构建方式

在社交互动与数字内容分发领域，Kassyy Chatter v2数据集通过蒸馏约1,300个真实粉丝对话构建而成，专注于多轮思维链训练数据的生成。该数据集采用滚动窗口技术，以200轮对话为窗口、50轮为步长，从原始对话中提取8,641个训练窗口和614个验证窗口，确保数据覆盖广泛且连贯。构建过程中，通过注入每对话摘要简报至系统提示，并应用跨人格名称擦除与过滤机制，移除了约1,500条涉及性内容起始的记录，以提升数据的安全性与泛化能力。

使用方法

使用Kassyy Chatter v2数据集时，研究人员可基于提供的axolotl_config.yaml配置，在Hermes-3-70B模型上进行LoRA微调，序列长度设置为24576，并整合20多个特殊标记以优化训练过程。数据集文件包括训练与验证的JSONL格式数据，以及元数据和安全训练记录，用户可通过注入chat_summaries.json中的摘要简报来增强系统提示，模拟真实场景。安全方面，合成与标记的安全示例以6%的比例混合到训练数据中，帮助模型学习重定向与安全响应策略，确保应用中的稳健性。

背景与挑战

背景概述

在人工智能与自然语言处理领域，对话系统的研究日益关注特定垂直场景下的应用需求。Kassyy Chatter v2数据集于近期由相关研究团队构建，旨在为OnlyFans平台上的聊天代理提供高质量的多轮思维链监督微调数据。该数据集基于约1,300个真实粉丝对话提炼而成，核心研究问题聚焦于如何在高度专业化的社交互动环境中，训练模型进行有效的销售引导、内容分发与用户关系维护。通过引入领域特定的动作标记与状态表示，该数据集推动了对话生成技术在商业化虚拟伴侣场景中的适应性探索，为个性化交互代理的研究提供了宝贵的实证资源。

当前挑战

该数据集所针对的领域问题在于虚拟社交场景中的销售导向对话生成，其挑战体现在模型需在无显式用户层级标签的条件下，从多轮对话中隐式推断消费意愿与互动状态，并生成符合商业策略的响应。构建过程中的挑战主要包括：真实对话数据涉及敏感隐私内容，需进行严格的匿名化与内容过滤以符合伦理规范；领域特定的动作与状态标记体系设计需兼顾通用性与可扩展性；以及如何平衡销售目标与自然对话流畅性，避免模型行为过于机械或冒犯用户。

常用场景

经典使用场景

在对话系统与生成式人工智能的研究领域，Kassyy Chatter v2数据集为多轮思维链（CoT）训练提供了典型范例。该数据集源自约1300个真实粉丝对话，通过200轮滚动窗口与50步长的策略构建，专门用于训练OnlyFans平台上的聊天代理。其核心应用场景在于模拟复杂社交互动中的序列决策过程，研究者可借此探究模型如何基于历史对话与特殊动作标记（如发送付费内容或接收打赏）生成连贯且符合商业逻辑的响应。

解决学术问题

该数据集主要针对对话系统中情境理解与长期记忆建模的学术挑战。通过引入思维链标记与状态观察符，它使模型能够显式推理对话背后的商业意图与用户状态，从而解决开放域对话中意图模糊与上下文连贯性维持的难题。其意义在于推动了面向特定垂直领域（如内容订阅平台）的对话智能体研究，为商业化人机交互场景提供了可复现的基准与数据范式。

实际应用

在实际应用中，Kassyy Chatter v2可直接用于训练自动化社交平台客服或内容推广代理。例如，在OnlyFans等创作者经济平台中，训练后的模型能够自主处理粉丝询问、管理付费内容推送，并依据用户互动模式调整销售策略。此类系统可显著降低创作者运营负担，同时通过模拟真实对话风格提升用户参与度与付费转化率，体现了生成式AI在数字内容产业中的落地潜力。

数据集最近研究