Claude-4.0-DeepSeek-R1-RP-SFWish

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/SuperbEmphasis/Claude-4.0-DeepSeek-R1-RP-SFWish

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含随机生成的对话响应的数据集，对话基于特定情节类别。每个响应的长度是动态变化的，LLM以第三人称或第一人称回应。数据集经过清理并转换为OpenAI对话格式，同时保留了原始的对话输出。数据集增加了Claude Haiku和其他诗歌格式的对话，并使用Deepseek R1模型增加了更多的对话内容。数据集遵循PG-13限制，保证内容适合所有年龄层。

创建时间：

2025-05-28

原始信息汇总

数据集概述

基本信息

数据集名称: Claude-4.0-DeepSeek-R1-RP-SFWish
数据量级: 小于1K（n<1K）
配置名称: Roleplay
数据文件: data.json

数据生成方式

使用Python脚本生成特定类别的随机情节。
每个情节生成5-15个随机长度的响应。
响应视角：
- 2/3概率为第三人称
- 1/3概率为第一人称
使用另一个模型进行响应清理（处理截断句子等问题）。
最终处理为OpenAI对话格式。

数据内容

包含Claude Haiku、Claude Sonnet 3.7和4.0以及少量Opus生成的对话。
包含400个新增的Deepseek R1生成对话（5-15+轮次）。
移除了"thinking"部分（计划在另一个数据集中包含）。
格式要求：PG-13级别，确保为SFW（适合工作场所）数据集。

数据格式

当前格式：OpenAI对话格式
同时包含RAW原始对话输出

更新记录

5/29：新增大量Claude Haiku对话及部分Claude Sonnet 3.7/4.0对话
6/2：新增400个Deepseek R1生成的对话

其他信息

生成成本：约20美元（主要来自Anthropic，Deepseek R1成本较低）

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的Python脚本构建，脚本能够自动生成特定类别的随机剧情，并产生5至15条动态响应。响应长度从预设列表中随机选取，以保持多样性，其中三分之二的响应采用第三人称，三分之一采用第一人称。生成后，经过另一模型的清理步骤，确保语句完整性，并转换为OpenAI对话格式。此外，还保留了原始响应数据，便于后续处理。数据集的构建过程融合了多种模型，包括Claude Haiku、Sonnet 3.7、4.0以及Deepseek R1，确保了内容的丰富性和高质量。

特点

数据集以安全内容为核心，严格限制场景为PG-13级别，确保适合广泛使用。响应动态多样，涵盖不同人称视角，增强了数据的实用性。数据集包含大量多轮对话，尤其注重Claude Haiku和Deepseek R1的生成内容，提供了丰富的对话样本。此外，数据格式灵活，既包含OpenAI对话格式，也保留了原始响应，便于不同场景下的应用。

使用方法

数据集适用于对话系统训练、自然语言处理研究等场景。使用时可直接加载data.json文件，其中包含完整的对话数据。若需原始响应，可参考附带的RAW数据。数据格式兼容OpenAI对话标准，便于集成到现有流程中。对于需要多轮对话或特定人称视角的研究，该数据集提供了丰富的样本支持。用户还可根据需求进一步处理数据，例如提取特定模型生成的响应或调整格式。

背景与挑战

背景概述

Claude-4.0-DeepSeek-R1-RP-SFWish数据集是由独立研究者于2024年5月至6月间创建的对话生成数据集，专注于角色扮演场景下的安全对话内容生成。该数据集通过精心设计的Python脚本，结合Claude Haiku、Sonnet 3.7、4.0以及Deepseek R1等多种大语言模型，生成了包含5-15轮对话的多样化角色扮演场景。数据集的独特之处在于其严格的内容控制机制，确保所有对话内容符合PG-13标准，为安全对话生成研究提供了高质量资源。

当前挑战

该数据集面临的核心挑战在于平衡生成内容的多样性与安全性。在技术层面，需要解决大语言模型生成内容的不稳定性问题，如句子截断和格式一致性。数据构建过程中的主要难点包括：多模型协同生成的成本控制，特别是Claude Opus模型的高昂使用费用；对话轮次与内容质量的权衡，确保长对话的连贯性；以及严格的PG-13内容过滤机制的实现。此外，保持第一人称与第三人称视角的自然切换，同时维持角色扮演场景的真实性，也是该数据集构建过程中的重要技术挑战。

常用场景

经典使用场景

在自然语言处理领域，Claude-4.0-DeepSeek-R1-RP-SFWish数据集为角色扮演对话系统的开发提供了丰富的素材。该数据集通过精心设计的脚本生成多样化对话情节，并采用不同人称视角的回应策略，为研究者构建具有动态交互能力的对话模型奠定了数据基础。其独特的PG-13内容过滤机制确保了数据的安全性和适用性。

解决学术问题

该数据集有效解决了对话系统中角色一致性保持、多轮对话连贯性建模等关键学术难题。通过包含5-15轮次的深度对话样本，为研究长程依赖关系下的语言生成提供了实验平台。其精心设计的响应长度随机分布和视角切换机制，为探索对话风格多样性控制提供了重要参考。

衍生相关工作

基于该数据集特性，已衍生出多个对话系统优化方向的研究。包括基于响应长度预测的对话节奏控制、第三人称视角生成的一致性保持方法等。其安全过滤机制也为后续SFW对话数据集建设提供了技术参考，推动了伦理AI对话系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集