cn-role-play-we-with-no-tomorrow-fell-in-love-yesterday
收藏Hugging Face2025-05-11 更新2025-05-12 收录
下载链接:
https://huggingface.co/datasets/ScratchThePlan/cn-role-play-we-with-no-tomorrow-fell-in-love-yesterday
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于小说的角色扮演中文文本生成数据集,大小在1K到10K之间。
This is a Chinese text generation dataset for novel-based role-playing tasks, with a scale ranging from 1K to 10K.
创建时间:
2025-05-11
原始信息汇总
数据集概述
基本信息
- 名称: cn-role-play-we-with-no-tomorrow-fell-in-love-yesterday
- 许可证: Apache-2.0
- 任务类别: 文本生成 (text-generation)
- 语言: 中文 (zh)
- 标签: roleplay, Roleplay, roly-play
- 数据规模: 1K<n<10K
数据来源
- 基础来源: 基于小说 https://www.bilinovel.com/novel/3279.html
数据集特点
- 类型: 中文角色扮演数据集
搜集汇总
数据集介绍

构建方式
该数据集构建于中文网络小说《我们与明天相恋,与昨日相恋》的文本内容,源数据来自哔哩轻小说平台的公开章节。通过系统化采集小说对话场景中的角色互动文本,筛选具有典型角色扮演特征的对话片段,构建了以人物关系发展为脉络的语料库。数据预处理过程中保留了原始对话的语境信息和情感表达,同时进行了匿名化处理和格式标准化。
特点
作为专注于角色扮演领域的语料库,该数据集以中文对话为核心特征,包含数千条富有情感张力的互动文本。数据呈现多轮对话结构,完整保留了人物性格特征和关系发展轨迹,对话内容涵盖情感交流、冲突解决等多种戏剧性场景。其独特的价值在于真实反映了中文语境下虚构角色的语言风格和互动模式,为角色扮演类自然语言处理任务提供了高质量素材。
使用方法
该数据集适用于角色扮演对话系统的训练与评估,研究者可将其用于生成式对话模型的微调。使用时应保持对话轮次的完整性,建议结合角色身份信息进行上下文建模。数据加载后可按场景或人物关系进行划分,用于训练角色一致性保持、情感响应生成等特定任务。需要注意遵循原始小说的版权声明,不得用于商业用途。
背景与挑战
背景概述
cn-role-play-we-with-no-tomorrow-fell-in-love-yesterday数据集是专注于中文角色扮演领域的文本生成资源,其构建灵感源自网络小说《我们与明天的世界坠入爱河》。该数据集由开源社区于Apache 2.0许可下发布,旨在为对话系统、互动叙事等自然语言处理任务提供高质量的语料支持。通过捕捉小说中丰富的角色互动和情感表达,该数据集填补了中文角色扮演数据在细粒度情感对话建模方面的空白,为虚拟角色拟人化研究提供了新的基准。
当前挑战
该数据集面临的核心挑战体现在领域问题与构建过程两个维度。在领域层面,角色扮演文本需同时解决多轮对话连贯性、角色性格一致性以及情感动态迁移等复杂语言建模问题。构建过程中,原始网络文学数据的非结构化特性导致角色对话剥离、场景标注等预处理工作面临巨大挑战,且需克服口语化表达造成的语法噪声。此外,如何平衡文本创造性与语言规范性,亦是该数据集优化的关键难点。
常用场景
经典使用场景
在角色扮演对话系统研究中,该数据集为中文虚拟角色互动提供了丰富的语料基础。其独特的文学改编背景使得对话生成模型能够学习到具有故事连贯性和情感深度的表达方式,特别适合用于构建具有叙事能力的对话系统。
解决学术问题
该数据集有效解决了中文角色扮演对话系统中缺乏高质量文学改编语料的难题。通过提供基于网络小说的结构化对话数据,为研究者探究人物性格建模、情感一致性保持等关键问题提供了实验基础,推动了叙事型对话系统的学术进展。
衍生相关工作
围绕该数据集已衍生出多项关于角色一致性保持的研究工作,包括基于注意力机制的角色特征建模、对话历史感知的生成策略等。这些工作推动了中文角色扮演对话系统在语义连贯性和情感表达方面的技术进步。
以上内容由遇见数据集搜集并总结生成



