five

TypaRP-12x2k

收藏
Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://huggingface.co/datasets/XeTute/TypaRP-12x2k
下载链接
链接失效反馈
官方服务:
资源简介:
TypaRP 12x2k是一个包含2048个角色扮演对话的数据集,每个对话包含12条消息。数据集采用了Markdown格式,并以JSON格式存储。该数据集适用于文本生成和文本到文本生成的任务。
创建时间:
2025-04-06
原始信息汇总

TypaRP-12x2k 数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 文本生成、文本到文本生成
  • 语言: 英语
  • 标签: RP、角色扮演、对话、聊天、指令调优、合成数据
  • 数据规模: 1K<n<10K

数据集内容

  • 数据量: 2,048 个对话
  • 对话长度: 每个对话包含 12 条消息(包括系统提示)
  • 格式: 使用常见的 Markdown 格式,其中动作以斜体文本样式表示,想法以斜体括号表示等。
  • 上下文长度: 约 10,240 LLaMA3.1 tokens 或更多。

数据格式

json [ [ { "role": "system / user / assistant", "content": "..." }, repeat + 11 times ], repeat + 2,047 times ]

生成方式

  • 生成工具: 使用 Synthetic-Alpaca 作为管道
  • 生成模型: Hamzah-Asadullah/NarrowMaid-8B

创建者信息

  • 组织: XeTute Technologies(巴基斯坦组织,由 Hamzah Asadullah 创建)
  • 相关链接:
    • 网页: https://xetute.github.io/
    • GitHub: https://github.com/XeTute
    • HuggingFace: https://hf.co/XeTute
    • Ko-Fi: https://ko-fi.com/hamzahasadullah
    • YouTube: https://www.youtube.com/channel/UCoR5RdjU8TFPKmHqVJOZBYQ
搜集汇总
数据集介绍
main_image_url
构建方式
在角色扮演对话生成领域,TypaRP-12x2k数据集采用合成数据生成技术构建。该数据集通过Synthetic-Alpaca流水线框架,结合NarrowMaid-8B语言模型生成器,系统性地创建了2,048段结构化对话。每条对话严格遵循12轮次的消息交互模式,包含系统提示、用户输入和助手响应三元组,并以标准化的JSON格式存储,确保数据结构的一致性和可扩展性。
特点
该数据集最显著的特征在于其专业化的角色扮演对话设计。对话内容采用Markdown标记格式,通过斜体文本表示角色动作,斜体括号标注心理活动,精确还原角色扮演场景的文本特征。每条对话平均可扩展至10,240个LLaMA3.1标记的上下文长度,为大规模语言模型训练提供丰富的语义空间。数据集严格遵循多轮对话的时序逻辑,完整呈现角色扮演场景的动态发展过程。
使用方法
研究人员可将该数据集直接应用于文本生成和文本到文本转换任务,特别适合角色扮演对话系统的开发与优化。使用时需加载标准JSON格式数据,每条记录包含12个有序的对话轮次,其中系统提示定义角色设定,用户输入模拟玩家行为,助手响应展现AI互动能力。建议配合现代transformer架构进行微调训练,注意处理Markdown格式标签以保持文本风格的一致性。
背景与挑战
背景概述
TypaRP-12x2k数据集由巴基斯坦的XeTute Technologies机构及其创始人Hamzah Asadullah开发,专注于角色扮演对话生成领域。该数据集包含2,048条对话,每条对话包含12条消息,采用Markdown格式标注,适用于文本生成和文本到文本生成任务。其核心研究问题在于提升角色扮演对话的多样性和连贯性,为对话系统的指令微调提供高质量数据支持。该数据集的发布丰富了角色扮演对话生成领域的资源,对推动开放域对话系统的研究具有积极意义。
当前挑战
TypaRP-12x2k数据集面临的挑战主要集中在两个方面:其一,角色扮演对话的多样性和连贯性要求极高,如何在有限的数据规模下覆盖丰富的角色和场景是一大难题;其二,数据生成过程中依赖Synthetic-Alpaca流水线和NarrowMaid-8B模型,生成数据的质量和真实性可能受到模型固有偏见的限制。此外,对话长度长达10,240个LLaMA3.1标记,对模型的上下文处理能力提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,TypaRP-12x2k数据集为角色扮演对话系统的开发提供了丰富的语料资源。其独特的12轮对话结构模拟了真实人际互动中的多轮次交流模式,配合Markdown格式标注的文本动作与心理活动,成为训练生成式对话模型的理想基准数据。研究者可基于该数据集探索长程对话一致性保持、角色性格稳定性建模等核心问题。
解决学术问题
该数据集有效解决了角色扮演对话系统中三个关键学术挑战:通过限定12轮的对话长度,为研究对话状态跟踪提供了结构化实验环境;标注清晰的文本动作与心理活动区分,助力于多模态对话行为生成研究;超过2000组的高质量对话样本,为低资源场景下的对话模型微调提供了可靠数据支撑。这些特性使其成为评估对话系统角色一致性指标的黄金标准。
衍生相关工作
基于TypaRP-12x2k的衍生研究包括:XeTute团队开发的Synthetic-Alpaca数据增强管线,显著提升了小样本对话生成质量;NarrowMaid-8B模型通过在该数据集上的指令微调,实现了角色一致性指标的突破。后续工作如RP-BERT等预训练模型,均采用该数据集作为基准测试的重要组成部分。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作