SPB-2508

Hugging Face2025-08-04 更新2025-08-05 收录

下载链接：

https://huggingface.co/datasets/marcodsn/SPB-2508

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Persona Bank是一个包含约5000个合成生成的虚构角色个人资料的数据集，采用结构化的JSON格式。该数据集专注于基于在线对话的个人资料，每个个人资料包括名称、年龄、性格特征、简短的背景故事以及描述的聊天风格。此外，还添加了一个条目来标识生成个人资料的模型。该数据集旨在用于推断在需要角色一致性、角色扮演和风格化对话生成的任务中的语言模型。

创建时间：

2025-08-03

原始信息汇总

Synthetic Persona Bank 数据集概述

数据集基本信息

许可证: CC BY 4.0
语言: 英语 (en)
标签: synthetic, persona, character-creation, role-playing, text-generation, json
数据集名称: Synthetic Persona Bank

数据集摘要

包含5,000个以JSON格式生成的虚构角色人物设定。
每个角色包含姓名、年龄、性格特征、简短背景故事和聊天风格描述。
生成模型: Kimi-K2-Instruct 和 GLM-4.5-Air-FP8。
用途: 用于需要角色一致性、角色扮演和风格化对话生成的语言模型推理任务。

数据集结构

数据格式: 单个JSON文件。
数据实例: 每个JSON对象代表一个角色。

数据字段

name: 角色全名。
username: 在线用户名（可为空）。
age: 年龄（19-75岁）。
traits: 3-5个描述性格的形容词列表。
background: 简短背景故事（1-2句话，≤300字符）。
chatting_style: 聊天风格描述（≤120字符）。
model: 生成该角色的模型名称。
id: 角色UUID。

数据集创建

创建理由

为开发能够保持角色一致性的对话AI提供大规模、多样化的虚构角色集合。

生成过程

使用persona_components.json文件中的加权列表（职业、生活背景、特征等）。
通过动态提示和修改的迭代采样生成新角色。
进行相似性检查以确保独特性。
职业权重根据美国劳工统计局数据调整。

已知限制

背景和聊天风格描述较为简略。
生成过程可能出现重复模式或套路。

附加信息

代码和种子数据: 可在GitHub上获取（https://github.com/marcodsn/SPB/tree/2508）。
引用信息:

@misc{marcodsn_2025_SPB2508, title = {Synthetic Persona Bank}, author = {Marco De Santis}, year = {2025}, month = {August}, url = {https://huggingface.co/datasets/marcodsn/SPB-2508}, }

搜集汇总

数据集介绍

构建方式

在人工智能与自然语言处理领域，角色一致性建模对对话系统至关重要。SPB-2508数据集采用程序化生成流程，基于大规模语言模型Kimi-K2-Instruct和GLM-4.5-Air-FP8构建。通过组件种子库动态组合职业、生活背景等要素，结合改进的迭代采样技术确保内容新颖性，每个角色均经过相似性校验后入库，最终形成包含5000个虚构角色的结构化集合。生成过程中参照美国劳工统计局数据调整职业权重，使人物分布符合现实社会特征。

特点

该数据集以JSON格式封装5000个高度结构化的虚拟角色档案，每个条目包含姓名、年龄、性格特质等核心字段。独特之处在于其专业设计的聊天风格描述字段，能精准刻画角色对话特征。数据生成采用动态提示策略与周期性重播种机制，有效避免模型陷入重复生成模式。人物背景虽简洁但要素完整，职业分布经统计学校准，为对话系统提供丰富且均衡的角色素材库。

使用方法

作为角色扮演对话系统的理想训练资源，该数据集可直接加载至自然语言处理框架。研究者可通过解析JSON文件获取角色属性，用于对话生成模型的微调或评估。建议用户根据具体需求划分验证集与测试集，亦可结合背景故事字段构建角色知识图谱。数据集内嵌的模型标识字段支持生成质量对比研究，而UUID设计便于追踪角色在衍生对话数据集中的表现。

背景与挑战

背景概述

SPB-2508数据集是2025年由Marco De Santis主导创建的合成人物角色数据库，旨在为对话式人工智能提供丰富多样的虚构角色基础。该数据集采用大型语言模型（如Kimi-K2-Instruct和GLM-4.5-Air-FP8）通过程序化生成流程构建，包含5000个结构化JSON格式的人物角色，涵盖姓名、年龄、性格特征、背景故事和聊天风格等关键属性。作为角色扮演和风格化对话生成研究的基础资源，该数据集通过组件化提示策略确保了人物特征的多样性和一致性，其职业分布还参照了美国劳工统计局数据以增强现实性。该工作为后续合成对话数据集的构建奠定了重要基础，推动了具有长期角色一致性的人工智能对话系统的发展。

当前挑战

SPB-2508数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何确保生成角色具有足够的独特性和叙事连贯性以支持复杂的对话场景，当前简短的背景描述难以满足深度角色扮演的需求；在构建过程层面，尽管采用了动态提示和相似性检查等创新方法，大规模迭代生成仍难以完全避免模式化表达，且职业权重调整虽增强现实性，但也可能限制某些创意性角色的生成。此外，作为纯合成数据，其与真实人物特征的语义匹配度仍需通过后续人工评估验证。

常用场景

经典使用场景

在对话系统与角色扮演领域，SPB-2508数据集通过结构化虚构人物设定，为语言模型提供了丰富的角色一致性训练素材。其5000个涵盖多元职业、年龄与性格特征的合成人物，常被用于测试模型在长对话中维持角色特征的能力，尤其在开放域对话生成研究中，该数据集能有效模拟复杂社交场景下的多轮交互。

解决学术问题

该数据集解决了对话AI领域两个核心问题：一是缺乏大规模标准化角色数据导致的模型人格分裂现象，通过提供细节完备的人物设定，显著提升了对话连贯性；二是传统角色数据依赖人工编写的局限性，其程序化生成方法为学术研究提供了可扩展的解决方案，推动了个性化对话生成的技术边界。

衍生相关工作

基于该数据集的衍生研究包括《ConvoGen》提出的动态提示生成框架，以及多项关于角色一致性保持的对比实验。其生成方法论已被扩展应用于跨文化人物数据集构建，并启发了后续工作如PersonaChat-Plus对多模态角色数据的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集