SCOPE-Persona
收藏SCOPE Personas 数据集概述
数据集基本信息
- 数据集名称: SCOPE Personas (Hugging Face Dataset)
- 发布机构: Salesforce Research
- 许可证: CC BY-NC 4.0
- 语言: 英语 (en)
- 访问地址: https://huggingface.co/datasets/Salesforce/SCOPE-Persona
数据集简介
该数据集包含基于社会心理学框架(SCOPE)构建的合成人物角色,旨在更好地支持社交和行为任务。人物角色基于一份涵盖八个方面的141项社会心理学问卷。数据集提供两种互补的配置。
数据集配置
1. persona_summaries 配置
- 内容: 分面叙述,针对给定人物角色的每个方面提供一个第一人称摘要。
- 数据文件:
SCOPE Summary Profile/persona_summary.jsonl - 数据模式:
uuid: 字符串sociodemographic.profile: 人口统计属性字典sociodemographic.demographic_responses: 以完整问题文本(Q1–Q13)为键的字典DEMOGRAPHIC INFORMATION: 字符串(第一人称摘要)SOCIODEMOGRAPHIC BEHAVIOR: 字符串(第一人称摘要)PERSONAL VALUES & MOTIVATIONS: 字符串(第一人称摘要)PERSONALITY TRAITS (Big Five): 字符串(第一人称摘要)BEHAVIORAL PATTERNS & PREFERENCES: 字符串(第一人称摘要)PERSONAL IDENTITY & LIFE NARRATIVES: 字符串(第一人称摘要)PROFESSIONAL IDENTITY & CAREER: 字符串(第一人称摘要)CREATIVITY & INNOVATION: 字符串(第一人称摘要)
2. scope_qa 配置
- 内容: 针对每个SCOPE问题的结构化问答对,按方面分组。
- 数据文件:
SCOPE Structured Profile/scope_structured.jsonl - 数据模式:
uuid: 字符串facet_qas: 以方面名称为键的字典;值为{question_id, question, answer}的列表
框架与结构
SCOPE(人物角色评估的社会心理学构建)是一个基于人类的框架,用于构建和评估合成人物角色。它将人物角色建模为多维社会心理学档案,而非人口统计模板或仅限叙述的摘要。该框架包含八个方面:
- 人口统计信息
- 社会人口统计行为
- 个人价值观与动机
- 人格特质(大五人格)
- 行为模式与偏好
- 个人身份与生活叙事
- 职业身份与生涯
- 创造力与创新
预期用途
这些人物角色旨在用于用户模拟、社交和行为建模、人物角色条件评估以及公平性/偏见分析的研究用途。该数据集旨在提供比仅有人口统计或仅有摘要的人物角色更丰富的行为基础。
数据生成说明
- 人物角色是使用涵盖八个方面的141项社会心理学协议构建的。
- 方面摘要是根据问答对和社会人口统计上下文以第一人称生成的。
scope_qa保留了每个问题和方面的结构化回答。
伦理考量
该数据集包含合成人物角色,不包含来自真实参与者的个人可识别信息。在评估社交或行为系统以及对现实世界人群做出断言时,请负责任地使用。
加载方式
python from datasets import load_dataset summaries = load_dataset("Salesforce/SCOPE-Persona", "persona_summary") qa_pairs = load_dataset("Salesforce/SCOPE-Persona", "scope_qa")
相关论文
- 标题: The Need for a Socially-Grounded Persona Framework for User Simulation
- 作者: Pranav Narayanan Venkit, Yu Li, Yada Pruksachatkun, Chien-Sheng Wu
- 机构: Salesforce Research
- 链接: https://arxiv.org/pdf/2601.07110
引用格式
bibtex @article{venkit2025scope, title={The Need for a Socially-Grounded Persona Framework for User Simulation}, author={Venkit, Pranav Narayanan and Li, Yu and Pruksachatkun, Yada and Wu, Chien-Sheng}, journal={arXiv preprint arXiv:2601.07110}, year={2025} }
许可声明
除非另有说明,本数据集根据 CC BY-NC 4.0 许可证发布。本数据集也不应用于开发与 OpenAI 竞争的模型,仅出于研究目的发布。




