five

SCOPE-Persona

收藏
Hugging Face2026-01-29 更新2026-01-30 收录
下载链接:
https://huggingface.co/datasets/Salesforce/SCOPE-Persona
下载链接
链接失效反馈
官方服务:
资源简介:
SCOPE Personas数据集包含基于社会心理学框架(SCOPE)构建的合成人物角色,旨在更好地支持社交和行为任务。这些角色基于包含八个方面的141项社会心理学问卷。数据集提供两种互补的配置:1)`persona_summary`:每个方面的第一人称叙述,每个角色一个摘要;2)`scope_qa`:每个SCOPE问题的结构化问答对,按方面分组。数据集适用于用户模拟、社会和行为建模、角色条件评估以及公平性/偏见分析等研究用途。数据集包含丰富的字段,如人口统计信息、社会行为、个人价值观与动机等。数据生成基于141项社会心理学协议,角色摘要从问答对和社会人口统计背景生成。数据集采用CC BY-NC 4.0许可,仅限研究使用。
提供机构:
Salesforce
创建时间:
2026-01-15
原始信息汇总

SCOPE Personas 数据集概述

数据集基本信息

  • 数据集名称: SCOPE Personas (Hugging Face Dataset)
  • 发布机构: Salesforce Research
  • 许可证: CC BY-NC 4.0
  • 语言: 英语 (en)
  • 访问地址: https://huggingface.co/datasets/Salesforce/SCOPE-Persona

数据集简介

该数据集包含基于社会心理学框架(SCOPE)构建的合成人物角色,旨在更好地支持社交和行为任务。人物角色基于一份涵盖八个方面的141项社会心理学问卷。数据集提供两种互补的配置。

数据集配置

1. persona_summaries 配置

  • 内容: 分面叙述,针对给定人物角色的每个方面提供一个第一人称摘要。
  • 数据文件: SCOPE Summary Profile/persona_summary.jsonl
  • 数据模式:
    • uuid: 字符串
    • sociodemographic.profile: 人口统计属性字典
    • sociodemographic.demographic_responses: 以完整问题文本(Q1–Q13)为键的字典
    • DEMOGRAPHIC INFORMATION: 字符串(第一人称摘要)
    • SOCIODEMOGRAPHIC BEHAVIOR: 字符串(第一人称摘要)
    • PERSONAL VALUES & MOTIVATIONS: 字符串(第一人称摘要)
    • PERSONALITY TRAITS (Big Five): 字符串(第一人称摘要)
    • BEHAVIORAL PATTERNS & PREFERENCES: 字符串(第一人称摘要)
    • PERSONAL IDENTITY & LIFE NARRATIVES: 字符串(第一人称摘要)
    • PROFESSIONAL IDENTITY & CAREER: 字符串(第一人称摘要)
    • CREATIVITY & INNOVATION: 字符串(第一人称摘要)

2. scope_qa 配置

  • 内容: 针对每个SCOPE问题的结构化问答对,按方面分组。
  • 数据文件: SCOPE Structured Profile/scope_structured.jsonl
  • 数据模式:
    • uuid: 字符串
    • facet_qas: 以方面名称为键的字典;值为 {question_id, question, answer} 的列表

框架与结构

SCOPE(人物角色评估的社会心理学构建)是一个基于人类的框架,用于构建和评估合成人物角色。它将人物角色建模为多维社会心理学档案,而非人口统计模板或仅限叙述的摘要。该框架包含八个方面:

  1. 人口统计信息
  2. 社会人口统计行为
  3. 个人价值观与动机
  4. 人格特质(大五人格)
  5. 行为模式与偏好
  6. 个人身份与生活叙事
  7. 职业身份与生涯
  8. 创造力与创新

预期用途

这些人物角色旨在用于用户模拟、社交和行为建模、人物角色条件评估以及公平性/偏见分析的研究用途。该数据集旨在提供比仅有人口统计或仅有摘要的人物角色更丰富的行为基础。

数据生成说明

  • 人物角色是使用涵盖八个方面的141项社会心理学协议构建的。
  • 方面摘要是根据问答对和社会人口统计上下文以第一人称生成的。
  • scope_qa 保留了每个问题和方面的结构化回答。

伦理考量

该数据集包含合成人物角色,不包含来自真实参与者的个人可识别信息。在评估社交或行为系统以及对现实世界人群做出断言时,请负责任地使用。

加载方式

python from datasets import load_dataset summaries = load_dataset("Salesforce/SCOPE-Persona", "persona_summary") qa_pairs = load_dataset("Salesforce/SCOPE-Persona", "scope_qa")

相关论文

  • 标题: The Need for a Socially-Grounded Persona Framework for User Simulation
  • 作者: Pranav Narayanan Venkit, Yu Li, Yada Pruksachatkun, Chien-Sheng Wu
  • 机构: Salesforce Research
  • 链接: https://arxiv.org/pdf/2601.07110

引用格式

bibtex @article{venkit2025scope, title={The Need for a Socially-Grounded Persona Framework for User Simulation}, author={Venkit, Pranav Narayanan and Li, Yu and Pruksachatkun, Yada and Wu, Chien-Sheng}, journal={arXiv preprint arXiv:2601.07110}, year={2025} }

许可声明

除非另有说明,本数据集根据 CC BY-NC 4.0 许可证发布。本数据集也不应用于开发与 OpenAI 竞争的模型,仅出于研究目的发布。

搜集汇总
数据集介绍
main_image_url
构建方式
在构建SCOPE-Persona数据集时,研究团队采用了一种基于社会心理学框架(SCOPE)的系统化方法。该框架通过一个包含141个项目的问卷,覆盖了人口统计信息、社会人口行为、个人价值观与动机、人格特质(大五模型)、行为模式与偏好、个人身份与生活叙事、职业身份与生涯以及创造力与创新等八个维度。每个合成人物均基于问卷回答生成,确保了多维度的社会心理特征建模,而非仅依赖单一的人口统计模板或叙事摘要。数据生成过程首先收集结构化的问答对,随后根据这些回答和人口统计上下文,自动生成了以第一人称叙述的各个维度的总结性描述,从而形成了两种互补的数据配置。
特点
SCOPE-Persona数据集的核心特点在于其深度的社会心理学基础和多维度的表征能力。与仅包含人口统计信息的传统人物数据集不同,该数据集通过八个精心设计的维度,全面捕捉了人物的行为结构、心理特质和社会背景。数据集提供了两种配置:`persona_summary`以第一人称叙述呈现每个维度的总结,增强了人物的叙事连贯性和可读性;`scope_qa`则保留了原始的结构化问答对,便于进行细粒度的分析和模型训练。这种双重表征方式不仅支持丰富的行为建模,还为用户模拟、社会行为分析以及公平性评估等研究任务提供了更为坚实的理论基础。
使用方法
使用SCOPE-Persona数据集时,研究人员可通过Hugging Face的`datasets`库轻松加载两种配置。具体而言,调用`load_dataset("Salesforce/SCOPE-Persona", "persona_summary")`可获取人物总结数据,而`load_dataset("Salesforce/SCOPE-Persona", "scope_qa")`则加载结构化的问答对。该数据集适用于用户模拟、社会与行为建模、人物条件评估以及偏见分析等多个研究领域。在使用过程中,需注意数据集仅包含合成人物,不涉及真实个人的可识别信息,且应遵循CC BY-NC 4.0许可协议,确保用于非商业研究目的,并避免开发与OpenAI竞争的产品。
背景与挑战
背景概述
SCOPE-Persona数据集由Salesforce研究团队于2025年提出,旨在通过社会心理学框架构建合成人物角色,以增强用户模拟、社会行为建模等任务的真实性。该数据集基于一项包含141个问题的社会心理学问卷,涵盖人口统计信息、个人价值观、人格特质等八个维度,突破了传统仅依赖人口统计或叙事摘要的人物角色构建模式。其核心研究问题聚焦于如何创建具有多维社会心理特征的合成人物,以更准确地模拟人类在社交与行为任务中的反应,为人工智能在社会科学领域的应用提供了更为坚实的理论基础与数据支撑。
当前挑战
SCOPE-Persona数据集致力于解决社会与行为建模中人物角色真实性不足的挑战,传统方法往往局限于表面的人口统计特征,难以捕捉复杂的心理与行为动态。在构建过程中,研究团队面临如何将广泛的社会心理学理论转化为可操作的数据结构,并确保各维度间的一致性与内在逻辑连贯性。此外,生成既符合心理学原理又具备自然语言表达力的第一人称摘要,同时避免引入社会偏见,构成了数据集构建的重要技术难点。
常用场景
经典使用场景
在计算社会科学与人工智能交叉领域,SCOPE-Persona数据集为构建多维社会心理角色提供了结构化基础。其经典应用场景集中于用户模拟研究,通过整合人口统计、价值观、人格特质等八个维度的丰富信息,研究者能够生成高度拟真的虚拟角色。这些角色可用于模拟人类在社交互动、决策行为或偏好表达中的复杂表现,为对话系统、推荐算法等需要人性化交互的模型提供训练与评估的基准。
解决学术问题
该数据集旨在解决传统角色构建中过度依赖人口统计特征或单一叙事摘要的局限性。通过引入社会心理学评估框架,它将角色建模为多维度的社会心理剖面,从而更准确地捕捉人类行为的结构性差异。这一创新有助于提升行为预测的生态效度,为公平性分析、偏见检测以及社会行为建模等研究提供了更为可靠的数据基础,推动了用户模拟从表面特征向深层心理机制的转变。
衍生相关工作
围绕SCOPE-Persona数据集,已衍生出多项探索社会心理角色在人工智能中应用的经典研究。这些工作主要集中在角色条件化评估、行为模拟的验证方法以及跨文化心理特征的建模扩展上。例如,部分研究利用该数据集的结构化问答对,开发了更精细的角色一致性度量指标;另一些工作则将其整合到大规模语言模型的微调流程中,以增强模型在社交推理任务上的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作