five

Salesforce/SCOPE-Persona

收藏
Hugging Face2026-05-07 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/Salesforce/SCOPE-Persona
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含基于社会心理学框架(SCOPE)构建的合成人物角色,旨在更好地支持社交和行为任务。人物角色基于一个包含141项社会心理学问卷的八个方面。提供了两种互补的数据集配置:1)`persona_summary`:每个方面的第一人称叙述,每个角色每个方面一个摘要;2)`scope_qa`:每个SCOPE问题的结构化问答对,按方面分组。SCOPE(人物角色评估的社会心理学构建)是一个以人为基础的框架,用于构建和评估合成人物角色。它将人物角色建模为多维社会心理学档案,而非仅基于人口统计模板或叙述摘要。这些角色旨在捕捉比仅基于人口统计的角色更丰富的行为结构,从而在社交和行为任务中更好地与人类反应对齐。

This dataset contains synthetic personas constructed with a socio-psychological framework (SCOPE) designed to better support social and behavioral tasks. Personas are grounded in a 141-item sociopsychological questionnaire spanning eight facets. Two complementary dataset configurations are provided: 1) `persona_summary`: Faceted narrations, one summary per facet in first person of a given persona; 2) `scope_qa`: Structured question-answer pairs for each SCOPE question, grouped by facet. SCOPE (Sociopsychological Construct of Persona Evaluation) is a human-grounded framework for constructing and evaluating synthetic personas. It models personas as multidimensional sociopsychological profiles rather than demographic templates or narrative-only summaries. These personas are designed to capture richer behavioral structure than demographic-only personas, improving alignment with human responses in social and behavioral tasks.
提供机构:
Salesforce
搜集汇总
数据集介绍
main_image_url
构建方式
SCOPE-Persona数据集基于社会心理学框架SCOPE构建,该框架将合成人格建模为多维社会心理剖面,而非仅依赖人口统计学模板或叙事摘要。数据集通过一份包含141个问题的社会心理学问卷,涵盖人口统计信息、社会人口行为、个人价值观与动机、人格特质(大五人格)、行为模式与偏好、个人身份与生活叙事、职业身份与职业等七个维度,生成了结构化的回答记录。每条人格剖面均以JSON格式保存,并关联唯一UUID标识,便于与Nemotron-Personas数据集进行联合查询与增强。
特点
该数据集的核心特色在于其多维社会心理建模方式,能够捕获比单纯人口统计学人格更为丰富的行为结构,从而提升在大语言模型模拟中与人类行为反应的契合度。数据集以结构化的问答形式存储每个维度下的具体响应,并计划推出第一人称叙述的维度摘要,进一步强化人格的真实感与可用性。此外,数据集基于CC BY-NC 4.0许可发布,专为研究用途设计,确保不包含真实参与者的可识别信息,保障伦理合规性。
使用方法
SCOPE-Persona数据集主要用于用户模拟、社会与行为建模、人格条件评估以及公平性与偏见分析等研究场景。使用时可借助Hugging Face的datasets库加载数据,并通过UUID与Nemotron-Personas数据集进行内连接操作,从而将社会心理剖面与已有的人格描述相结合。推荐使用DuckDB等工具执行高效的跨数据集查询,以获取特定UUID对应的完整人格信息。数据集的研究应用需遵守CC BY-NC 4.0许可,不得用于开发与OpenAI竞争的模型。
背景与挑战
背景概述
SCOPE-Persona数据集由Salesforce Research团队于2025年创建,核心研究人员包括Pranav Narayanan Venkit、Yu Li、Yada Pruksachatkun和Chien-Sheng Wu。该数据集旨在弥补现有合成人格建模中仅依赖人口统计学或叙事摘要的不足,通过引入社会心理学框架SCOPE,将人格表征为涵盖人口统计、社会行为、个人价值观、大五人格特质、行为模式、生活叙事及职业身份等八个维度的多维社会心理剖面。数据集基于141项社会心理学问卷构建,生成的结构化人格档案显著提升了语言模型在用户模拟、社会行为建模及公平性分析等任务中对人类反应的仿真度,为社会科学与人工智能交叉领域提供了更具行为学根基的研究工具。
当前挑战
该数据集面临的核心挑战包括:第一,在领域问题层面,传统合成人格模型因缺乏心理学理论支撑,无法捕捉真实人类行为的复杂性与异质性,导致用户模拟与社会推理任务中的结果偏差;第二,构建过程中需平衡多维问卷数据的覆盖度与一致性,确保141项指标在跨人格档案间的可比较性,同时避免过度工程化导致的生态效度损失;第三,伦理层面需严格规避合成数据中潜藏的社会偏见,防止模型在模拟特定群体时可能放大的刻板印象,这对数据采集协议与后续应用规范提出了更高要求。
常用场景
经典使用场景
在社会科学与计算行为学交叉研究中,SCOPE-Persona数据集被广泛用于构建具备多维社会心理特征的合成用户画像。其经典使用场景是作为大型语言模型(LLM)仿真模拟的底层人格框架,通过整合人口统计学信息、大五人格特质、个人价值观与动机、行为模式偏好、身份叙事等七大维度,生成比传统仅基于人口属性或自然语言摘要的画像更具行为结构逼真度的虚拟个体。研究者利用这些结构化画像在受控实验中模拟人类受试者的响应模式,从而在道德与隐私约束下开展用户行为建模、社会互动仿真以及偏见检测等研究。
实际应用
在实际应用层面,SCOPE-Persona已展现出强大的跨领域赋能价值。在AI驱动的用户调研中,企业可利用该数据集合成具备特定政治倾向、消费习惯或职业身份的虚拟用户,以低成本预演新产品的市场反馈;在社交媒体内容审核领域,研究者借助不同人格维度的画像组合,系统测试模型对仇恨言论、歧视性内容的识别鲁棒性;在教育科技场景下,该数据集被用于生成学习行为各异的虚拟学生,辅助自适应教学系统的迭代优化。此外,因其与主流合成人格数据集(如Nemotron-Persona)天然兼容,研究者能够无缝扩展已有数据集的社会心理维度,显著降低了在商业伦理合规框架下开展大规模用户模拟实验的门槛。
衍生相关工作
SCOPE-Persona的发布催生了一系列具有理论深度的方法论创新工作。其核心衍生方向之一是“人格感知型提示优化”,研究者基于该数据集的七维结构设计差异化的系统提示词,实证发现对价值观与动机层面的显式编码能有效提升LLM在同理心对话中的表现。另一个重要分支是人格干预框架的建立——学术界衍生出诸如Persona-Debias与SCOPE-Align等工作,通过对抗训练或指令微调的方式,利用结构化人格向量纠正语言模型在政治倾向、种族立场等敏感维度的系统性偏差。更为前沿的探索则聚焦于“跨人格一致性评估”,一系列工作将SCOPE-Persona视为通用评测套件,检验不同模型在同一人格设定下对相同问题应答的语义稳定性,为LLM可靠性的量化开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作