persona-data

github2026-05-03 更新2026-04-22 收录

下载链接：

https://github.com/implicit-personalization/persona-data

下载链接

链接失效反馈

官方服务：

资源简介：

persona-data提供了用于隐式个性化项目的共享数据集加载、提示格式化和环境工具。包括SynthPersonaDataset（人物档案和问答对）、PersonaGuessDataset（基于回合的人物游戏）、NemotronPersonasFranceDataset（来自NVIDIA的法国人物档案）和NemotronPersonasUSADataset（来自NVIDIA的美国人物档案）等数据集。

This repository provides shared tools for dataset loading, prompt formatting, and environment setup for implicit personalization projects. It includes multiple datasets such as SynthPersonaDataset (persona and question-answer pairs), PersonaGuessDataset (turn-based persona guessing game), NemotronPersonasFranceDataset (French personas from NVIDIA), and NemotronPersonasUSADataset (US personas from NVIDIA).

创建时间：

2026-04-03

原始信息汇总

数据集概述

数据集名称

persona-data

数据集简介

该数据集是一个用于加载、格式化提示和环境配置的共享工具库，主要为隐式个性化项目提供支持。它包含多个用于处理人物角色（persona）相关数据的数据集和辅助工具。

主要数据集

SynthPersonaDataset
- 内容：包含人物角色档案以及相关的问答对。
- 数据结构：提供人物姓名、基于模板的系统提示视图、完整的传记文本视图以及传记章节列表。
- 功能：支持按类型（如“implicit”、“explicit”）和难度等级检索特定人物的问答对。
PersonaGuessDataset
- 内容：包含基于回合制的人物角色猜测游戏记录。
- 数据结构：包含游戏回合信息。
- 功能：支持按游戏ID和玩家（如“A”、“B”）检索问答和问题。
NemotronPersonasFranceDataset
- 内容：包含来自NVIDIA的法国人物角色档案。
NemotronPersonasUSADataset
- 内容：包含来自NVIDIA的美国人物角色档案。

数据加载与缓存

所有数据集均通过Hugging Face平台下载。
数据缓存路径由环境变量 HF_HOME 控制。

提示格式化工具

format_roleplay_prompt: 根据人物传记生成角色扮演系统提示，支持“roleplay”（默认）和“conversational”两种模式。
system_prompt_for_variant: 在迭代不同人物变体时生成系统提示。对于“baseline”变体返回无人物信息的提示，否则读取对应的变体视图。
format_mc_question: 格式化多项选择题，包括问题、选项和仅回答指令。
mc_answer_only_instruction: 生成仅回答指令文本。
mc_correct_letter: 获取正确答案的标签。
format_messages: 处理消息列表的格式化，对于不支持“system”角色的分词器（如Gemma 2），会将系统内容合并到第一条用户消息中。

环境配置工具

load_env: 从当前工作目录或其父目录加载 .env 文件。
set_seed: 设置随机数种子（包括random、numpy和torch）。
get_device: 自动选择计算设备（优先级：cuda > mps > cpu）。
get_artifacts_dir: 获取项目制品目录。

依赖项目

该数据集被以下项目使用：

persona-vectors — 用于激活提取和转向。
cues_attribution — 用于章节级别的消融归因分析。
persona-2-lora — 用于基于LoRA的人物角色内化。

搜集汇总

数据集介绍

构建方式

在个性化人工智能研究领域，persona-data数据集通过整合多种来源的人物档案与对话记录构建而成。其核心组成部分SynthPersonaDataset采用结构化方法生成人物传记，将个人属性分解为教育背景、职业经历等模块化段落，并配以显性与隐性两种类型的问答对。PersonaGuessDataset则源自多轮次角色扮演游戏的真实对话轨迹，完整保留了玩家间的动态交互过程。此外，数据集还纳入了NVIDIA提供的NemotronPersonas系列跨文化人物档案，所有数据均通过Hugging Face平台进行标准化托管与版本化管理。

特点

该数据集最显著的特征在于其多层次的人物表征体系，每个角色同时具备模板化系统提示词与完整传记文本两种呈现形式，为研究模型对结构化与叙事化信息的处理差异提供了理想实验素材。数据集内置的提示词格式化工具支持角色扮演与会话两种交互模式，并特别设计了兼容无系统角色令牌器的消息封装机制。其问答数据采用难度分级标注体系，且所有人物属性均经过跨文化平衡处理，使得研究者能够系统探究语言模型在不同文化语境下的个性化表现差异。

使用方法

研究者可通过Python包管理器快速集成该数据集工具库，利用标准化的数据加载接口获取人物档案与关联问答数据。进行角色扮演实验时，可调用format_roleplay_prompt函数将人物传记转换为系统提示词，再通过format_messages方法构建符合特定令牌器要求的对话序列。对于多轮次交互研究，数据集提供的游戏记录检索功能支持按玩家角色分离对话轨迹。环境辅助模块则提供了统一的随机种子管理、计算设备自动检测与实验产物路径配置方案，确保实验过程的可复现性。

背景与挑战

背景概述

在人工智能与自然语言处理领域，个性化交互已成为提升对话系统智能性与适应性的核心研究方向。persona-data数据集由implicit-personalization研究项目组创建，旨在为隐式个性化研究提供统一的数据支持与工具集。该数据集整合了合成人物档案、问答对及多轮次角色猜测游戏等多种资源，并引入了英法双语的人物档案数据，以支持跨文化语境下的模型训练与评估。其核心研究问题聚焦于如何使语言模型内化并稳定表达特定人物身份，从而生成具有一致性与深度的个性化对话，对推动可解释人工智能与个性化代理技术的发展具有显著影响力。

当前挑战

该数据集致力于解决个性化对话生成中的关键挑战，即如何确保语言模型在交互过程中保持人物身份的一致性，并准确理解与表达隐含的人物特质。构建过程中面临多重困难：其一，合成人物档案需在保持多样性的同时确保语义合理性与文化真实性；其二，标注高质量的隐性与显性问答对要求精细的语义对齐与难度分级；其三，多轮次对话数据的收集与结构化需平衡游戏互动性与实验可控性；其四，整合多语言数据时，必须处理语言差异带来的表征对齐与评估标准化问题。

常用场景

经典使用场景

在个性化人工智能领域，persona-data数据集为研究者提供了丰富的虚拟人物档案与问答对，其经典应用场景在于构建和评估语言模型的人格化响应能力。通过整合SynthPersonaDataset中的人物传记与问答数据，研究人员能够模拟不同背景的虚拟角色，进而测试模型在对话中保持人格一致性的表现。这一场景不仅涵盖了角色扮演任务，还支持多轮对话的生成与评估，为探索模型如何内化并表达特定人格特质奠定了数据基础。

解决学术问题

该数据集有效解决了人工智能研究中关于隐式个性化与人格一致性的核心学术问题。通过提供结构化的人物档案和多样化的问答对，它使得研究者能够量化分析语言模型在对话过程中的人格内化程度，并探究模型如何基于有限的人格线索生成连贯的响应。这有助于揭示模型内部表征与外部人格表达之间的关联，推动了可解释人工智能与个性化交互系统的发展，为理解模型行为提供了实证基础。

衍生相关工作

围绕persona-data数据集，已衍生出多项经典研究工作，如persona-vectors项目专注于从模型激活中提取人格向量并进行导向控制，以探究人格在神经网络中的表征方式。cues_attribution研究则通过段落级消融分析，评估不同人格线索对模型输出的贡献度。此外，persona-2-lora利用低秩适应技术实现人格内化，进一步推动了高效个性化模型的开发。这些工作共同深化了对人格建模机制的理解。

以上内容由遇见数据集搜集并总结生成