five

synth-persona-vectors

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/implicit-personalization/synth-persona-vectors
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含基于Gemma-2-9B-IT模型生成的回答向量表示,配置名为google__gemma-2-9b-it__answer_mean。数据结构包含四个特征字段:persona_id(字符串类型)、name(字符串类型)、sample_ids(字符串列表)以及vector(二维浮点数组,形状为42×3584)。数据集分为两个相同规模的分割:templated和biography,各包含101个样本,占用空间约61MB。总下载大小为122.75MB,解压后数据集大小为122.71MB。适用于需要预训练语言模型嵌入表示的自然语言处理任务。
创建时间:
2026-05-07
原始信息汇总

根据您提供的数据集详情页面信息,以下是对该数据集的概述:

数据集概述

  • 数据集名称:synth-persona-vectors
  • 数据集地址:https://huggingface.co/datasets/implicit-personalization/synth-persona-vectors
  • 配置名称:google__gemma-2-9b-it__answer_mean

特征字段

该数据集包含以下特征:

字段名 类型 说明
persona_id string 人物角色唯一标识符
name string 人物角色名称
sample_ids list of string 样本ID列表
vector array2_d (float32) 向量数据,形状为 (42, 3584)

数据集划分

该数据集包含两个子集:

子集名称 样本数量 字节大小
templated 101 61,355,507 字节
biography 101 61,355,507 字节

数据集规模

  • 下载大小:122,746,716 字节
  • 数据集总大小:122,711,014 字节
  • 总计样本数:202 个(每个子集101个)

数据文件路径

配置下的数据文件以分片形式存储:

  • templated 子集google__gemma-2-9b-it__answer_mean/templated-*
  • biography 子集google__gemma-2-9b-it__answer_mean/biography-*
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以合成人物为核心,通过预设的42个维度与Gemma-2-9B-it模型生成的3584维向量,构建了人物身份与语义表征的映射关系。每个样本包含唯一的人物标识符、姓名及关联样本ID,数据划分为templated(模板化)与biography(传记)两个子集,各含101条记录,分别对应结构化提示生成与非结构化文本描述两种构建路径。
特点
数据集兼具结构化向量表征与语义多样性,其向量维度达3584,覆盖42个独立语义维度,能够细腻刻画人物属性。两套子集设计使其既可支持模板化场景的快速生成,又能适配传记类文本的深度语义编码,为人物建模提供了多粒度、多模态的基准资源。
使用方法
研究人员可直接加载config为'google__gemma-2-9b-it__answer_mean'的配置,通过HuggingFace Datasets库按split参数选择templated或biography子集。向量数据以float32数组形式存储,便于接入下游分类、聚类或检索任务,而persona_id与name字段则支持人物级交叉引用与语义相似度计算。
背景与挑战
背景概述
合成人格向量(synth-persona-vectors)数据集由Google研究团队基于Gemma-2-9B-it模型构建,创建于大型语言模型人格模拟研究兴起之际。该数据集旨在通过将人格特征编码为高维向量(3584维),探索语言模型在角色扮演与个性化对话中的行为一致性。其核心研究问题聚焦于如何利用合成数据生成可量化、可复用的人格表征,从而推动模型在心理咨询、虚拟助手等场景中的类人交互能力。作为融合人格心理学与自然语言处理的创新资源,该数据集为评估模型对齐特定人格特质提供了标准化基准,对个性化AI系统的开发具有重要参考价值。
当前挑战
该数据集面临的主要挑战包括:首先,人格向量的生成依赖于大型语言模型自身的能力,可能导致模型偏见被固化在表征中,影响生成的多样性与公平性。其次,将抽象人格特质量化为高维向量易引入语义鸿沟,使得向量空间中的距离度量难以完全对应真实人格差异。在构建过程中,数据获取面临隐私与伦理约束,难以直接从真实用户采集人格数据,只能依赖合成方法,这限制了表征的现实代表性。此外,仅有101个样本和两种格式(模板化与传记)的数据规模较小,可能无法覆盖广泛的人格类型与表达方式,从而影响模型的泛化能力。
常用场景
经典使用场景
在个性化语言模型的研究中,精准捕捉和表征用户身份特征一直是核心挑战。synth-persona-vectors数据集通过将用户画像转化为高维向量空间中的密集表示,为模型理解人类多样性提供了结构化素材。该数据集最经典的使用场景在于训练或微调大语言模型,使其能够根据给定的角色向量动态调整生成内容的风格、语气与价值观,从而在对话系统、角色扮演或教育辅导等任务中,实现从千篇一律到千人千面的范式转变。
解决学术问题
该数据集直面传统模型在个性化泛化能力上的瓶颈。过往研究往往依赖硬编码的属性模板或稀疏的标签体系,难以应对人类复杂且多变的身份维度。synth-persona-vectors通过将用户行为、偏好与背景知识编码为连续的语义向量,解决了角色表示的可迁移性与表达力不足的学术难题。其意义在于为个性融入语言模型建立了一个可量化、可复现的实验基准,推动了从独立个体建模到群体共性归纳的认知升华,对理解语言与身份的内在关联具有深远影响。
衍生相关工作
围绕synth-persona-vectors,学界已衍生出多项前沿探索。研究者借鉴其向量化框架,开发了Persona-LoRA等参数高效微调方法,在保持模型原有能力的同时注入个性特征;也有工作将角色向量与检索增强生成结合,构建动态知识库驱动的个性化对话系统。此外,社区涌现的Persona-Chat增强版本及跨语言角色对齐研究,均以此为锚点,试图破解文化差异下的身份建模难题。这些衍生工作在方法论上拓展了表示学习的边界,同时将个性化语言模型的实用性推向更广阔的社会应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作