PolyPersona Dataset

Name: PolyPersona Dataset
Creator: 乔治梅森大学
Published: 2025-12-17 00:33:23
License: 暂无描述

arXiv2025-12-17 更新2025-12-18 收录

下载链接：

https://anonymous.4open.science/r/Polypersona-1D70/

下载链接

链接失效反馈

官方服务：

资源简介：

PolyPersona数据集由乔治梅森大学等机构联合构建，旨在通过角色驱动的语言模型生成多领域合成调查响应。该数据集包含3,568条响应，覆盖10个主题领域（如医疗、教育、社会问题等）和433个独特角色，数据源自结构化角色描述与真实调查问题模板的融合。其构建采用对话式数据流水线，通过参数高效微调技术（如LoRA适配器）确保角色行为一致性。该数据集主要用于增强调查研究的多样性和成本效益，支持问卷预测试、敏感话题探索等应用，弥补传统调查方法在覆盖范围和偏差控制上的不足。

The PolyPersona dataset was co-developed by George Mason University and other institutions, with the objective of generating multi-domain synthetic survey responses via role-driven language models. It comprises 3,568 responses spanning 10 thematic domains (e.g., healthcare, education, social issues, etc.) and 433 unique personas, with its data derived from the integration of structured persona descriptions and real survey question templates. The dataset was built using a conversational data pipeline, and parameter-efficient fine-tuning techniques such as LoRA adapters were utilized to ensure the consistency of persona behaviors. This dataset is primarily used to enhance the diversity and cost-effectiveness of survey research, supporting applications including questionnaire pretesting and sensitive topic exploration, and making up for the shortcomings of traditional survey methods in terms of coverage and bias control.

提供机构：

乔治梅森大学

创建时间：

2025-12-17

搜集汇总

数据集介绍

构建方式

在应对现代调查研究中成本攀升与参与率下降的双重挑战背景下，PolyPersona数据集通过一种系统化的生成框架构建而成。该框架以PersonaHub中提取的433个独特人物档案为基础，结合涵盖人口统计、医疗、教育等十个领域的82个基准调查问题，采用对话格式的数据管道进行合成。其构建过程深度融合了参数高效的LoRA适配器与4位量化技术，在资源自适应的训练设置下对紧凑的聊天模型进行指令微调，最终生成了总计3,568条模拟调查响应，确保了人物线索的保留与跨响应行为的一致性。

特点

PolyPersona数据集的核心特点体现在其多维度的结构化设计上。数据集具备显著的领域多样性，覆盖了从医疗保健到社会议题等十个现实世界情境，确保了广泛的适用性。其人物档案经过精心设计，代表了不同的背景、职业与价值体系，从而能够生成异质且真实的响应模式。在问题类型上，数据集平衡地包含了李克特量表、开放式问答、是非题等多种调查格式，有效模拟了传统调查的方法论构成。此外，每条记录均遵循标准化的JSON模式与ChatML格式，为下游的指令微调与可解释性分析提供了清晰的元数据与上下文基础。

使用方法

该数据集主要服务于基于人物的合成调查响应生成任务，为语言模型的指令微调与系统性评估提供了可控环境。研究人员可利用其标准化的ChatML格式数据，直接应用于支持对话结构的模型训练流程。通过加载数据集并应用相应的聊天模板，可以高效地构建系统提示、用户问题（结合人物与领域信息）以及助理响应的训练三元组。在评估层面，数据集支持采用多指标评估栈，包括BLEU、ROUGE等文本相似度指标，以及专门捕捉结构、风格与情感一致性的调查特定指标，从而对生成响应的质量、多样性与人物忠实度进行全面的量化与定性分析。

背景与挑战

背景概述

随着现代调查研究面临成本攀升与参与率下降的双重压力，传统概率抽样方法因数据缺失与选择偏差而备受挑战。在此背景下，乔治梅森大学等机构的研究团队于2025年提出了PolyPersona数据集，旨在通过角色条件化语言模型生成跨领域的合成调查响应。该数据集包含3,568条响应，覆盖10个主题领域与433个独特角色，核心研究问题聚焦于如何确保语言模型在多样化问题模态中维持角色行为的一致性。PolyPersona通过参数高效微调技术，证明了紧凑模型在合成数据生成中的可行性，为计算社会科学领域提供了可复现的仿真工具，推动了调查工具预测试与人口响应模式探索的方法创新。

当前挑战

PolyPersona数据集致力于解决合成调查响应生成中的角色一致性与领域代表性问题，其核心挑战在于如何使语言模型在生成过程中保持角色的人口统计学与心理特征跨领域稳定。现有方法常因角色约束不足导致输出偏离预期分布，难以捕捉真实人群的响应方差与细微文化差异。在构建过程中，研究团队面临多重挑战：需从海量角色库中筛选并结构化数千个角色描述，确保其覆盖多样职业、价值观与行为模式；同时需设计跨10个领域的平衡问题集，整合开放式、李克特量表等多种问题类型；此外，还需开发多维度评估框架，兼顾表面文本质量、语义对齐与角色连贯性，以克服合成数据中常见的偏见重复与分布回归均值等问题。

常用场景

经典使用场景

在当代调查研究领域，面对日益攀升的数据采集成本和持续下降的受访者参与率，PolyPersona数据集为解决这一困境提供了创新路径。该数据集最经典的使用场景在于为学术研究提供高质量的合成调查响应，用于问卷工具的预测试与验证。研究人员可以基于数据集中的433个独特人物角色和10个主题领域的模拟响应，系统地评估调查问题的清晰度、结构合理性以及潜在的反应偏差，从而在正式的大规模数据收集前优化调查设计，显著降低实地调研的试错成本与资源消耗。

实际应用

超越纯粹的学术探索，PolyPersona数据集在现实应用中展现出广泛潜力。在市场调研、公共卫生政策制定以及用户体验研究等领域，当涉及敏感话题或难以触及的特定人群时，直接获取真实数据面临伦理与实操挑战。该数据集能够模拟多样化人物角色的反馈，为研究人员提供可控的、匿名的初步洞察，辅助进行趋势分析、方案敏感性测试或资源有限情况下的探索性研究。其开源协议和偏差监控机制进一步确保了合成数据在实际应用中的可靠性与透明度。

衍生相关工作

PolyPersona数据集的发布推动了人物角色条件语言模型在合成数据生成领域的系列经典工作。其方法论直接启发了后续研究对人物角色粒度、跨文化校准以及长期一致性建模的深入探索。例如，基于该框架的扩展工作开始关注如何将更丰富的社会经济背景与潜在信念网络相结合，以生成更具心理真实性的响应。同时，其多指标评估栈（融合BLEU、ROUGE、BERTScore及调查特定指标）也为该领域设立了新的评估基准，促使相关研究从单纯追求语言质量转向全面衡量行为保真度与人口代表性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集