thoughtworks/parliamentary_personas

Name: thoughtworks/parliamentary_personas
Creator: thoughtworks
Published: 2026-05-01 13:23:42
License: 暂无描述

Hugging Face2026-05-01 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/thoughtworks/parliamentary_personas

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含政治人物多维信息的结构化数据集，涵盖个人基本信息（姓名、年龄、性别、婚姻状况等）、教育背景、政治属性（党派归属、选区类型等）、心理特征（认知能力、情绪行为功能等）、政策立场（AI监管、农业与农村、气候与能源等）以及演讲内容等丰富特征。数据集包含2200个训练样本，可用于政治人物分析、心理特征研究或政治立场预测等自然语言处理任务。

This is a structured dataset containing multi-dimensional information about politicians, covering personal basic information (name, age, gender, marital status, etc.), educational background, political attributes (party affiliation, constituency type, etc.), psychological characteristics (cognition, emotional-behavioral functioning, etc.), policy stances (AI regulation, agriculture and rural, climate and energy, etc.) and speech content. The dataset contains 2200 training examples and can be used for NLP tasks such as politician analysis, psychological characteristic research or political stance prediction.

提供机构：

thoughtworks

搜集汇总

数据集介绍

构建方式

该数据集以合成方式构建，旨在系统性地模拟英国议会人物的多元化行为特征。构建过程首先基于对议会政治行为的深入分析，定义了10种独特的议会原型，如程序主义者、媒体角斗士、跨党派协调者等，每种原型代表一种鲜明的政治行为轮廓。随后，开发了结构化模板以生成人物档案，确保叙述、行为与角色之间的内在一致性。在生成过程中，通过多层条件控制实现高度定制：一方面利用第一人称政治自传作为回忆录基础，锚定人物的修辞与决策逻辑；另一方面编码外貌、行为特征及公共形象特质，如语调、辩论风格等。最终通过模式约束提示技术，将原型、叙事及行为特质对齐，生成2200个平衡分布于各原型及变体的人物实例，形成结构化的议会人物基准数据集。

特点

该数据集在结构设计上展现出高度的多维性与精细化特征。每个人物档案不仅包含基础的人口统计学信息（如年龄、性别、婚姻状况、族裔背景、政党归属与选区），还深入刻画了议会特定属性，包括议会风格、媒体倾向、修辞语气、与政党的关系、对机构的态度、委员会焦点、选区类型、捐赠游说曝光度、丑闻脆弱性、媒体足迹、领导野心、联盟姿态及选区服务风格等。更具特色的是，数据集整合了心理剖析维度，如思维内容、洞察判断、认知功能、情绪行为功能、社会功能及政治关系，并提供结构化政策立场数据，覆盖21个关键政策领域（如AI监管、气候变化、移民、医疗服务等）。每位人物还附有完整回忆录、摘要、叙述及原型描述，最终以人物哈希确保唯一性，为政治行为建模提供高度可复现的丰富数据源。

使用方法

该数据集专为语言模型在政治角色条件下的评估而设计，应用场景广泛且明确。研究者可利用人物特征字段对大型语言模型进行角色条件化设置，通过人物字符串字段将完整的议会人物档案输入模型，以评估模型在特定政治角色下的行为对齐、修辞风格及说服倾向。数据集特别适用于多智能体政治模拟研究，通过让不同人物代理参与议会辩论模拟，可检验模型在跨党派合作、意识形态刚性、媒体互动等维度上的表现。此外，该数据集还可服务于偏见与公平性研究，通过比较模型在不同族裔、性别、政党背景下的输出，揭示潜在的政治偏见。但需注意，数据集不应被用于现实政治竞选、生成政治宣传信息或作为政策决策依据，其核心价值在于学术研究中的控制性实验与行为分析。

背景与挑战

背景概述

在大型语言模型日益渗透政治敏感领域的背景下，理解其在特定政治角色条件作用下的行为模式成为一项紧迫的研究课题。由Amirali Abdullah等研究者于2025年构建的parliamentary_personas数据集，旨在系统性地填补现有数据集在结构化政治原型、议会内部多样性及政策、媒体与政党动态权衡建模方面的空白。该数据集由2,200个合成生成的英国议会人物画像构成，每个画像根植于十种独特的议会原型之一，涵盖了立法、政党及公共面向的广泛行为谱系。通过引入议会特化原型并实现可控的行为变异，该数据集为分析语言模型在政治语境下的修辞、对齐与说服机制提供了坚实的基准，其影响力延伸至政治科学、计算社会学与人机交互领域。

当前挑战

该数据集应对的核心领域挑战在于，现有资源缺乏对议会内部多样化政治行为模式的结构化刻画，难以支撑对语言模型在政治角色条件作用下行为偏移与对齐属性的精细评估。构建过程中面临的挑战包括：如何设计出既具代表性又互斥的议会原型，以确保覆盖从立法专注到媒体博弈的连续行为谱系；如何通过回忆录基础、外观与行为条件以及模式约束提示等分层框架，生成兼具真实性与一致性的人物画像；以及如何在2,200个样本中实现原型与变体的平衡分布，避免引入系统性偏差。此外，确保生成的人物画像（如政策立场、修辞风格）不脱离现实政治逻辑，同时避免刻板印象的强化，亦是关键难点。

常用场景

经典使用场景

在政治科学与自然语言处理的交叉领域中，parliamentary_personas数据集常被用于模拟议会辩论与多智能体互动场景。其2,200个精细刻画的英国议会议员角色，覆盖了从程序主义者到媒体角斗士等10种迥异的议会原型，为研究者提供了可控的角色条件框架。通过将每位角色锚定于自传叙事、行为特征与结构化模板，该数据集能够生成高度真实的议政对话，从而支持对语言模型在政治语境下行为一致性与角色适配性的系统评估。这一设计使得模拟复杂议会生态、测试不同角色间策略互动成为可能，成为政治话语生成与对话系统研究的基石。

衍生相关工作

基于该数据集，学术界已衍生出一系列里程碑式的研究工作。首当其冲的是Yost等人提出的情境判断测试框架，该工作利用parliamentary_personas对语言模型进行心理测量学评估，揭示了角色条件下模型在伦理决策与说服策略上的系统性偏差。后续工作进一步将数据集扩展至多智能体辩论系统，通过对比不同原型组合下的辩论博弈，提炼出关于联盟构建与媒体暴露度的动力学规律。此外，该数据集还催生了针对政治话语中修辞对齐性的量化分析工具，以及用于检测角色诱导偏见的事后解释方法，持续推动AI安全与政治模拟领域的边界拓展。

数据集最近研究