five

FAIR-PP

收藏
arXiv2025-05-17 更新2025-05-21 收录
下载链接:
https://huggingface.co/datasets/tools-o/Fair-PP
下载链接
链接失效反馈
官方服务:
资源简介:
FAIR-PP是一个针对社会公平的个人化偏好数据集,由真实世界的社会调查数据生成,涵盖了28个社会群体、98个公平主题和5个个人偏好维度。数据集由34,089个调查问题和238,623个个人化偏好数据点组成,旨在帮助探索主流大型语言模型在不同地区的社会公平偏好景观,并支持进一步的偏好对齐。数据集的创建基于现实世界的调查,内容全面,并具有自动生成数据的特点。

FAIR-PP is a personalized preference dataset focused on social equity, generated from real-world social survey data, covering 28 social groups, 98 equity-related topics, and 5 personal preference dimensions. The dataset consists of 34,089 survey questions and 238,623 personalized preference data points, aiming to assist in exploring the landscape of social equity preferences of mainstream large language models across different regions, and supporting further preference alignment work. The dataset is constructed based on real-world surveys, with comprehensive coverage and automatic data generation capabilities.
提供机构:
浙江大学, 新加坡国立大学, 南洋理工大学, IHPC和CFAR, A*STAR
创建时间:
2025-05-17
搜集汇总
数据集介绍
main_image_url
构建方式
FAIR-PP数据集通过整合现实世界的社会调查数据,构建了一个针对社会公平的个性化偏好数据集。该数据集包含28个社会群体、98个公平主题和5个个性化偏好维度。利用GPT-4o-mini模型,基于七种代表性人物角色扮演生成偏好记录,共计238,623条。数据生成过程包括模板化问题和生成式问题,确保数据的多样性和真实性。
特点
FAIR-PP数据集的特点在于其全面性和多样性。它不仅覆盖了广泛的社会群体和公平主题,还通过多维度视角捕捉个性化偏好。数据集中的每个问题均结合社会群体、公平主题和视角维度,确保数据的深度和广度。此外,生成式问题进一步丰富了数据的现实场景应用,使其更具实用性和研究价值。
使用方法
FAIR-PP数据集可用于研究大型语言模型在社会公平领域的个性化偏好对齐。用户可以通过分析数据集中的偏好记录,探索不同社会群体和公平主题下的个性化差异。此外,数据集还支持样本加权方法,用于优化目标人物角色的偏好对齐,同时最大化与其他角色的差异。具体使用方法包括数据加载、模型训练和偏好分析,详细操作可参考提供的代码和文档。
背景与挑战
背景概述
FAIR-PP数据集由浙江大学、新加坡国立大学等机构的研究团队于2025年提出,旨在解决大语言模型(LLMs)与多元化社会价值观对齐的关键问题。该数据集基于真实社会调查数据构建,涵盖28个社会群体、98个公平议题和5个个人偏好维度,通过GPT-4o-mini生成238,623条角色扮演偏好记录。作为首个聚焦社会公平价值的个性化偏好数据集,FAIR-PP通过七种典型人物画像锚定偏好空间,为分析主流LLMs的价值观定位提供了量化基准,推动了AI系统在公共政策、社会服务等领域的公平性研究。
当前挑战
FAIR-PP面临的挑战主要体现在:1) 领域问题层面:传统偏好数据集多关注普适性价值观,难以捕捉社会公平议题中个性化偏好与群体特征的复杂关联,例如少数族群在教育资源分配中的差异化诉求;2) 构建过程层面:需平衡生成数据的规模效率与真实性,包括基于模板的问题与生成式场景的协同设计、人物画像的跨文化泛化,以及通过自校准提示消除LLM角色扮演中的认知偏差。此外,动态社会价值观的时效性要求数据集持续迭代更新机制。
常用场景
经典使用场景
FAIR-PP数据集在大型语言模型(LLM)的社会价值观对齐研究中具有重要应用。通过模拟七种代表性人物角色,该数据集能够捕捉不同社会群体在98个公平话题上的个性化偏好,为研究者提供了一个多维度的偏好空间分析工具。在学术实验中,研究者常利用该数据集评估主流LLM模型在不同文化区域中的偏好分布,例如通过Jensen-Shannon距离量化模型与特定人物角色的相似性。
解决学术问题
该数据集解决了LLM对齐研究中个性化偏好数据缺失的核心问题。传统偏好数据集多关注普适性价值观,而FAIR-PP通过整合真实社会调查数据,构建了涵盖28个社会群体、5个偏好维度的细粒度资源。其自动化生成框架显著降低了人工标注成本,同时样本重加权方法为特定人物角色的精准对齐提供了技术路径,弥补了现有方法在捕捉偏好独特性方面的不足。
衍生相关工作
该数据集推动了多项个性化对齐技术的创新。基于FAIR-PP的样本重加权机制催生了WDPO(Weighted Direct Preference Optimization)方法,在Llama-3等模型上实现目标角色对齐准确率提升12%。后续研究如《Modular Pluralism》进一步扩展了多LLM协作框架,利用FAIR-PP的锚点数据实现价值观的模块化组合。文化适配评估工具NORMAD也将其作为核心基准数据集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作