AlignX

github2025-03-25 更新2025-03-29 收录

下载链接：

https://github.com/JinaLeejnl/AlignX

下载链接

链接失效反馈

官方服务：

资源简介：

AlignX是一个包含超过130万个性化偏好示例的大规模数据集，涉及Reddit数据和现有对齐数据集，以保持通用价值对齐能力。

AlignX is a large-scale dataset containing over 1.3 million personalized preference examples, which draws on data from Reddit and existing alignment datasets to maintain general value alignment capabilities.

创建时间：

2025-03-17

原始信息汇总

AlignX数据集概述

基本信息

数据集名称: AlignX
数据规模: 超过130万条个性化偏好示例
主要特点: 包含大规模Reddit数据和现有对齐数据集，用于保持通用价值对齐能力

数据集链接

数据统计

数据来源	Reddit	PKU-SafeRLHF	UltraFeedback	HelpSteer2
维度	90个自定义偏好维度	安全性	帮助性/诚实性/指令遵循/真实性	帮助性/正确性/连贯性/复杂性/冗长性
样本量	1,225,988	10,714	11,629/16,809/36,169/7,219	2,255/144/26/33/636

数据集格式

jsonc { "prompt": "", // 引发回复的帖子 "chosen": "", // 用户偏好的回复 "rejected": "", // 相对不喜欢的回复 "Preference Direction": [0/0.5/1] * 90, // 90元素列表表示偏好方向 "Demographic Information": "", // 用户人口统计信息 "User-Generated Content": [ // 同一用户的其他评论 { "prompt": "", "comment": "", "Preference Direction": [0/0.5/1] * 90 } ], "Pair-wise Comparative Feedback": [ // 同一用户对其他帖子的偏好对 { "prompt": "", "chosen": "", "rejected": "", "Preference Direction": [0/0.5/1] * 90 } ] }

模型实现

基础模型: Llama-3.1-8B-Instruct
训练方法:
- In-Context Alignment (ICA)
- Preference-Bridged Alignment (PBA)
训练规模:
- 7%子集(91,918样本)
- 完整数据集(1,311,622样本)

评估方法

对齐准确率
- 使用./eval/loss_ica.py和./eval/loss_pba.py计算选择/拒绝回复的对数概率
- 使用./eval/acc.py计算对齐准确率
GPT-4胜率
- 使用GPT-4评估生成回复的质量

搜集汇总

数据集介绍

构建方式

在个性化偏好研究领域，AlignX数据集通过整合多源异构数据构建而成。该数据集的核心部分来源于Reddit平台的用户生成内容，涵盖90个自定义偏好维度，同时融合了PKU-SafeRLHF、UltraFeedback和HelpSteer2等现有对齐数据集。构建过程中采用严格的标注流程，每个样本包含原始提示、优选回复、次选回复三要素，并附有90维偏好方向向量和用户画像信息，最终形成131万条高质量样本。

特点

作为当前规模最大的个性化偏好数据集，AlignX的突出特点体现在其多维度的偏好表征体系。数据集不仅包含传统的二元偏好标注，还创新性地引入90维连续偏好空间，能精确刻画用户在不同情境下的价值取向。每一条数据都配有完整的用户画像和社交行为轨迹，包括用户在其他帖子的评论记录和比较反馈，为研究个性化对齐提供了丰富的上下文信息。

使用方法

该数据集采用标准JSON格式存储，研究者可通过Hugging Face平台直接加载。典型使用场景包括：基于In-Context Alignment或Preference-Bridged Alignment方法的模型训练，通过eval目录下的脚本可计算对齐准确率和GPT-4胜率。数据集中提供的用户生成内容和成对比较反馈，特别适合用于few-shot learning和个性化偏好预测任务。

背景与挑战

背景概述

AlignX数据集是2025年由JinaLeejnl团队发布的大规模个性化偏好数据集，包含超过130万条样本，旨在推动大型语言模型在个性化对齐领域的研究。该数据集整合了Reddit平台用户生成内容及多个现有对齐数据集（如PKU-SafeRLHF、UltraFeedback等），通过90个自定义偏好维度刻画用户个性化需求。相关研究成果发表于《A Survey on Personalized Alignment》综述论文，为解决LLMs在现实应用中如何保持伦理边界同时适应个体偏好这一核心问题提供了重要数据支撑，标志着个性化对齐研究进入量化分析新阶段。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多维度偏好建模的复杂性，90个动态偏好方向的量化标注要求模型具备细粒度理解能力；在构建过程中，如何平衡Reddit数据的多样性与其他对齐数据集的标准性存在技术难度，1,311,622条样本的标注一致性保障及用户生成内容与成对比较反馈的结构化整合对数据处理流程提出极高要求。实验表明，即使采用7%子集训练，模型性能已面临维度冲突和长尾偏好覆盖不足等典型挑战。

常用场景

经典使用场景

在个性化推荐系统和自然语言处理领域，AlignX数据集以其庞大的规模和多样化的偏好维度成为研究热点。该数据集通过整合Reddit用户生成内容和现有对齐数据集，为研究者提供了丰富的个性化偏好示例。经典使用场景包括训练大型语言模型（LLMs）以理解并适应用户的个性化需求，同时保持伦理边界内的行为。

衍生相关工作

围绕AlignX数据集已衍生出多项创新研究，包括In-Context Alignment（ICA）和Preference-Bridged Alignment（PBA）等新型对齐方法。相关成果发表在《个性化对齐调查》等重要文献中，为后续研究奠定了理论基础。基于该数据集开发的基准模型在Hugging Face平台开源，推动了社区对个性化对齐技术的探索与创新。

数据集最近研究