value-drifts

Name: value-drifts
Creator: McGill NLP Group
Published: 2025-11-04T03:26:47+08:00

Hugging Face2025-11-04 更新2025-11-05 收录

自然语言处理

机器学习

数据链接：

https://huggingface.co/datasets/McGill-NLP/value-drifts 数据链接链接失效反馈

官方服务：

资源简介：

该数据集用于研究论文《Value Drifts: Tracing Value Alignment During LLM Post-Training》。它包括两个关键数据集：1. V-PRISM：一个包含550个价值探测提示的评价集，跨越11个类别。2. 合成偏好数据集：一个具有控制价值差距的合成数据集，提示来自 UltraFeedback 和 HH-RLHF 数据集。

提供机构：

McGill NLP Group

创建时间：

2025-11-04

原始信息汇总

数据集概述

基本信息

数据集名称: Value Drifts
许可证: CC-BY-4.0
标签: AI安全、AI对齐、价值对齐、价值漂移

数据集构成

配置1: default

特征:
- question (字符串)
- topic (字符串)
数据分割:
- vprism: 550个样本，60,776字节

配置2: synthetic_preference_data

特征:
- chosen (字符串)
- rejected (字符串)
- topic (字符串)
数据分割:
- train: 9,453个样本，30,577,802字节

配置3: vprism

特征:
- question (字符串)
- topic (字符串)
数据分割:
- train: 550个样本，60,776字节

数据集摘要

该存储库包含分析中使用的两个关键数据集：

V-PRISM: 用于衡量价值漂移的价值探测提示评估集，包含550个价值探测提示，涵盖11个类别
合成偏好数据集: 具有受控价值差距的合成数据集，提示来自UltraFeedback和HH-RLHF数据集

使用方法

python from datasets import load_dataset vprism = load_dataset("McGill-NLP/value-drifts", "vprism", split="train") synthetic_preference_dataset = load_dataset("McGill-NLP/value-drifts", "synthetic_preference_data", split="train")

引用信息

bibtex @misc{bhatia2025valuedrifts, title={Value Drifts: Tracing Value Alignment During LLM Post-Training}, author={Mehar Bhatia and Shravan Nayak and Gaurav Kamath and Marius Mosbach and Karolina Stańczak and Vered Shwartz and Siva Reddy}, year={2025}, eprint={2510.26707}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.26707}, }

搜集汇总

数据集介绍

构建方式

在人工智能安全与价值对齐研究领域，value-drifts数据集通过严谨的构建流程实现价值漂移的量化分析。V-PRISM评估集精心设计了550个价值探针提示，覆盖11个核心价值维度，每个提示均经过系统化分类标注。合成偏好数据集则采用控制变量方法，从UltraFeedback和HH-RLHF数据源中筛选样本，通过构建具有明确价值差距的配对数据，为模型训练提供精准的价值对齐参照系。

特点

该数据集最显著的特征在于其双模块架构的协同设计。V-PRISM模块通过多维价值探针实现细粒度测量，其550个样本均匀分布在伦理、社会规范等11个关键领域。合成偏好模块则展现出规模优势，包含9453组经过价值校准的对比样本，每组数据均包含被采纳与拒绝的响应对，为研究模型价值取向演变提供了丰富的观测窗口。两个模块均采用标准化数据结构，确保研究结果的可复现性。

使用方法

研究人员可通过HuggingFace标准接口快速调用数据集组件，使用load_dataset函数分别加载vprism与synthetic_preference_data配置。V-PRISM适用于模型价值取向的静态评估，而合成偏好数据则专为监督微调阶段设计。在实际应用中，建议结合论文提出的价值漂移追踪框架，将探针评估与偏好训练形成闭环，系统观测语言模型在后训练过程中的价值对齐动态。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其价值对齐问题逐渐成为人工智能安全研究的核心议题。由麦吉尔大学等研究机构于2025年创建的value-drifts数据集，旨在系统追踪语言模型后训练阶段的价值漂移现象。该数据集通过构建V-PRISM评估集和合成偏好数据，为量化分析模型价值取向的动态演变提供了重要基准，对促进人工智能伦理治理和可控发展具有深远意义。

当前挑战

在价值对齐研究领域，准确捕捉语言模型价值取向的隐性变化面临严峻挑战。V-PRISM评估集需克服价值维度分类的语义模糊性，确保550个探针问题能全面覆盖11个价值范畴。合成偏好数据的构建难点在于控制价值差距的精确度，需在UltraFeedback等现有数据集基础上建立可靠的价值梯度。这些技术障碍直接关系到对模型价值漂移现象的量化精度与解释效力。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，value-drifts数据集被广泛应用于追踪大型语言模型后训练过程中的价值漂移现象。该数据集通过V-PRISM评估集对模型进行系统性价值探测，涵盖11个价值维度的550个提示，为量化模型价值对齐程度提供了标准化基准。研究者利用这些结构化数据，能够精确测量模型在不同训练阶段的价值取向变化，从而揭示潜在的对齐风险。

衍生相关工作

该数据集已催生多项重要的延伸研究，包括基于价值轨迹分析的早期预警系统开发，以及针对特定文化背景的价值对齐基准构建。部分研究团队借鉴其受控价值差距的设计思路，开发了面向多模态模型的价值评估框架。这些衍生工作共同推动了价值对齐研究从定性讨论向定量分析的范式转变，为人工智能安全领域注入了新的方法论活力。

数据集最近研究