基于文本细粒度人类反馈的语言模型微调数据集

Name: 基于文本细粒度人类反馈的语言模型微调数据集
Creator: 哥伦比亚大学; 微软; 约翰霍普金斯大学
Published: 2025-12-30 02:51:56
License: 暂无描述

arXiv2025-12-30 更新2025-12-31 收录

下载链接：

https://hf.co/datasets/jamescalam/ai-arxiv2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由哥伦比亚大学、微软和约翰霍普金斯大学联合构建，专注于长文本生成的细粒度人类反馈。包含来自Yelp评论、新闻文章、维基百科和arXiv论文四大领域的115k词汇标注，每条响应平均标注4.7个负面文本片段及3.8个属性标签。通过Llama-3.1模型生成改进序列，形成1303个渐进式编辑步骤的偏好对。其创新性在于将传统A/B比较转化为基于文本片段修订的监督信号，显著提升语言模型对齐效率，适用于检索增强生成等需要精准反馈修正的场景。

This dataset was jointly constructed by Columbia University, Microsoft, and Johns Hopkins University, focusing on fine-grained human feedback for long-text generation. It contains 115k lexical annotations across four domains: Yelp reviews, news articles, Wikipedia entries, and arXiv papers. On average, each response is annotated with 4.7 negative text segments and 3.8 attribute tags. Improved sequences generated via the Llama-3.1 model form 1,303 preference pairs with progressive editing steps. Its core innovation lies in transforming traditional A/B comparisons into supervision signals based on text segment revisions, which significantly improves the alignment efficiency of language models and is suitable for scenarios requiring precise feedback correction such as retrieval-augmented generation (RAG).

提供机构：

哥伦比亚大学; 微软; 约翰霍普金斯大学

创建时间：

2025-12-30

搜集汇总

数据集介绍

构建方式

在语言模型对齐研究领域，传统基于A/B整体排序的偏好数据构建方法常因全局比较的模糊性而引入噪声。本数据集采用了一种新颖的、基于文本片段细粒度反馈的构建范式。其核心流程始于从Yelp评论、新闻、维基百科及arXiv论文四个长文本领域采样文档，并利用GPT-4.1生成具有挑战性的查询，再由Llama-3.1-8B-Instruct模型生成初始响应。随后，标注者被要求在这些长响应中，以高亮方式精确标记出“喜欢”与“不喜欢”的文本片段，并从一个精心设计的分类法中选取具体理由进行标注。最后，原始模型根据每位标注者的完整反馈，从左至右对每个“不喜欢”片段进行迭代式重写，生成一个由相邻步骤构成的改进序列，每一步仅针对一个片段进行针对性编辑，从而构建出用于直接偏好优化的高质量偏好对。

使用方法

该数据集主要服务于语言模型的直接偏好对齐优化，例如直接偏好优化及其变体。研究者可将改进链中任意相邻的响应对作为偏好数据，其中后续响应为优选样本。这种基于局部修订的配对方式，尤其适合那些专为处理高度相似样本而设计的损失函数。在使用前，通常建议先利用数据集中的最终改进版响应对基础模型进行监督微调，以提升其生成质量，再在此基础上进行偏好优化训练。实验表明，利用全部步骤间配对进行训练能获得最佳效果，但仅使用单步修订或首尾版本配对也能带来显著提升。该数据集为探究如何利用细粒度、结构化的反馈来更高效地塑造模型行为提供了宝贵资源。

背景与挑战

背景概述

随着大型语言模型在自然语言处理任务中展现出卓越性能，基于人类反馈的强化学习成为提升模型对齐能力的关键技术。然而，传统偏好优化方法依赖于对完整响应的全局A/B比较，这种粗粒度的反馈机制难以精确指导模型改进。为此，哥伦比亚大学、微软和约翰斯·霍普金斯大学的研究团队于2025年提出了基于文本细粒度人类反馈的语言模型微调数据集。该数据集创新性地引入了跨度级反馈标注框架，要求标注者在模型生成的较长响应中标记“喜欢”与“不喜欢”的文本片段，并依据系统化的分类体系阐明具体原因。通过驱动模型基于这些细粒度反馈进行逐步迭代修订，构建出清晰的改进序列，从而为核心研究问题——如何利用结构化、局部化的监督信号实现更高效、更精准的偏好对齐——提供了新颖的解决方案。这一工作为语言模型的对齐研究开辟了新的数据范式，显著增强了模型从人类反馈中学习复杂、多维偏好的能力。

当前挑战

该数据集旨在解决语言模型与人类偏好对齐这一核心领域问题，其面临的挑战主要体现于两个方面。在领域问题层面，传统基于A/B排序的偏好数据往往存在信号模糊与噪声干扰，因为两个随机响应很少在各个方面存在绝对优劣，导致模型难以从中提取明确、一致的学习目标。此外，对于长文本生成任务，全局偏好判断无法定位需要改进的具体内容，使得模型优化过程缺乏针对性。在构建过程层面，数据收集面临标注一致性与成本效益的平衡难题。跨度级反馈具有高度主观性，不同标注者对同一响应的标注范围与理由可能存在显著差异，这种变异性虽反映了人类偏好的多样性，但也为构建稳定、可泛化的训练信号带来了复杂性。同时，为确保修订序列的逻辑连贯与最小对比性，需要设计精妙的提示工程与自动化验证机制，以避免生成无效或多步合并的编辑，这对工作流程的稳健性提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，该数据集为语言模型的偏好对齐提供了精细化的监督信号。通过标注者对模型生成的长文本响应进行细粒度标注，标记出“喜欢”与“不喜欢”的文本片段，并辅以分类化的理由说明，数据集构建了基于文本片段反馈的改进链。这一方法使得模型能够从局部、目标明确的编辑中学习，从而优化生成内容的质量与人类偏好的一致性。

解决学术问题

该数据集有效解决了传统人类反馈中偏好对构建的噪声与模糊性问题。传统方法依赖全局的A/B偏好排名，难以捕捉文本内部不同片段的优劣差异，导致监督信号不明确。本数据集通过细粒度的片段级反馈，为直接偏好优化等对齐方法提供了清晰、可解释的训练数据，提升了模型对齐的样本效率与效果，推动了语言模型与人类价值观更精准的契合。

实际应用

在实际应用中，该数据集可广泛应用于需要高质量长文本生成的场景，如检索增强生成、内容创作辅助与智能客服系统。通过集成细粒度反馈机制，系统能够根据用户对特定文本片段的偏好进行迭代优化，生成更符合用户期望的响应。这不仅提升了用户体验，也为企业级语言模型部署提供了可扩展的、低成本的人类反馈解决方案。

数据集最近研究