berkeley-nest/Nectar
收藏Hugging Face2024-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/berkeley-nest/Nectar
下载链接
链接失效反馈官方服务:
资源简介:
Nectar是第一个通过GPT-4生成的高质量7-wise比较数据集,包含多样化的聊天提示、高质量和多样化的响应以及准确的排名标签。数据集的提示来源于多个数据集,包括lmsys-chat-1M、ShareGPT、Antropic/hh-rlhf、UltraFeedback、Evol-Instruct和Flan。每个提示的7个响应主要来自GPT-4、GPT-3.5-turbo、GPT-3.5-turbo-instruct、LLama-2-7B-chat和Mistral-7B-Instruct等模型。数据集的响应通过GPT-4进行排序,总共包含3.8M对比较。Nectar用于训练奖励模型Starling-RM-7B-alpha,该模型推动了Starling-LM-7B-alpha在MT-Bench上的得分达到8.09,这是目前任何7B模型的最高得分。
提供机构:
berkeley-nest
原始信息汇总
数据集概述
基本信息
- 名称: Nectar
- 开发团队: Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, Jiantao Jiao
- 许可: Apache-2.0,条件是不用于与OpenAI竞争
- 语言: 英语
- 大小分类: 100K<n<1M
- 配置: 默认配置,数据文件位于
data/rlaif.parquet - 标签: RLHF, RLAIF, reward model
数据集内容
- 类型: 7-wise比较数据集
- 生成方式: 通过GPT-4基于排名的生成
- 内容: 包含多样化的聊天提示、高质量和多样化的响应以及精确的排名标签
- 提示来源: 混合了多个数据集,包括lmsys-chat-1M, ShareGPT, Antropic/hh-rlhf, UltraFeedback, Evol-Instruct, Flan
- 响应来源: 主要来自GPT-4, GPT-3.5-turbo, GPT-3.5-turbo-instruct, Llama-2-7B-chat, Mistral-7B-Instruct等模型
- 排名: 每个提示的7个响应由GPT-4进行排名,总计3.8M对比较
数据集结构
json { "prompt": str, "answers": [ { "answer": str, "model": str, "rank": int }, ... ], "turns": int, "num_response": int, "source": list[str], "good_natured": bool }
数据收集过程
- 提示收集: 从多个数据集生成并筛选提示,确保每个提示有多个答案
- 响应收集: 从多个模型中提取响应,确保每个提示有7个响应
- 排名收集: 使用GPT-4根据帮助性和无害性标准对响应进行排名
注意事项
- 数据集包含可能不安全、冒犯性或令人不安的内容,仅供训练更安全的模型使用。
搜集汇总
数据集介绍

构建方式
在强化学习与人工智能对齐的浪潮中,高质量偏好数据集成为驱动奖励模型性能跃升的关键基石。Nectar数据集由伯克利团队匠心打造,作为首个基于GPT-4排序的7路比较数据集,其构建过程严谨而精密。首先,数据集的提示来源广泛,融合了lmsys-chat-1M、ShareGPT、Anthropic/hh-rlhf、UltraFeedback、Evol-Instruct及Flan等多个知名数据集,经过去重与筛选后保留了超过18万条高质量提示。每条提示对应7条回复,这些回复主要源自GPT-4、GPT-3.5-turbo、LLama-2-7B-chat及Mistral-7B-Instruct等多种模型的蒸馏输出,并通过优先级策略确保回复的多样性与质量。最终,借助GPT-4依据助益性与无害性双重准则对回复进行排序,生成了约380万对比较标签,为奖励模型训练提供了丰富的监督信号。
特点
Nectar数据集以其独特的7路比较架构在众多偏好数据集中脱颖而出。其核心特点在于每条提示均包含7个来自不同模型的回复,并通过GPT-4进行精准排序,从而构建出具有细粒度区分度的偏好标签。这种设计不仅提升了比较对的规模(达380万对),还显著增强了标签的准确性与一致性。此外,数据集涵盖了多元化的提示来源与模型回复,确保了数据的广泛代表性与鲁棒性。值得关注的是,数据集中还附带了一个由GPT-4自动生成的'good_natured'标签,用于标识提示的善意程度,为后续研究提供了额外的分析维度。这些特性使得Nectar成为训练高性能奖励模型(如Starling-RM-7B-alpha)的理想素材,并助力Starling-LM-7B-alpha在MT-Bench上取得7B模型中的最高分8.09。
使用方法
Nectar数据集以Apache-2.0许可协议发布,仅限非商业用途,且要求不得用于与OpenAI竞争。数据集以Parquet格式存储于HuggingFace,其schema结构清晰,每条数据包含提示文本、7个回复及其对应的模型来源、排序等级、对话轮次、回复数量、数据来源列表以及善意标签。用户可通过HuggingFace Datasets库直接加载,例如使用`load_dataset('berkeley-nest/Nectar', split='train')`。该数据集主要适用于训练奖励模型或进行偏好学习研究,开发者可基于其中的排序标签构建成对比较损失函数。需注意,数据集中可能包含不安全或冒犯性内容,仅供训练更安全模型之用,使用时需审慎评估。
背景与挑战
背景概述
在大语言模型(LLM)的飞速演进中,基于人类反馈的强化学习(RLHF)已成为提升模型与人类价值观对齐的关键范式。然而,传统偏好数据集的构建往往受限于人工标注成本高昂、标注者主观偏差以及对比样本数量有限等问题,难以充分捕捉响应间微妙的优劣差异。为突破这一瓶颈,来自加州大学伯克利分校的Banghua Zhu、Evan Frick、Tianhao Wu、Hanlin Zhu与Jiantao Jiao等研究者于2023年推出了Nectar数据集。该数据集开创性地构建了首个大规模7路比较(7-wise comparison)偏好数据,通过GPT-4对来自GPT-4、GPT-3.5-turbo、Llama-2-7B-chat、Mistral-7B-Instruct等多种模型的响应进行排序,生成了约18.3万条提示及对应的7级排名标签,进而衍生出380万对两两比较数据。Nectar的诞生不仅为奖励模型训练提供了更丰富、更可靠的监督信号,更直接助力基于其训练的Starling-RM-7B-alpha奖励模型推动Starling-LM-7B-alpha在MT-Bench上取得了当时7B参数模型中的最高分8.09,深刻影响了RLHF/RLAIF领域的实践路径。
当前挑战
Nectar数据集所应对的核心领域挑战在于,传统偏好数据集通常仅包含单一或少量对比(如成对比较),难以全面反映多个候选响应之间的相对质量梯度,导致奖励模型在区分细微差异时泛化能力不足。为此,Nectar通过引入7路排序机制,迫使模型学习更精细的偏好排序结构,从而提升对齐的鲁棒性。在构建过程中,研究者面临多重技术挑战:首先是数据源的异构性与质量统一问题——数据集融合了lmsys-chat-1M、ShareGPT、Anthropic/hh-rlhf、UltraFeedback等六个来源,需设计去重、过滤非英文提示、确保提示长度与多样性等预处理策略;其次是响应收集的平衡性难题——需从多个开源与商业模型中精选7条响应,并制定优先级规则以避免模型偏差;最后是排序标注的可靠性挑战——利用GPT-4进行排序时,需设计特殊的提示模板与位置偏差缓解策略,并同时兼顾有用性与无害性两个维度的评估,确保排序结果既符合伦理规范又具备判别力。
常用场景
经典使用场景
Nectar数据集的核心经典应用在于构建基于人类反馈的强化学习(RLHF)与人工智能反馈的强化学习(RLAIF)体系,尤其专注于奖励模型的训练。该数据集以7路偏好比较的独特设计,为每个对话提示提供7个来自不同大语言模型(如GPT-4、GPT-3.5、Llama-2、Mistral等)的响应,并由GPT-4进行排序标注,生成约380万对偏好比较。这一设计弥补了以往二元或三元偏好数据集在细粒度排序信息上的不足,为训练更精准、更鲁棒的奖励模型提供了高质量训练素材,成为推动对齐研究的重要基石。
衍生相关工作
Nectar数据集催生了一系列具有影响力的后续工作。最直接的衍生成果是Starling-RM-7B-alpha奖励模型,该模型利用Nectar的7路排序数据训练,显著提升了奖励建模的准确性,并进而支撑了Starling-LM-7B-alpha语言模型的卓越性能。此外,该数据集为对比学习、偏好排序算法和多目标对齐等研究方向提供了基准资源,激发了诸如基于GPT-4自动标注的偏好数据生成技术、位置偏差缓解策略、以及多模型响应融合等方法的探索。其开源许可与详细构建流程也促进了社区在奖励模型公平性与鲁棒性方面的进一步研究。
数据集最近研究
最新研究方向
Nectar数据集代表了基于人工智能反馈的强化学习(RLAIF)领域的前沿进展,其核心创新在于构建了首个大规模7重比较排序数据集,通过GPT-4驱动的排名机制生成高质量偏好标签。该数据集整合了LMSYS-Chat-1M、ShareGPT、Anthropic HH-RLHF等多个来源的多样化对话提示,并利用GPT-4、LLaMA-2、Mistral-7B等模型生成响应,最终产出380万对比较数据。这一设计有效缓解了传统人工标注的成本与偏差问题,为奖励模型训练提供了更精准的监督信号。基于Nectar训练的Starling-RM-7B-alpha奖励模型,助力Starling-LM-7B-alpha在MT-Bench评测中以8.09分刷新7B参数规模模型的最高纪录。该研究不仅推动了RLAIF方法论从二元偏好向细粒度排序的演进,也为开源社区提供了可复现的高质量对齐数据基准,对提升大语言模型的无害性与有用性具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



